24/1/15

Hướng dẫn sử dung web automation lấy thông tin trên trang vàng

Web automation là công cụ giúp bạn có thể tự động những thao tác hàng ngày mà bạn thường lặp lại, ngoài việc có thể tự động lặp lại những việc mà bạn muốn bằng cách viết mã trong chương trình bạn có thể ghi lại các thao tác mà bạn làm bằng cách nhấn nút "Ghi" trên thanh công cụ sau đó chạy lại, thì các thao tác mà bạn đã làm sẽ được lặp lại cho bạn.

Trong bài viết hôm nay mình sẽ hướng dẫn cơ bản cho các bạn cách dùng và cách sử dụng mã lập trình để các bạn có thể tự động một số thao tác cũng như thu thập thông tin một cách tự động bằng web automation.

Trước khi bước vào phần hướng dẫn các bạn hãy đọc phần giới thiệu và liên kết tải web automation tại đây

Sau khi tải về và cài đặt .NET framework 4.0 như hướng dẫn các bạn bắt đầu mở chương trình bằng cách nhấn mở tập tin "Automation.exe" để khởi động chương trình

Sau khi mở ứng dụng, giao diện của chương trình như thế này:


Trên thanh địa chỉ bạn gõ địa chỉ trang vàng: http://www.yp.vn và nhấn Enter hoặc nhấn nút "Thực hiện" ở bên phải của thanh địa chỉ để mở trang web lên.


Sau đó bạn mở công cụ lập trình bằng cách nhấn nút "Hiện công cụ lập trình" ở trên thanh công cụ


Sau đó bạn hãy nhập đoạn mã sau để mở một trang web bất kỳ, ví dụ để mở trang vnexpress.net bạn nhập đoạn mã sau "go('địa chỉ trang web')" (bỏ dấu nháy đôi) trong khung mã lệnh phía bên dưới của chương trình (bạn có thể thay link vnexpress.net bằng bất kỳ link nào bạn muốn sau đó nhấn nút chạy để kiểm tra):

Sau khi nhấn 'Chạy' bạn sẽ thấy trang web sẽ được mở theo đúng liên kết mà bạn chọn, dĩ nhiên bạn phải đợi trang web tải xong thì bạn mới có thể chạy được những lệnh khác, ví dụ như bạn viết 5 dòng lệnh thì chỉ có dòng lệnh đầu tiên mở trang được chạy, những dòng lệnh còn lại vẫn sẽ chạy được tuy nhiên sẽ không đúng với kết quả bạn mong đợi, do đó bạn cần phải thêm dòng lệnh "sleep('thời gian chờ', false);" ví dụ bạn muốn chờ 5 giây để trang web tải xong trước khi chạy đoạn mã tiếp theo thì bạn viết "sleep(5, false);", bạn chưa cần quan tâm đến tham số thứ 2 vì tham số thứ 2 ít dùng đến nên mặc định bạn có thể để là "false"

Nhấn chạy để xem kết quả, bạn sẽ thấy sau khi trang vnexpress.net được tải sau 5 giây, nó sẽ xuất hiện thông báo "xin chào" mà mình đã viết.

Bây giờ qua phần chính là lấy thông tin doanh nghiệp trên trang vàng:

1. Đầu tiên là bạn mở trang doanh nghiệp bằng câu lệnh sau:

go('http://www.yp.vn/business/vn/tabid/493/ctl/s/mid/1835/language/en-US/Default.aspx');

2. Sau khi mở trang lên, bạn thiết lập thời gian chờ để trang tải xong, mình chọn thời gian là 5 giây

sleep(5, false);


3. Điền từ khóa cần tìm kiếm, điền thông tin thành phố và sau đó nhấn nút tìm kiếm.
 
fill("Kwords", "AN TOÀN - HỆ THỐNG & THIẾT BỊ");
fill("Province", "Hà Nội");

click("nutnhan");


4. Sau khi có kết quả tìm kiếm, bạn hãy chọn "Trích xuất" - "Element" như hình minh họa bên dưới, chọn kết quả đầu tiên sau đó chọn kết quả cuối cùng, bạn sẽ thấy một vòng lặp for được tạo ra để lấy tên những doanh nghiệp bên cột phía tay trái, sau đó nhấn nút "Chạy", để kiểm tra kết quả nhấn tab "Xem trước" sau khi mã lệnh chương trình đã chạy xong.

sleep(5,false);
for(i = 1; i <= 29; i++)
{
    var text = extract("/html/body/form/div[3]/div/div/div[3]/div/div/table/tbody/tr/td/div/div[3]/div[2]/div[2]/table[2]/tbody/tr["+ i +"]/td/table/tbody/tr/td[2]/table/tbody/tr/td/span/a", "text");
    log(text);
}



Còn tiếp...
Chia sẻ
  • Share to Facebook
  • Share to Twitter
  • Share to Google+
  • Share to Stumble Upon
  • Share to Evernote
  • Share to Blogger
  • Share to Email
  • Share to Yahoo Messenger
  • More...

0 nhận xét

 
© 2011 Phần mềm việt - Công nghệ 24h - congnghe24h - phanmemviet
Designed by BlogThietKe Cooperated with Duy Pham
Released under Creative Commons 3.0 CC BY-NC 3.0
Chính sáchĐiều khoản
Back to top