Bài đăng

Hiển thị các bài đăng có nhãn puppteer

Thu Thập Dữ liệu Trang Web (Web Scraping) với PUPPETEER

Hình ảnh
Khi cần dữ liệu của 1 trang web nào đó, trang web đó có thể cung cấp API cho ta kết xuất thông tin ở dạng JSON. Nhưng trong nhiều trường hợp, nếu không có API thì ta phải đi cào dữ liệu từ trang bằng cách mở Google Dev Tools và code qq gì đó lấy thông tin ở các element trong trang và có trích xuất được dữ liệu. Có khá nhiều công cụ phục vụ cho việc scraping, tùy theo ngôn ngữ bạn sử dụng. Trong bài viết này mình sẽ giới thiệu Puppeteer, một thư viện của Nodejs. Một số kiến thức bạn cần có trước khi bắt đầu: + Javascript, Nodejs + Async await trong Javascript + Render được 1 trang html đơn giản (có thể sử dụng Pugjs) (có thể biết sau cũng được) Đầu tiên, chúng ta tạo một project để test nhé (Lưu ý đặt tên khác Puppeteer (tên package) vì khi lưu vào file Package.json sẽ báo lỗi đấy) + Mở cửa sổ cmd tại folder project, gõ lệnh npm init: tạo file package.json lưu thông tin project, các module sử dụng... + Gõ npm install puppeteer --save Bước thiết lập project hoàn tất, chúng ta bắt đầu với...