Scrapy

Hollywood Principle: Dont call us, we’ll call you

Mở đầu

Các lệnh

scrapy bench scrapy version scrapy view

Scrapy shell

How scrapy work

Scrapy selector Xpath: for xml, html document Css Selector: Selector HTML element Chúng ta cũng có thể sử dụng Regular Expression với selectors

Kết thúc

Module 1 Get started Scrapy Websites Using Scrapy(đọc là s c ríp pi) Scrapy là một framework cho việc crawling websites Cho phép lấy data theo một định dạng có cấu trúc Scrapy Shell giúp việc trích xuất dữ liệu test nhanh chóng Selector cho phép bạn chỉ định Xpath và Css từ những thông tin lấy được Scraping Websites - Scrapy shell Xpath và Css selector Spider - Spider, Items, Item Loaders, Item Pipelines Built-in services - Logging, email notifications - Debugging using telnet console - Broad crawls for parallel scraping - Auto throttling crawls Crawlers on the scrapy cloud - Deploying a Scrapy project on scrapinghub.com - Scraping on the cloud using Portia Scrapy được tạo phục vuj cho web scraping nhưng bây giờ được dùng cho web crawling. Scrapy là application framework not library Scraping vs crawling Library vs framework Lợi ích scrapy Asynchronous call back: speed, Parallelism, Fault tolerance Granular control: Download delay between request, Limit on Concurrent connnection, Auto throttling extension (website chặn )