Scrapy-概要
Scrapyは、Pythonで記述された高速のオープンソースWebクロールフレームワークであり、XPathに基づくセレクターを使用してWebページからデータを抽出するために使用されます。
Scrapyは2008年6月26日にBSDライセンスで最初にリリースされ、マイルストーン1.0は2015年6月にリリースされました。
なぜScrapyを使用するのですか?
- 大規模なクロールプロジェクトの構築とスケーリングは簡単です。 
- Webサイトからデータを抽出するためのセレクターと呼ばれるメカニズムが組み込まれています。 
- リクエストを非同期で処理し、高速です。 
- 自動スロットリングメカニズムを使用して、クロール速度を自動的に調整します。 
- 開発者のアクセシビリティを保証します。 
Scrapyの機能
- Scrapyはオープンソースであり、無料で使用できるWebクロールフレームワークです。 
- Scrapyは、JSON、CSV、XMLなどの形式でフィードエクスポートを生成します。 
- Scrapyには、XPathまたはCSS式のいずれかによってソースからデータを選択および抽出するためのサポートが組み込まれています。 
- クローラーに基づくScrapyは、Webページからデータを自動的に抽出できるようにします。 
利点
- Scrapyは簡単に拡張でき、高速で、強力です。 
- これは、クロスプラットフォームのアプリケーションフレームワーク(Windows、Linux、Mac OS、およびBSD)です。 
- Scrapyリクエストは非同期でスケジュールされ、処理されます。 
- Scrapyには、と呼ばれる組み込みサービスが付属しています Scrapyd これにより、JSONWebサービスを使用してプロジェクトをアップロードしてスパイダーを制御できます。 
- そのWebサイトには生データアクセス用のAPIがありませんが、任意のWebサイトを廃棄することは可能です。 
短所
- ScrapyはPython2.7専用です。+ 
- インストールはオペレーティングシステムによって異なります。