Scrapy-概要
Scrapyは、Pythonで記述された高速のオープンソースWebクロールフレームワークであり、XPathに基づくセレクターを使用してWebページからデータを抽出するために使用されます。
Scrapyは2008年6月26日にBSDライセンスで最初にリリースされ、マイルストーン1.0は2015年6月にリリースされました。
なぜScrapyを使用するのですか?
大規模なクロールプロジェクトの構築とスケーリングは簡単です。
Webサイトからデータを抽出するためのセレクターと呼ばれるメカニズムが組み込まれています。
リクエストを非同期で処理し、高速です。
自動スロットリングメカニズムを使用して、クロール速度を自動的に調整します。
開発者のアクセシビリティを保証します。
Scrapyの機能
Scrapyはオープンソースであり、無料で使用できるWebクロールフレームワークです。
Scrapyは、JSON、CSV、XMLなどの形式でフィードエクスポートを生成します。
Scrapyには、XPathまたはCSS式のいずれかによってソースからデータを選択および抽出するためのサポートが組み込まれています。
クローラーに基づくScrapyは、Webページからデータを自動的に抽出できるようにします。
利点
Scrapyは簡単に拡張でき、高速で、強力です。
これは、クロスプラットフォームのアプリケーションフレームワーク(Windows、Linux、Mac OS、およびBSD)です。
Scrapyリクエストは非同期でスケジュールされ、処理されます。
Scrapyには、と呼ばれる組み込みサービスが付属しています Scrapyd これにより、JSONWebサービスを使用してプロジェクトをアップロードしてスパイダーを制御できます。
そのWebサイトには生データアクセス用のAPIがありませんが、任意のWebサイトを廃棄することは可能です。
短所
ScrapyはPython2.7専用です。+
インストールはオペレーティングシステムによって異なります。