Scrapy-概要

Scrapyは、Pythonで記述された高速のオープンソースWebクロールフレームワークであり、XPathに基づくセレクターを使用してWebページからデータを抽出するために使用されます。

Scrapyは2008年6月26日にBSDライセンスで最初にリリースされ、マイルストーン1.0は2015年6月にリリースされました。

なぜScrapyを使用するのですか?

  • 大規模なクロールプロジェクトの構築とスケーリングは簡単です。

  • Webサイトからデータを抽出するためのセレクターと呼ばれるメカニズムが組み込まれています。

  • リクエストを非同期で処理し、高速です。

  • 自動スロットリングメカニズムを使用して、クロール速度を自動的に調整します。

  • 開発者のアクセシビリティを保証します。

Scrapyの機能

  • Scrapyはオープンソースであり、無料で使用できるWebクロールフレームワークです。

  • Scrapyは、JSON、CSV、XMLなどの形式でフィードエクスポートを生成します。

  • Scrapyには、XPathまたはCSS式のいずれかによってソースからデータを選択および抽出するためのサポートが組み込まれています。

  • クローラーに基づくScrapyは、Webページからデータを自動的に抽出できるようにします。

利点

  • Scrapyは簡単に拡張でき、高速で、強力です。

  • これは、クロスプラットフォームのアプリケーションフレームワーク(Windows、Linux、Mac OS、およびBSD)です。

  • Scrapyリクエストは非同期でスケジュールされ、処理されます。

  • Scrapyには、と呼ばれる組み込みサービスが付属しています Scrapyd これにより、JSONWebサービスを使用してプロジェクトをアップロードしてスパイダーを制御できます。

  • そのWebサイトには生データアクセス用のAPIがありませんが、任意のWebサイトを廃棄することは可能です。

短所

  • ScrapyはPython2.7専用です。+

  • インストールはオペレーティングシステムによって異なります。