Scrapy - Übersicht

Scrapy ist ein schnelles, in Python geschriebenes Open-Source-Webcrawling-Framework, mit dem die Daten mithilfe von auf XPath basierenden Selektoren von der Webseite extrahiert werden.

Scrapy wurde erstmals am 26. Juni 2008 unter BSD-Lizenz veröffentlicht. Ein Meilenstein 1.0 wurde im Juni 2015 veröffentlicht.

Warum Scrapy verwenden?

  • Es ist einfacher, große Crawling-Projekte zu erstellen und zu skalieren.

  • Es verfügt über einen integrierten Mechanismus namens Selectors zum Extrahieren der Daten von Websites.

  • Es verarbeitet die Anforderungen asynchron und ist schnell.

  • Die Kriechgeschwindigkeit wird mithilfe des automatischen Drosselungsmechanismus automatisch angepasst .

  • Gewährleistet die Zugänglichkeit für Entwickler.

Eigenschaften von Scrapy

  • Scrapy ist Open Source und kann kostenlos als Web-Crawler-Framework verwendet werden.

  • Scrapy generiert Feed-Exporte in Formaten wie JSON, CSV und XML.

  • Scrapy bietet eine integrierte Unterstützung für die Auswahl und Extraktion von Daten aus Quellen mithilfe von XPath- oder CSS-Ausdrücken.

  • Scrapy basiert auf Crawler und ermöglicht das automatische Extrahieren von Daten von den Webseiten.

Vorteile

  • Scrapy ist leicht erweiterbar, schnell und leistungsstark.

  • Es ist ein plattformübergreifendes Anwendungsframework (Windows, Linux, Mac OS und BSD).

  • Scrapy-Anforderungen werden asynchron geplant und verarbeitet.

  • Scrapy wird mit einem integrierten Service namens geliefert Scrapyd Hiermit können Sie Projekte hochladen und Spider mithilfe des JSON-Webdienstes steuern.

  • Es ist möglich, jede Website zu verschrotten, obwohl diese Website keine API für den Zugriff auf Rohdaten hat.

Nachteile

  • Scrapy ist nur für Python 2.7. +

  • Die Installation ist für verschiedene Betriebssysteme unterschiedlich.