Scrapy - Übersicht
Scrapy ist ein schnelles, in Python geschriebenes Open-Source-Webcrawling-Framework, mit dem die Daten mithilfe von auf XPath basierenden Selektoren von der Webseite extrahiert werden.
Scrapy wurde erstmals am 26. Juni 2008 unter BSD-Lizenz veröffentlicht. Ein Meilenstein 1.0 wurde im Juni 2015 veröffentlicht.
Warum Scrapy verwenden?
Es ist einfacher, große Crawling-Projekte zu erstellen und zu skalieren.
Es verfügt über einen integrierten Mechanismus namens Selectors zum Extrahieren der Daten von Websites.
Es verarbeitet die Anforderungen asynchron und ist schnell.
Die Kriechgeschwindigkeit wird mithilfe des automatischen Drosselungsmechanismus automatisch angepasst .
Gewährleistet die Zugänglichkeit für Entwickler.
Eigenschaften von Scrapy
Scrapy ist Open Source und kann kostenlos als Web-Crawler-Framework verwendet werden.
Scrapy generiert Feed-Exporte in Formaten wie JSON, CSV und XML.
Scrapy bietet eine integrierte Unterstützung für die Auswahl und Extraktion von Daten aus Quellen mithilfe von XPath- oder CSS-Ausdrücken.
Scrapy basiert auf Crawler und ermöglicht das automatische Extrahieren von Daten von den Webseiten.
Vorteile
Scrapy ist leicht erweiterbar, schnell und leistungsstark.
Es ist ein plattformübergreifendes Anwendungsframework (Windows, Linux, Mac OS und BSD).
Scrapy-Anforderungen werden asynchron geplant und verarbeitet.
Scrapy wird mit einem integrierten Service namens geliefert Scrapyd Hiermit können Sie Projekte hochladen und Spider mithilfe des JSON-Webdienstes steuern.
Es ist möglich, jede Website zu verschrotten, obwohl diese Website keine API für den Zugriff auf Rohdaten hat.
Nachteile
Scrapy ist nur für Python 2.7. +
Die Installation ist für verschiedene Betriebssysteme unterschiedlich.