Scrapy - przegląd
Scrapy to szybka platforma do indeksowania stron internetowych typu open source napisana w języku Python, używana do wyodrębniania danych ze strony internetowej za pomocą selektorów opartych na XPath.
Scrapy został wydany po raz pierwszy 26 czerwca 2008 na licencji BSD, a kamień milowy 1.0 został wydany w czerwcu 2015.
Dlaczego warto używać Scrapy?
Tworzenie i skalowanie dużych projektów indeksowania jest łatwiejsze.
Posiada wbudowany mechanizm o nazwie Selektory, służący do wyodrębniania danych ze stron internetowych.
Obsługuje żądania asynchronicznie i jest szybki.
Automatycznie dostosowuje prędkość pełzania za pomocą mechanizmu automatycznego dławienia .
Zapewnia dostępność dla programistów.
Funkcje Scrapy
Scrapy to open source i darmowy framework do indeksowania sieci.
Scrapy generuje eksport kanałów w formatach takich jak JSON, CSV i XML.
Scrapy ma wbudowaną obsługę wybierania i wyodrębniania danych ze źródeł za pomocą wyrażeń XPath lub CSS.
Scrapy oparty na crawlerze umożliwia automatyczne wydobywanie danych ze stron internetowych.
Zalety
Scrapy jest łatwo rozszerzalny, szybki i potężny.
Jest to wieloplatformowy framework aplikacji (Windows, Linux, Mac OS i BSD).
Żądania Scrapy są planowane i przetwarzane asynchronicznie.
Scrapy ma wbudowaną usługę o nazwie Scrapyd co pozwala na przesyłanie projektów i sterowanie pająkami za pomocą usługi internetowej JSON.
Możliwe jest odrzucenie dowolnej witryny internetowej, chociaż ta witryna nie ma interfejsu API do dostępu do surowych danych.
Niedogodności
Scrapy jest dostępny tylko dla Pythona 2.7. +
Instalacja przebiega inaczej w różnych systemach operacyjnych.