Scrapy - przegląd

Scrapy to szybka platforma do indeksowania stron internetowych typu open source napisana w języku Python, używana do wyodrębniania danych ze strony internetowej za pomocą selektorów opartych na XPath.

Scrapy został wydany po raz pierwszy 26 czerwca 2008 na licencji BSD, a kamień milowy 1.0 został wydany w czerwcu 2015.

Dlaczego warto używać Scrapy?

  • Tworzenie i skalowanie dużych projektów indeksowania jest łatwiejsze.

  • Posiada wbudowany mechanizm o nazwie Selektory, służący do wyodrębniania danych ze stron internetowych.

  • Obsługuje żądania asynchronicznie i jest szybki.

  • Automatycznie dostosowuje prędkość pełzania za pomocą mechanizmu automatycznego dławienia .

  • Zapewnia dostępność dla programistów.

Funkcje Scrapy

  • Scrapy to open source i darmowy framework do indeksowania sieci.

  • Scrapy generuje eksport kanałów w formatach takich jak JSON, CSV i XML.

  • Scrapy ma wbudowaną obsługę wybierania i wyodrębniania danych ze źródeł za pomocą wyrażeń XPath lub CSS.

  • Scrapy oparty na crawlerze umożliwia automatyczne wydobywanie danych ze stron internetowych.

Zalety

  • Scrapy jest łatwo rozszerzalny, szybki i potężny.

  • Jest to wieloplatformowy framework aplikacji (Windows, Linux, Mac OS i BSD).

  • Żądania Scrapy są planowane i przetwarzane asynchronicznie.

  • Scrapy ma wbudowaną usługę o nazwie Scrapyd co pozwala na przesyłanie projektów i sterowanie pająkami za pomocą usługi internetowej JSON.

  • Możliwe jest odrzucenie dowolnej witryny internetowej, chociaż ta witryna nie ma interfejsu API do dostępu do surowych danych.

Niedogodności

  • Scrapy jest dostępny tylko dla Pythona 2.7. +

  • Instalacja przebiega inaczej w różnych systemach operacyjnych.