Scrapy - Обзор

Scrapy - это быстрая структура веб-сканирования с открытым исходным кодом, написанная на Python, используемая для извлечения данных с веб-страницы с помощью селекторов на основе XPath.

Scrapy был впервые выпущен 26 июня 2008 года под лицензией BSD, а в июне 2015 года была выпущена веха 1.0.

Зачем использовать Scrapy?

  • Проще создавать и масштабировать большие краулинговые проекты.

  • Он имеет встроенный механизм под названием Селекторы для извлечения данных с веб-сайтов.

  • Он обрабатывает запросы асинхронно и быстро.

  • Он автоматически регулирует скорость ползания с помощью механизма автоматического регулирования .

  • Обеспечивает доступность для разработчиков.

Особенности Scrapy

  • Scrapy - это платформа с открытым исходным кодом, которую можно использовать бесплатно.

  • Scrapy генерирует экспорт каналов в таких форматах, как JSON, CSV и XML.

  • Scrapy имеет встроенную поддержку выбора и извлечения данных из источников с помощью выражений XPath или CSS.

  • Scrapy на основе краулера позволяет автоматически извлекать данные с веб-страниц.

Преимущества

  • Scrapy - это легко расширяемый, быстрый и мощный инструмент.

  • Это кроссплатформенная платформа для приложений (Windows, Linux, Mac OS и BSD).

  • Запросы Scrapy планируются и обрабатываются асинхронно.

  • Scrapy поставляется со встроенным сервисом под названием Scrapyd который позволяет загружать проекты и управлять пауками с помощью веб-сервиса JSON.

  • Можно отказаться от любого веб-сайта, хотя этот веб-сайт не имеет API для доступа к необработанным данным.

Недостатки

  • Scrapy предназначен только для Python 2.7. +

  • Установка отличается для разных операционных систем.