Scrapy - Экспорт кормов

Описание

Экспорт каналов - это метод хранения данных, собранных с сайтов, который создает "export file".

Форматы сериализации

Используя несколько форматов сериализации и бэкэнды хранения, служба экспорта каналов использует экспортеры элементов и генерирует канал с очищенными элементами.

В следующей таблице показаны поддерживаемые форматы:

Старший Нет Формат и описание
1

JSON

FEED_FORMAT - это json

Используемый экспортер - это класс scrapy.exporters.JsonItemExporter.

2

JSON lines

FEED_FROMAT - это jsonlines

Используемый экспортер - это класс scrapy.exporters.JsonLinesItemExporter.

3

CSV

FEED_FORMAT - это CSV

Используемый экспортер - это класс scrapy.exporters.CsvItemExporter.

4

XML

FEED_FORMAT - это xml

Используемый экспортер - это класс scrapy.exporters.XmlItemExporter.

С помощью FEED_EXPORTERS настройки, поддерживаемые форматы также могут быть расширены -

Старший Нет Формат и описание
1

Pickle

FEED_FORMAT - пикель

Используемый экспортер - это класс scrapy.exporters.PickleItemExporter.

2

Marshal

FEED_FORMAT - маршал

Используемый экспортер - это класс scrapy.exporters.MarshalItemExporter.

Серверные модули хранения

Серверная часть хранилища определяет, где хранить канал, используя URI.

В следующей таблице показаны поддерживаемые серверные части хранилища.

Старший Нет Серверная часть хранилища и описание
1

Local filesystem

Схема URI - это файл, и он используется для хранения лент.

2

FTP

Схема URI - ftp, и она используется для хранения лент.

3

S3

Схема URI - S3, а каналы хранятся на Amazon S3. Внешние библиотеки botocore или бото требуется.

4

Standard output

Схема URI является стандартным выводом и каналы сохраняются в стандартный вывод.

Параметры URI хранилища

Ниже приведены параметры URL-адреса хранилища, который заменяется при создании канала.

  • % (time) s: этот параметр заменяется меткой времени.
  • % (name) s: этот параметр заменяется именем паука.

Настройки

В следующей таблице показаны параметры, с помощью которых можно настроить экспорт каналов.

Старший Нет Настройка и описание
1

FEED_URI

Это URI канала экспорта, который используется для включения экспорта канала.

2

FEED_FORMAT

Это формат сериализации, используемый для фида.

3

FEED_EXPORT_FIELDS

Он используется для определения полей, которые необходимо экспортировать.

4

FEED_STORE_EMPTY

Он определяет, следует ли экспортировать каналы без элементов.

5

FEED_STORAGES

Это словарь с дополнительными механизмами хранения лент.

6

FEED_STORAGES_BASE

Это словарь со встроенными механизмами хранения лент.

7

FEED_EXPORTERS

Это словарь с дополнительными экспортерами кормов.

8

FEED_EXPORTERS_BASE

Это словарь со встроенными экспортерами кормов.