Scrapy - eksport pasz

Opis

Eksportowanie plików danych to metoda przechowywania danych pobranych z witryn, czyli generowanie pliku "export file".

Formaty serializacji

Korzystając z wielu formatów serializacji i zaplecza magazynowania, funkcja eksportu kanałów korzysta z eksporterów elementów i generuje źródło danych ze skrobanymi elementami.

Poniższa tabela przedstawia obsługiwane formaty -

Sr.No Format i opis
1

JSON

FEED_FORMAT to json

Użyty eksporter to klasa scrapy.exporters.JsonItemExporter

2

JSON lines

FEED_FROMAT to jsonlines

Użyty eksporter to klasa scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT to CSV

Użyty eksporter to class scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT to XML

Użyty eksporter to klasa scrapy.exporters.XmlItemExporter

Za pomocą FEED_EXPORTERS ustawienia, obsługiwane formaty można również rozszerzyć -

Sr.No Format i opis
1

Pickle

FEED_FORMAT to pikiel

Użyty eksporter to klasa scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT jest marszałkiem

Użyty eksporter to klasa scrapy.exporters.MarshalItemExporter

Backendy pamięci masowej

Zaplecze pamięci masowej definiuje miejsce przechowywania źródła przy użyciu identyfikatora URI.

Poniższa tabela przedstawia obsługiwane backendy pamięci masowej -

Sr.No Pamięć masowa i opis
1

Local filesystem

Schemat URI jest plikiem i służy do przechowywania kanałów.

2

FTP

Schemat URI to ftp i jest używany do przechowywania kanałów.

3

S3

Schemat URI to S3, a źródła danych są przechowywane w Amazon S3. Wymagane są biblioteki zewnętrzne botocore lub boto .

4

Standard output

Schemat URI to standardowe wyjście, a źródła danych są zapisywane na standardowym wyjściu.

Parametry identyfikatora URI magazynu

Poniżej znajdują się parametry adresu URL przechowywania, który jest zastępowany podczas tworzenia kanału -

  • % (czas) s: Ten parametr jest zastępowany znacznikiem czasu.
  • % (name) s: Ten parametr zostanie zastąpiony nazwą pająka.

Ustawienia

Poniższa tabela przedstawia ustawienia, za pomocą których można skonfigurować eksport plików danych -

Sr.No Ustawienie i opis
1

FEED_URI

Jest to identyfikator URI źródła eksportu używanego do umożliwienia eksportu paszy.

2

FEED_FORMAT

Jest to format serializacji używany w źródle treści.

3

FEED_EXPORT_FIELDS

Służy do definiowania pól, które mają zostać wyeksportowane.

4

FEED_STORE_EMPTY

Określa, czy eksportować pliki danych bez elementów.

5

FEED_STORAGES

Jest to słownik z dodatkowymi backendami do przechowywania plików.

6

FEED_STORAGES_BASE

Jest to słownik z wbudowanymi backendami do przechowywania danych.

7

FEED_EXPORTERS

Jest to słownik z dodatkowymi eksporterami pasz.

8

FEED_EXPORTERS_BASE

Jest to słownik z wbudowanymi eksporterami kanałów.