Scrapy - eksport pasz
Opis
Eksportowanie plików danych to metoda przechowywania danych pobranych z witryn, czyli generowanie pliku "export file".
Formaty serializacji
Korzystając z wielu formatów serializacji i zaplecza magazynowania, funkcja eksportu kanałów korzysta z eksporterów elementów i generuje źródło danych ze skrobanymi elementami.
Poniższa tabela przedstawia obsługiwane formaty -
Sr.No | Format i opis |
---|---|
1 | JSON FEED_FORMAT to json Użyty eksporter to klasa scrapy.exporters.JsonItemExporter |
2 | JSON lines FEED_FROMAT to jsonlines Użyty eksporter to klasa scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT to CSV Użyty eksporter to class scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT to XML Użyty eksporter to klasa scrapy.exporters.XmlItemExporter |
Za pomocą FEED_EXPORTERS ustawienia, obsługiwane formaty można również rozszerzyć -
Sr.No | Format i opis |
---|---|
1 | Pickle FEED_FORMAT to pikiel Użyty eksporter to klasa scrapy.exporters.PickleItemExporter |
2 | Marshal FEED_FORMAT jest marszałkiem Użyty eksporter to klasa scrapy.exporters.MarshalItemExporter |
Backendy pamięci masowej
Zaplecze pamięci masowej definiuje miejsce przechowywania źródła przy użyciu identyfikatora URI.
Poniższa tabela przedstawia obsługiwane backendy pamięci masowej -
Sr.No | Pamięć masowa i opis |
---|---|
1 | Local filesystem Schemat URI jest plikiem i służy do przechowywania kanałów. |
2 | FTP Schemat URI to ftp i jest używany do przechowywania kanałów. |
3 | S3 Schemat URI to S3, a źródła danych są przechowywane w Amazon S3. Wymagane są biblioteki zewnętrzne botocore lub boto . |
4 | Standard output Schemat URI to standardowe wyjście, a źródła danych są zapisywane na standardowym wyjściu. |
Parametry identyfikatora URI magazynu
Poniżej znajdują się parametry adresu URL przechowywania, który jest zastępowany podczas tworzenia kanału -
- % (czas) s: Ten parametr jest zastępowany znacznikiem czasu.
- % (name) s: Ten parametr zostanie zastąpiony nazwą pająka.
Ustawienia
Poniższa tabela przedstawia ustawienia, za pomocą których można skonfigurować eksport plików danych -
Sr.No | Ustawienie i opis |
---|---|
1 | FEED_URI Jest to identyfikator URI źródła eksportu używanego do umożliwienia eksportu paszy. |
2 | FEED_FORMAT Jest to format serializacji używany w źródle treści. |
3 | FEED_EXPORT_FIELDS Służy do definiowania pól, które mają zostać wyeksportowane. |
4 | FEED_STORE_EMPTY Określa, czy eksportować pliki danych bez elementów. |
5 | FEED_STORAGES Jest to słownik z dodatkowymi backendami do przechowywania plików. |
6 | FEED_STORAGES_BASE Jest to słownik z wbudowanymi backendami do przechowywania danych. |
7 | FEED_EXPORTERS Jest to słownik z dodatkowymi eksporterami pasz. |
8 | FEED_EXPORTERS_BASE Jest to słownik z wbudowanymi eksporterami kanałów. |