Scrapy - Esportazioni di mangimi
Descrizione
Le esportazioni di feed sono un metodo per archiviare i dati estratti dai siti, che genera un file "export file".
Formati di serializzazione
Utilizzando più formati di serializzazione e backend di archiviazione, Feed Exports utilizza gli esportatori di articoli e genera un feed con articoli raschiati.
La tabella seguente mostra i formati supportati -
Suor n | Formato e descrizione |
---|---|
1 | JSON FEED_FORMAT è json L'esportatore utilizzato è la classe scrapy.exporters.JsonItemExporter |
2 | JSON lines FEED_FROMAT è jsonlines L' utilità di esportazione utilizzata è la classe scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT è CSV L' utilità di esportazione utilizzata è la classe scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT è xml L' utilità di esportazione utilizzata è la classe scrapy.exporters.XmlItemExporter |
Utilizzando FEED_EXPORTERS impostazioni, i formati supportati possono anche essere estesi -
Suor n | Formato e descrizione |
---|---|
1 | Pickle FEED_FORMAT è pickel L'esportatore utilizzato è la classe scrapy.exporters.PickleItemExporter |
2 | Marshal FEED_FORMAT è il marshal L'esportatore utilizzato è la classe scrapy.exporters.MarshalItemExporter |
Backend di archiviazione
Il backend di archiviazione definisce dove archiviare il feed utilizzando l'URI.
La tabella seguente mostra i backend di archiviazione supportati:
Suor n | Backend di archiviazione e descrizione |
---|---|
1 | Local filesystem Lo schema URI è un file e viene utilizzato per memorizzare i feed. |
2 | FTP Lo schema URI è ftp e viene utilizzato per memorizzare i feed. |
3 | S3 Lo schema URI è S3 e i feed sono archiviati su Amazon S3. Sono richieste librerie esterne botocore o boto . |
4 | Standard output Lo schema URI è stdout e i feed vengono memorizzati nell'output standard. |
Parametri URI di archiviazione
Di seguito sono riportati i parametri dell'URL di archiviazione, che viene sostituito durante la creazione del feed:
- % (time) s: questo parametro viene sostituito da un timestamp.
- % (name) s: questo parametro viene sostituito dal nome dello spider.
impostazioni
La tabella seguente mostra le impostazioni con le quali è possibile configurare le esportazioni di feed:
Suor n | Impostazione e descrizione |
---|---|
1 | FEED_URI È l'URI del feed di esportazione utilizzato per abilitare le esportazioni di feed. |
2 | FEED_FORMAT È un formato di serializzazione utilizzato per il feed. |
3 | FEED_EXPORT_FIELDS Viene utilizzato per definire i campi che devono essere esportati. |
4 | FEED_STORE_EMPTY Definisce se esportare feed senza elementi. |
5 | FEED_STORAGES È un dizionario con backend per l'archiviazione dei feed aggiuntivi. |
6 | FEED_STORAGES_BASE È un dizionario con backend per l'archiviazione dei feed incorporati. |
7 | FEED_EXPORTERS È un dizionario con ulteriori esportatori di mangimi. |
8 | FEED_EXPORTERS_BASE È un dizionario con esportatori di mangimi integrati. |