Scrapy - Pemuat Item
Deskripsi
Pemuat barang memberikan cara yang nyaman untuk mengisi barang-barang yang diambil dari situs web.
Mendeklarasikan Pemuat Item
Deklarasi Item Loader seperti Item.
Misalnya -
from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join
class DemoLoader(ItemLoader):
default_output_processor = TakeFirst()
title_in = MapCompose(unicode.title)
title_out = Join()
size_in = MapCompose(unicode.strip)
# you can continue scraping here
Pada kode di atas, Anda dapat melihat bahwa prosesor input dideklarasikan menggunakan _in sufiks dan prosesor keluaran dideklarasikan menggunakan _out akhiran.
Itu ItemLoader.default_input_processor dan ItemLoader.default_output_processor atribut digunakan untuk mendeklarasikan prosesor input / output default.
Menggunakan Item Loader untuk Mengisi Item
Untuk menggunakan Item Loader, pertama-tama buat instance dengan objek seperti dict atau tanpa objek yang menggunakan class Item yang ditentukan di ItemLoader.default_item_class atribut.
Anda dapat menggunakan pemilih untuk mengumpulkan nilai ke dalam Item Loader.
Anda dapat menambahkan lebih banyak nilai di bidang item yang sama, di mana Pemuat Item akan menggunakan penangan yang sesuai untuk menambahkan nilai ini.
Kode berikut menunjukkan bagaimana item diisi menggunakan Item Loader -
from scrapy.loader import ItemLoader
from demoproject.items import Demo
def parse(self, response):
l = ItemLoader(item = Product(), response = response)
l.add_xpath("title", "//div[@class = 'product_title']")
l.add_xpath("title", "//div[@class = 'product_name']")
l.add_xpath("desc", "//div[@class = 'desc']")
l.add_css("size", "div#size]")
l.add_value("last_updated", "yesterday")
return l.load_item()
Seperti yang ditunjukkan di atas, ada dua XPath berbeda dari mana file title bidang diekstraksi menggunakan add_xpath() metode -
1. //div[@class = "product_title"]
2. //div[@class = "product_name"]
Setelah itu, permintaan serupa digunakan untuk descbidang. Data ukuran diekstraksi menggunakanadd_css() metode dan last_updated diisi dengan nilai "kemarin" add_value() metode.
Setelah semua data terkumpul, panggil ItemLoader.load_item() metode yang mengembalikan item yang diisi dengan data yang diekstraksi menggunakan add_xpath(), add_css() dan add_value() metode.
Prosesor Input dan Output
Setiap bidang Item Loader berisi satu prosesor masukan dan satu prosesor keluaran.
Ketika data diekstraksi, prosesor input memprosesnya dan hasilnya disimpan di ItemLoader.
Selanjutnya, setelah mengumpulkan data, panggil metode ItemLoader.load_item () untuk mendapatkan objek Item yang diisi.
Akhirnya, Anda dapat menetapkan hasil prosesor keluaran ke item tersebut.
Kode berikut menunjukkan cara memanggil prosesor input dan output untuk bidang tertentu -
l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css) # [3]
l.add_value("title", "demo") # [4]
return l.load_item() # [5]
Line 1 - Data judul diekstrak dari xpath1 dan diteruskan melalui prosesor input dan hasilnya dikumpulkan dan disimpan di ItemLoader.
Line 2 - Demikian pula, judul diekstrak dari xpath2 dan melewati prosesor input yang sama dan hasilnya ditambahkan ke data yang dikumpulkan untuk [1].
Line 3 - Judul diekstrak dari pemilih css dan melewati prosesor input yang sama dan hasilnya ditambahkan ke data yang dikumpulkan untuk [1] dan [2].
Line 4 - Selanjutnya, nilai "demo" ditetapkan dan diteruskan melalui prosesor input.
Line 5 - Akhirnya, data dikumpulkan secara internal dari semua bidang dan diteruskan ke prosesor keluaran dan nilai akhir ditetapkan ke Item.
Mendeklarasikan Prosesor Input dan Output
Prosesor input dan output dideklarasikan dalam definisi ItemLoader. Selain itu, mereka juga dapat ditentukan diItem Field metadata.
Misalnya -
import scrapy
from scrapy.loader.processors import Join, MapCompose, TakeFirst
from w3lib.html import remove_tags
def filter_size(value):
if value.isdigit():
return value
class Item(scrapy.Item):
name = scrapy.Field(
input_processor = MapCompose(remove_tags),
output_processor = Join(),
)
size = scrapy.Field(
input_processor = MapCompose(remove_tags, filter_price),
output_processor = TakeFirst(),
)
>>> from scrapy.loader import ItemLoader
>>> il = ItemLoader(item = Product())
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>'])
>>> il.add_value('size', [u'<span>100 kg</span>'])
>>> il.load_item()
Ini menampilkan output sebagai -
{'title': u'Hello world', 'size': u'100 kg'}
Konteks Pemuat Item
Item Loader Context adalah diktekan nilai kunci arbitrer yang dibagikan di antara prosesor input dan output.
Misalnya, anggap Anda memiliki fungsi parse_length -
def parse_length(text, loader_context):
unit = loader_context.get('unit', 'cm')
# You can write parsing code of length here
return parsed_length
Dengan menerima argumen loader_context, ia memberi tahu Item Loader bahwa ia dapat menerima konteks Item Loader. Ada beberapa cara untuk mengubah nilai konteks Item Loader -
Ubah konteks Item Loader aktif saat ini -
loader = ItemLoader (product)
loader.context ["unit"] = "mm"
Pada Instansiasi Item Loader -
loader = ItemLoader(product, unit = "mm")
Pada deklarasi Item Loader untuk prosesor input / output yang dibuat dengan konteks Item Loader -
class ProductLoader(ItemLoader):
length_out = MapCompose(parse_length, unit = "mm")
Objek ItemLoader
Ini adalah objek yang mengembalikan pemuat item baru untuk mengisi item yang diberikan. Ini memiliki kelas berikut -
class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)
Tabel berikut menunjukkan parameter objek ItemLoader -
Sr Tidak | Parameter & Deskripsi |
---|---|
1 | item Ini adalah item yang akan diisi dengan memanggil add_xpath (), add_css () atau add_value (). |
2 | selector Ini digunakan untuk mengekstrak data dari situs web. |
3 | response Ini digunakan untuk membangun selektor menggunakan default_selector_class. |
Tabel berikut menunjukkan metode objek ItemLoader -
Sr Tidak | Metode & Deskripsi | Contoh |
---|---|---|
1 | get_value(value, *processors, **kwargs) Dengan prosesor dan argumen kata kunci yang diberikan, nilai diproses dengan metode get_value (). |
|
2 | add_value(field_name, value, *processors, **kwargs) Ini memproses nilai dan menambahkan ke bidang tempat pertama kali dilewatkan melalui get_value dengan memberikan pemroses dan argumen kata kunci sebelum melewati pemroses input bidang. |
|
3 | replace_value(field_name, value, *processors, **kwargs) Ini menggantikan data yang dikumpulkan dengan nilai baru. |
|
4 | get_xpath(xpath, *processors, **kwargs) Ini digunakan untuk mengekstrak string unicode dengan memberikan pemroses dan argumen kata kunci dengan menerima XPath . |
|
5 | add_xpath(field_name, xpath, *processors, **kwargs) Ia menerima XPath ke bidang yang mengekstrak string unicode. |
|
6 | replace_xpath(field_name, xpath, *processors, **kwargs) Ini menggantikan data yang dikumpulkan menggunakan XPath dari situs. |
|
7 | get_css(css, *processors, **kwargs) Ini menerima pemilih CSS yang digunakan untuk mengekstrak string unicode. |
|
8 | add_css(field_name, css, *processors, **kwargs) Ini mirip dengan metode add_value () dengan satu perbedaan yaitu menambahkan pemilih CSS ke bidang. |
|
9 | replace_css(field_name, css, *processors, **kwargs) Ini menggantikan data yang diekstrak menggunakan pemilih CSS. |
|
10 | load_item() Saat data dikumpulkan, metode ini mengisi item dengan data yang dikumpulkan dan mengembalikannya. |
|
11 | nested_xpath(xpath) Ini digunakan untuk membuat pemuat bersarang dengan pemilih XPath. |
|
12 | nested_css(css) Ini digunakan untuk membuat pemuat bersarang dengan pemilih CSS. |
|
Tabel berikut menunjukkan atribut objek ItemLoader -
Sr Tidak | Atribut & Deskripsi |
---|---|
1 | item Ini adalah objek tempat Item Loader melakukan parsing. |
2 | context Ini adalah konteks Item Loader yang aktif. |
3 | default_item_class Ini digunakan untuk mewakili item, jika tidak diberikan dalam konstruktor. |
4 | default_input_processor Bidang yang tidak menentukan prosesor input adalah satu-satunya yang digunakan default_input_processors. |
5 | default_output_processor Bidang yang tidak menentukan prosesor keluaran adalah satu-satunya yang digunakan default_output_processors. |
6 | default_selector_class Ini adalah kelas yang digunakan untuk membuat pemilih, jika tidak diberikan dalam konstruktor. |
7 | selector Ini adalah objek yang dapat digunakan untuk mengekstrak data dari situs. |
Loader Bersarang
Ini digunakan untuk membuat pemuat bersarang sambil mengurai nilai dari sub-bagian dokumen. Jika Anda tidak membuat pemuat bersarang, Anda perlu menentukan XPath atau CSS lengkap untuk setiap nilai yang ingin Anda ekstrak.
Misalnya, asumsikan bahwa data sedang diekstrak dari halaman header -
<header>
<a class = "social" href = "http://facebook.com/whatever">facebook</a>
<a class = "social" href = "http://twitter.com/whatever">twitter</a>
<a class = "email" href = "mailto:[email protected]">send mail</a>
</header>
Selanjutnya, Anda dapat membuat loader bersarang dengan pemilih header dengan menambahkan nilai terkait ke header -
loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()
Menggunakan kembali dan memperluas Pemuat Item
Item Loader dirancang untuk meringankan pemeliharaan yang menjadi masalah mendasar saat proyek Anda memperoleh lebih banyak laba-laba.
Misalnya, asumsikan bahwa situs memiliki nama produk yang diapit dalam tiga tanda hubung (misalnya --DVD ---). Anda dapat menghapus tanda hubung tersebut dengan menggunakan kembali Product Item Loader default, jika Anda tidak menginginkannya di nama produk akhir seperti yang ditunjukkan pada kode berikut -
from scrapy.loader.processors import MapCompose
from demoproject.ItemLoaders import DemoLoader
def strip_dashes(x):
return x.strip('-')
class SiteSpecificLoader(DemoLoader):
title_in = MapCompose(strip_dashes, DemoLoader.title_in)
Tersedia Prosesor Bawaan
Berikut adalah beberapa prosesor built-in yang umum digunakan -
class scrapy.loader.processors.Identity
Ini mengembalikan nilai asli tanpa mengubahnya. Misalnya -
>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']
class scrapy.loader.processors.TakeFirst
Ini mengembalikan nilai pertama yang bukan nol / tidak kosong dari daftar nilai yang diterima. Misalnya -
>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'
class scrapy.loader.processors.Join (separator = u '')
Ini mengembalikan nilai yang dilampirkan ke pemisah. Pemisah default adalah u '' dan itu setara dengan fungsinyau' '.join. Misalnya -
>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'
class scrapy.loader.processors.Compose (* functions, ** default_loader_context)
Ini didefinisikan oleh prosesor di mana setiap nilai masukannya diteruskan ke fungsi pertama, dan hasil dari fungsi itu diteruskan ke fungsi kedua dan seterusnya, sampai fungsi ast mengembalikan nilai akhir sebagai keluaran.
Misalnya -
>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'
class scrapy.loader.processors.MapCompose (* functions, ** default_loader_context)
Ini adalah prosesor di mana nilai input diulang dan fungsi pertama diterapkan ke setiap elemen. Selanjutnya, hasil dari pemanggilan fungsi ini digabungkan untuk membangun iterable baru yang kemudian diterapkan ke fungsi kedua dan seterusnya, hingga fungsi terakhir.
Misalnya -
>>> def filter_scrapy(x):
return None if x == 'scrapy' else x
>>> from scrapy.loader.processors import MapCompose
>>> proc = MapCompose(filter_scrapy, unicode.upper)
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy'])
[u'HI, u'IM', u'PYTHONSCRAPY']
class scrapy.loader.processors.SelectJmes (json_path)
Kelas ini mengkueri nilai menggunakan jalur json yang disediakan dan mengembalikan hasilnya.
Misalnya -
>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}
Berikut adalah kode, yang menanyakan nilai dengan mengimpor json -
>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']