Scrapy - Pemuat Item

Deskripsi

Pemuat barang memberikan cara yang nyaman untuk mengisi barang-barang yang diambil dari situs web.

Mendeklarasikan Pemuat Item

Deklarasi Item Loader seperti Item.

Misalnya -

from scrapy.loader import ItemLoader 
from scrapy.loader.processors import TakeFirst, MapCompose, Join  

class DemoLoader(ItemLoader):  
   default_output_processor = TakeFirst()  
   title_in = MapCompose(unicode.title) 
   title_out = Join()  
   size_in = MapCompose(unicode.strip)  
   # you can continue scraping here

Pada kode di atas, Anda dapat melihat bahwa prosesor input dideklarasikan menggunakan _in sufiks dan prosesor keluaran dideklarasikan menggunakan _out akhiran.

Itu ItemLoader.default_input_processor dan ItemLoader.default_output_processor atribut digunakan untuk mendeklarasikan prosesor input / output default.

Menggunakan Item Loader untuk Mengisi Item

Untuk menggunakan Item Loader, pertama-tama buat instance dengan objek seperti dict atau tanpa objek yang menggunakan class Item yang ditentukan di ItemLoader.default_item_class atribut.

  • Anda dapat menggunakan pemilih untuk mengumpulkan nilai ke dalam Item Loader.

  • Anda dapat menambahkan lebih banyak nilai di bidang item yang sama, di mana Pemuat Item akan menggunakan penangan yang sesuai untuk menambahkan nilai ini.

Kode berikut menunjukkan bagaimana item diisi menggunakan Item Loader -

from scrapy.loader import ItemLoader 
from demoproject.items import Demo  

def parse(self, response): 
   l = ItemLoader(item = Product(), response = response)
   l.add_xpath("title", "//div[@class = 'product_title']")
   l.add_xpath("title", "//div[@class = 'product_name']")
   l.add_xpath("desc", "//div[@class = 'desc']")
   l.add_css("size", "div#size]")
   l.add_value("last_updated", "yesterday")
   return l.load_item()

Seperti yang ditunjukkan di atas, ada dua XPath berbeda dari mana file title bidang diekstraksi menggunakan add_xpath() metode -

1. //div[@class = "product_title"] 
2. //div[@class = "product_name"]

Setelah itu, permintaan serupa digunakan untuk descbidang. Data ukuran diekstraksi menggunakanadd_css() metode dan last_updated diisi dengan nilai "kemarin" add_value() metode.

Setelah semua data terkumpul, panggil ItemLoader.load_item() metode yang mengembalikan item yang diisi dengan data yang diekstraksi menggunakan add_xpath(), add_css() dan add_value() metode.

Prosesor Input dan Output

Setiap bidang Item Loader berisi satu prosesor masukan dan satu prosesor keluaran.

  • Ketika data diekstraksi, prosesor input memprosesnya dan hasilnya disimpan di ItemLoader.

  • Selanjutnya, setelah mengumpulkan data, panggil metode ItemLoader.load_item () untuk mendapatkan objek Item yang diisi.

  • Akhirnya, Anda dapat menetapkan hasil prosesor keluaran ke item tersebut.

Kode berikut menunjukkan cara memanggil prosesor input dan output untuk bidang tertentu -

l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css)      # [3]
l.add_value("title", "demo") # [4]
return l.load_item()         # [5]

Line 1 - Data judul diekstrak dari xpath1 dan diteruskan melalui prosesor input dan hasilnya dikumpulkan dan disimpan di ItemLoader.

Line 2 - Demikian pula, judul diekstrak dari xpath2 dan melewati prosesor input yang sama dan hasilnya ditambahkan ke data yang dikumpulkan untuk [1].

Line 3 - Judul diekstrak dari pemilih css dan melewati prosesor input yang sama dan hasilnya ditambahkan ke data yang dikumpulkan untuk [1] dan [2].

Line 4 - Selanjutnya, nilai "demo" ditetapkan dan diteruskan melalui prosesor input.

Line 5 - Akhirnya, data dikumpulkan secara internal dari semua bidang dan diteruskan ke prosesor keluaran dan nilai akhir ditetapkan ke Item.

Mendeklarasikan Prosesor Input dan Output

Prosesor input dan output dideklarasikan dalam definisi ItemLoader. Selain itu, mereka juga dapat ditentukan diItem Field metadata.

Misalnya -

import scrapy 
from scrapy.loader.processors import Join, MapCompose, TakeFirst 
from w3lib.html import remove_tags  

def filter_size(value): 
   if value.isdigit(): 
      return value  

class Item(scrapy.Item): 
   name = scrapy.Field( 
      input_processor = MapCompose(remove_tags), 
      output_processor = Join(), 
   )
   size = scrapy.Field( 
      input_processor = MapCompose(remove_tags, filter_price), 
      output_processor = TakeFirst(), 
   ) 

>>> from scrapy.loader import ItemLoader 
>>> il = ItemLoader(item = Product()) 
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>']) 
>>> il.add_value('size', [u'<span>100 kg</span>']) 
>>> il.load_item()

Ini menampilkan output sebagai -

{'title': u'Hello world', 'size': u'100 kg'}

Konteks Pemuat Item

Item Loader Context adalah diktekan nilai kunci arbitrer yang dibagikan di antara prosesor input dan output.

Misalnya, anggap Anda memiliki fungsi parse_length -

def parse_length(text, loader_context): 
   unit = loader_context.get('unit', 'cm') 
   
   # You can write parsing code of length here  
   return parsed_length

Dengan menerima argumen loader_context, ia memberi tahu Item Loader bahwa ia dapat menerima konteks Item Loader. Ada beberapa cara untuk mengubah nilai konteks Item Loader -

  • Ubah konteks Item Loader aktif saat ini -

loader = ItemLoader (product)
loader.context ["unit"] = "mm"
  • Pada Instansiasi Item Loader -

loader = ItemLoader(product, unit = "mm")
  • Pada deklarasi Item Loader untuk prosesor input / output yang dibuat dengan konteks Item Loader -

class ProductLoader(ItemLoader):
   length_out = MapCompose(parse_length, unit = "mm")

Objek ItemLoader

Ini adalah objek yang mengembalikan pemuat item baru untuk mengisi item yang diberikan. Ini memiliki kelas berikut -

class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)

Tabel berikut menunjukkan parameter objek ItemLoader -

Sr Tidak Parameter & Deskripsi
1

item

Ini adalah item yang akan diisi dengan memanggil add_xpath (), add_css () atau add_value ().

2

selector

Ini digunakan untuk mengekstrak data dari situs web.

3

response

Ini digunakan untuk membangun selektor menggunakan default_selector_class.

Tabel berikut menunjukkan metode objek ItemLoader -

Sr Tidak Metode & Deskripsi Contoh
1

get_value(value, *processors, **kwargs)

Dengan prosesor dan argumen kata kunci yang diberikan, nilai diproses dengan metode get_value ().

>>> from scrapy.loader.processors import TakeFirst
>>> loader.get_value(u'title: demoweb', TakeFirst(), 
unicode.upper, re = 'title: (.+)')
'DEMOWEB`
2

add_value(field_name, value, *processors, **kwargs)

Ini memproses nilai dan menambahkan ke bidang tempat pertama kali dilewatkan melalui get_value dengan memberikan pemroses dan argumen kata kunci sebelum melewati pemroses input bidang.

loader.add_value('title', u'DVD')
loader.add_value('colors', [u'black', u'white'])
loader.add_value('length', u'80')
loader.add_value('price', u'2500')
3

replace_value(field_name, value, *processors, **kwargs)

Ini menggantikan data yang dikumpulkan dengan nilai baru.

loader.replace_value('title', u'DVD')
loader.replace_value('colors', [u'black', 
u'white'])
loader.replace_value('length', u'80')
loader.replace_value('price', u'2500')
4

get_xpath(xpath, *processors, **kwargs)

Ini digunakan untuk mengekstrak string unicode dengan memberikan pemroses dan argumen kata kunci dengan menerima XPath .

# HTML code: <div class = "item-name">DVD</div>
loader.get_xpath("//div[@class = 
'item-name']")

# HTML code: <div id = "length">the length is 
45cm</div>
loader.get_xpath("//div[@id = 'length']", TakeFirst(), 
re = "the length is (.*)")
5

add_xpath(field_name, xpath, *processors, **kwargs)

Ia menerima XPath ke bidang yang mengekstrak string unicode.

# HTML code: <div class = "item-name">DVD</div>
loader.add_xpath('name', '//div
[@class = "item-name"]')

# HTML code: <div id = "length">the length is 
45cm</div>
loader.add_xpath('length', '//div[@id = "length"]',
 re = 'the length is (.*)')
6

replace_xpath(field_name, xpath, *processors, **kwargs)

Ini menggantikan data yang dikumpulkan menggunakan XPath dari situs.

# HTML code: <div class = "item-name">DVD</div>
loader.replace_xpath('name', '
//div[@class = "item-name"]')

# HTML code: <div id = "length">the length is
 45cm</div>
loader.replace_xpath('length', '
//div[@id = "length"]', re = 'the length is (.*)')
7

get_css(css, *processors, **kwargs)

Ini menerima pemilih CSS yang digunakan untuk mengekstrak string unicode.

loader.get_css("div.item-name")
loader.get_css("div#length", TakeFirst(), 
re = "the length is (.*)")
8

add_css(field_name, css, *processors, **kwargs)

Ini mirip dengan metode add_value () dengan satu perbedaan yaitu menambahkan pemilih CSS ke bidang.

loader.add_css('name', 'div.item-name')
loader.add_css('length', 'div#length', 
re = 'the length is (.*)')
9

replace_css(field_name, css, *processors, **kwargs)

Ini menggantikan data yang diekstrak menggunakan pemilih CSS.

loader.replace_css('name', 'div.item-name')
loader.replace_css('length', 'div#length',
 re = 'the length is (.*)')
10

load_item()

Saat data dikumpulkan, metode ini mengisi item dengan data yang dikumpulkan dan mengembalikannya.

def parse(self, response):
l = ItemLoader(item = Product(), 
response = response)
l.add_xpath('title', '//
div[@class = "product_title"]')
loader.load_item()
11

nested_xpath(xpath)

Ini digunakan untuk membuat pemuat bersarang dengan pemilih XPath.

loader = ItemLoader(item = Item())
loader.add_xpath('social', '
a[@class = "social"]/@href')
loader.add_xpath('email', '
a[@class = "email"]/@href')
12

nested_css(css)

Ini digunakan untuk membuat pemuat bersarang dengan pemilih CSS.

loader = ItemLoader(item = Item())
loader.add_css('social', 'a[@class = "social"]/@href')
loader.add_css('email', 'a[@class = "email"]/@href')

Tabel berikut menunjukkan atribut objek ItemLoader -

Sr Tidak Atribut & Deskripsi
1

item

Ini adalah objek tempat Item Loader melakukan parsing.

2

context

Ini adalah konteks Item Loader yang aktif.

3

default_item_class

Ini digunakan untuk mewakili item, jika tidak diberikan dalam konstruktor.

4

default_input_processor

Bidang yang tidak menentukan prosesor input adalah satu-satunya yang digunakan default_input_processors.

5

default_output_processor

Bidang yang tidak menentukan prosesor keluaran adalah satu-satunya yang digunakan default_output_processors.

6

default_selector_class

Ini adalah kelas yang digunakan untuk membuat pemilih, jika tidak diberikan dalam konstruktor.

7

selector

Ini adalah objek yang dapat digunakan untuk mengekstrak data dari situs.

Loader Bersarang

Ini digunakan untuk membuat pemuat bersarang sambil mengurai nilai dari sub-bagian dokumen. Jika Anda tidak membuat pemuat bersarang, Anda perlu menentukan XPath atau CSS lengkap untuk setiap nilai yang ingin Anda ekstrak.

Misalnya, asumsikan bahwa data sedang diekstrak dari halaman header -

<header>
   <a class = "social" href = "http://facebook.com/whatever">facebook</a>
   <a class = "social" href = "http://twitter.com/whatever">twitter</a>
   <a class = "email" href = "mailto:[email protected]">send mail</a>
</header>

Selanjutnya, Anda dapat membuat loader bersarang dengan pemilih header dengan menambahkan nilai terkait ke header -

loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()

Menggunakan kembali dan memperluas Pemuat Item

Item Loader dirancang untuk meringankan pemeliharaan yang menjadi masalah mendasar saat proyek Anda memperoleh lebih banyak laba-laba.

Misalnya, asumsikan bahwa situs memiliki nama produk yang diapit dalam tiga tanda hubung (misalnya --DVD ---). Anda dapat menghapus tanda hubung tersebut dengan menggunakan kembali Product Item Loader default, jika Anda tidak menginginkannya di nama produk akhir seperti yang ditunjukkan pada kode berikut -

from scrapy.loader.processors import MapCompose 
from demoproject.ItemLoaders import DemoLoader  

def strip_dashes(x): 
   return x.strip('-')  

class SiteSpecificLoader(DemoLoader): 
   title_in = MapCompose(strip_dashes, DemoLoader.title_in)

Tersedia Prosesor Bawaan

Berikut adalah beberapa prosesor built-in yang umum digunakan -

class scrapy.loader.processors.Identity

Ini mengembalikan nilai asli tanpa mengubahnya. Misalnya -

>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']

class scrapy.loader.processors.TakeFirst

Ini mengembalikan nilai pertama yang bukan nol / tidak kosong dari daftar nilai yang diterima. Misalnya -

>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'

class scrapy.loader.processors.Join (separator = u '')

Ini mengembalikan nilai yang dilampirkan ke pemisah. Pemisah default adalah u '' dan itu setara dengan fungsinyau' '.join. Misalnya -

>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'

class scrapy.loader.processors.Compose (* functions, ** default_loader_context)

Ini didefinisikan oleh prosesor di mana setiap nilai masukannya diteruskan ke fungsi pertama, dan hasil dari fungsi itu diteruskan ke fungsi kedua dan seterusnya, sampai fungsi ast mengembalikan nilai akhir sebagai keluaran.

Misalnya -

>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'

class scrapy.loader.processors.MapCompose (* functions, ** default_loader_context)

Ini adalah prosesor di mana nilai input diulang dan fungsi pertama diterapkan ke setiap elemen. Selanjutnya, hasil dari pemanggilan fungsi ini digabungkan untuk membangun iterable baru yang kemudian diterapkan ke fungsi kedua dan seterusnya, hingga fungsi terakhir.

Misalnya -

>>> def filter_scrapy(x): 
   return None if x == 'scrapy' else x  

>>> from scrapy.loader.processors import MapCompose 
>>> proc = MapCompose(filter_scrapy, unicode.upper) 
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy']) 
[u'HI, u'IM', u'PYTHONSCRAPY']

class scrapy.loader.processors.SelectJmes (json_path)

Kelas ini mengkueri nilai menggunakan jalur json yang disediakan dan mengembalikan hasilnya.

Misalnya -

>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}

Berikut adalah kode, yang menanyakan nilai dengan mengimpor json -

>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']