स्क्रैपी - आइटम लोडर

विवरण

आइटम लोडर वेबसाइटों से स्क्रैप की गई वस्तुओं को भरने के लिए एक सुविधाजनक तरीका प्रदान करते हैं।

आइटम लोडर की घोषणा

आइटम लोडरों की घोषणा आइटम की तरह है।

उदाहरण के लिए -

from scrapy.loader import ItemLoader 
from scrapy.loader.processors import TakeFirst, MapCompose, Join  

class DemoLoader(ItemLoader):  
   default_output_processor = TakeFirst()  
   title_in = MapCompose(unicode.title) 
   title_out = Join()  
   size_in = MapCompose(unicode.strip)  
   # you can continue scraping here

उपरोक्त कोड में, आप देख सकते हैं कि इनपुट प्रोसेसर का उपयोग करके घोषित किया गया है _in प्रत्यय और आउटपुट प्रोसेसर का उपयोग कर घोषित किया जाता है _out प्रत्यय।

ItemLoader.default_input_processor तथा ItemLoader.default_output_processor डिफ़ॉल्ट इनपुट / आउटपुट प्रोसेसर घोषित करने के लिए विशेषताओं का उपयोग किया जाता है।

आइटम लोडर का उपयोग करने के लिए आइटम आबाद

आइटम लोडर का उपयोग करने के लिए, पहले ताना-जैसी वस्तु के साथ या बिना आइटम के आइटम का उपयोग किए हुए आइटम वर्ग में निर्दिष्ट किए बिना तुरंत ItemLoader.default_item_class विशेषता।

  • आइटम लोडर में मान एकत्र करने के लिए आप चयनकर्ताओं का उपयोग कर सकते हैं।

  • आप समान आइटम फ़ील्ड में अधिक मान जोड़ सकते हैं, जहाँ आइटम लोडर इन मानों को जोड़ने के लिए एक उपयुक्त हैंडलर का उपयोग करेगा।

निम्न कोड प्रदर्शित करता है कि आइटम लोडर का उपयोग करके आइटम कैसे पॉपुलेट किए जाते हैं -

from scrapy.loader import ItemLoader 
from demoproject.items import Demo  

def parse(self, response): 
   l = ItemLoader(item = Product(), response = response)
   l.add_xpath("title", "//div[@class = 'product_title']")
   l.add_xpath("title", "//div[@class = 'product_name']")
   l.add_xpath("desc", "//div[@class = 'desc']")
   l.add_css("size", "div#size]")
   l.add_value("last_updated", "yesterday")
   return l.load_item()

जैसा कि ऊपर दिखाया गया है, दो अलग-अलग XPaths हैं जिनमें से title फ़ील्ड का उपयोग करके निकाला जाता है add_xpath() विधि -

1. //div[@class = "product_title"] 
2. //div[@class = "product_name"]

इसके बाद, एक समान अनुरोध का उपयोग किया जाता है descमैदान। आकार डेटा का उपयोग करके निकाला जाता हैadd_css() विधि और last_updated एक मान "कल" ​​का उपयोग करके भरा जाता है add_value() तरीका।

एक बार सभी डेटा एकत्र होने के बाद, कॉल करें ItemLoader.load_item() विधि जो उपयोग किए गए डेटा से भरी वस्तुओं को वापस करती है add_xpath(), add_css() तथा add_value() तरीकों।

इनपुट और आउटपुट प्रोसेसर

आइटम लोडर के प्रत्येक क्षेत्र में एक इनपुट प्रोसेसर और एक आउटपुट प्रोसेसर होता है।

  • जब डेटा निकाला जाता है, तो इनपुट प्रोसेसर इसे संसाधित करता है और इसका परिणाम ItemLoader में संग्रहीत होता है।

  • अगला, डेटा एकत्र करने के बाद, Item Item को लोड करने के लिए ItemLoader.load_item () विधि पर कॉल करें।

  • अंत में, आप आउटपुट प्रोसेसर के परिणाम को आइटम पर असाइन कर सकते हैं।

निम्न कोड दर्शाता है कि किसी विशिष्ट फ़ील्ड के लिए इनपुट और आउटपुट प्रोसेसर कैसे कॉल करें -

l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css)      # [3]
l.add_value("title", "demo") # [4]
return l.load_item()         # [5]

Line 1 - शीर्षक का डेटा xpath1 से निकाला जाता है और इनपुट प्रोसेसर के माध्यम से पारित किया जाता है और इसका परिणाम एकत्र किया जाता है और आइटमलॉडर में संग्रहीत किया जाता है।

Line 2 - इसी प्रकार, शीर्षक xpath2 से निकाला जाता है और एक ही इनपुट प्रोसेसर से होकर गुजरता है और इसके परिणाम को [1] के लिए एकत्र किए गए डेटा में जोड़ा जाता है।

Line 3 - शीर्षक सीएसएस चयनकर्ता से निकाला जाता है और एक ही इनपुट प्रोसेसर से गुजरता है और परिणाम [1] और [2] के लिए एकत्र किए गए डेटा में जोड़ा जाता है।

Line 4 - अगला, मान "डेमो" इनपुट प्रोसेसर के माध्यम से सौंपा और पारित किया जाता है।

Line 5 - अंत में, डेटा को सभी क्षेत्रों से आंतरिक रूप से एकत्र किया जाता है और आउटपुट प्रोसेसर को पास किया जाता है और अंतिम मूल्य आइटम को सौंपा जाता है।

इनपुट और आउटपुट प्रोसेसर्स की घोषणा

ItemLoader परिभाषा में इनपुट और आउटपुट प्रोसेसर घोषित किए गए हैं। इसके अलावा, वे में भी निर्दिष्ट किया जा सकता हैItem Field मेटाडाटा।

उदाहरण के लिए -

import scrapy 
from scrapy.loader.processors import Join, MapCompose, TakeFirst 
from w3lib.html import remove_tags  

def filter_size(value): 
   if value.isdigit(): 
      return value  

class Item(scrapy.Item): 
   name = scrapy.Field( 
      input_processor = MapCompose(remove_tags), 
      output_processor = Join(), 
   )
   size = scrapy.Field( 
      input_processor = MapCompose(remove_tags, filter_price), 
      output_processor = TakeFirst(), 
   ) 

>>> from scrapy.loader import ItemLoader 
>>> il = ItemLoader(item = Product()) 
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>']) 
>>> il.add_value('size', [u'<span>100 kg</span>']) 
>>> il.load_item()

यह एक आउटपुट प्रदर्शित करता है -

{'title': u'Hello world', 'size': u'100 kg'}

आइटम लोडर संदर्भ

आइटम लोडर संदर्भ इनपुट और आउटपुट प्रोसेसर के बीच साझा किए गए मनमाने कुंजी मूल्यों का एक तानाशाही है।

उदाहरण के लिए, मान लें कि आपके पास फ़ंक्शन parse_length है -

def parse_length(text, loader_context): 
   unit = loader_context.get('unit', 'cm') 
   
   # You can write parsing code of length here  
   return parsed_length

Loader_context तर्क प्राप्त करके, यह आइटम लोडर को बताता है कि वह आइटम लोडर संदर्भ प्राप्त कर सकता है। आइटम लोडर संदर्भ के मूल्य को बदलने के कई तरीके हैं -

  • वर्तमान सक्रिय आइटम लोडर संदर्भ को संशोधित करें -

loader = ItemLoader (product)
loader.context ["unit"] = "mm"
  • आइटम लोडर तात्कालिकता पर -

loader = ItemLoader(product, unit = "mm")
  • आइटम लोडर घोषणा पर इनपुट / आउटपुट प्रोसेसर के लिए, जो आइटम लोडर संदर्भ के साथ तत्काल करता है -

class ProductLoader(ItemLoader):
   length_out = MapCompose(parse_length, unit = "mm")

आइटमऑब्लेडर ऑब्जेक्ट्स

यह एक वस्तु है जो दिए गए आइटम को आबाद करने के लिए एक नया आइटम लोडर देता है। इसकी निम्न श्रेणी है -

class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)

निम्न तालिका ItemLoader ऑब्जेक्ट्स के मापदंडों को दिखाती है -

अनु क्रमांक पैरामीटर और विवरण
1

item

यह add_xpath (), add_css () या add_value () कॉल करके पॉप्युलेट करने के लिए आइटम है।

2

selector

इसका उपयोग वेबसाइटों से डेटा निकालने के लिए किया जाता है।

3

response

इसका उपयोग default_selector_class का उपयोग करके चयनकर्ता के निर्माण के लिए किया जाता है।

निम्न तालिका में आइटमऑलडर ऑब्जेक्ट्स के तरीके दिखाए गए हैं -

अनु क्रमांक विधि और विवरण उदाहरण
1

get_value(value, *processors, **kwargs)

किसी दिए गए प्रोसेसर और कीवर्ड तर्क द्वारा, मान get_value () विधि द्वारा संसाधित किया जाता है।

>>> from scrapy.loader.processors import TakeFirst
>>> loader.get_value(u'title: demoweb', TakeFirst(), 
unicode.upper, re = 'title: (.+)')
'DEMOWEB`
2

add_value(field_name, value, *processors, **kwargs)

यह मूल्य को संसाधित करता है और फ़ील्ड इनपुट प्रोसेसर के माध्यम से गुजरने से पहले प्रोसेसर और कीवर्ड तर्क देकर इसे पहली बार get_value के माध्यम से पारित किया जाता है।

loader.add_value('title', u'DVD')
loader.add_value('colors', [u'black', u'white'])
loader.add_value('length', u'80')
loader.add_value('price', u'2500')
3

replace_value(field_name, value, *processors, **kwargs)

यह एकत्र किए गए डेटा को नए मूल्य के साथ बदल देता है।

loader.replace_value('title', u'DVD')
loader.replace_value('colors', [u'black', 
u'white'])
loader.replace_value('length', u'80')
loader.replace_value('price', u'2500')
4

get_xpath(xpath, *processors, **kwargs)

यह XPath प्राप्त करके प्रोसेसर और कीवर्ड तर्क देकर यूनिकोड स्ट्रिंग्स निकालने के लिए उपयोग किया जाता है ।

# HTML code: <div class = "item-name">DVD</div>
loader.get_xpath("//div[@class = 
'item-name']")

# HTML code: <div id = "length">the length is 
45cm</div>
loader.get_xpath("//div[@id = 'length']", TakeFirst(), 
re = "the length is (.*)")
5

add_xpath(field_name, xpath, *processors, **kwargs)

यह एक्सपीथ को उस क्षेत्र में प्राप्त करता है जो यूनिकोड स्ट्रिंग्स को निकालता है।

# HTML code: <div class = "item-name">DVD</div>
loader.add_xpath('name', '//div
[@class = "item-name"]')

# HTML code: <div id = "length">the length is 
45cm</div>
loader.add_xpath('length', '//div[@id = "length"]',
 re = 'the length is (.*)')
6

replace_xpath(field_name, xpath, *processors, **kwargs)

यह साइटों से XPath का उपयोग करके एकत्र किए गए डेटा को बदल देता है।

# HTML code: <div class = "item-name">DVD</div>
loader.replace_xpath('name', '
//div[@class = "item-name"]')

# HTML code: <div id = "length">the length is
 45cm</div>
loader.replace_xpath('length', '
//div[@id = "length"]', re = 'the length is (.*)')
7

get_css(css, *processors, **kwargs)

यह सीएसएस चयनकर्ता को यूनिकोड के तार निकालने के लिए उपयोग किया जाता है।

loader.get_css("div.item-name")
loader.get_css("div#length", TakeFirst(), 
re = "the length is (.*)")
8

add_css(field_name, css, *processors, **kwargs)

यह एक अंतर के साथ add_value () विधि के समान है जो फ़ील्ड में CSS चयनकर्ता जोड़ता है।

loader.add_css('name', 'div.item-name')
loader.add_css('length', 'div#length', 
re = 'the length is (.*)')
9

replace_css(field_name, css, *processors, **kwargs)

यह CSS चयनकर्ता का उपयोग करके निकाले गए डेटा को बदल देता है।

loader.replace_css('name', 'div.item-name')
loader.replace_css('length', 'div#length',
 re = 'the length is (.*)')
10

load_item()

जब डेटा एकत्र किया जाता है, तो यह विधि एकत्रित डेटा के साथ आइटम को भरती है और इसे वापस करती है।

def parse(self, response):
l = ItemLoader(item = Product(), 
response = response)
l.add_xpath('title', '//
div[@class = "product_title"]')
loader.load_item()
1 1

nested_xpath(xpath)

इसका उपयोग XPath चयनकर्ता के साथ नेस्टेड लोडर बनाने के लिए किया जाता है।

loader = ItemLoader(item = Item())
loader.add_xpath('social', '
a[@class = "social"]/@href')
loader.add_xpath('email', '
a[@class = "email"]/@href')
12

nested_css(css)

इसका उपयोग CSS चयनकर्ता के साथ नेस्टेड लोडर बनाने के लिए किया जाता है।

loader = ItemLoader(item = Item())
loader.add_css('social', 'a[@class = "social"]/@href')
loader.add_css('email', 'a[@class = "email"]/@href')

निम्न तालिका में आइटम की विशेषताएँ दर्शाती हैं -

अनु क्रमांक विशेषता और विवरण
1

item

यह एक ऑब्जेक्ट है जिस पर आइटम लोडर पार्सिंग करता है।

2

context

यह आइटम लोडर का वर्तमान संदर्भ है जो सक्रिय है।

3

default_item_class

इसका उपयोग वस्तुओं का प्रतिनिधित्व करने के लिए किया जाता है, यदि निर्माणकर्ता में नहीं दिया गया है।

4

default_input_processor

वे क्षेत्र जो इनपुट प्रोसेसर निर्दिष्ट नहीं करते हैं, वे केवल जिनके लिए default_input_processors का उपयोग किया जाता है।

5

default_output_processor

फ़ील्ड जो आउटपुट प्रोसेसर को निर्दिष्ट नहीं करते हैं वे केवल वही हैं जिनके लिए default_output_processors का उपयोग किया जाता है।

6

default_selector_class

यह चयनकर्ता के निर्माण के लिए उपयोग किया जाने वाला एक वर्ग है, अगर यह निर्माणकर्ता में नहीं दिया गया है।

7

selector

यह एक ऐसी वस्तु है जिसका उपयोग साइटों से डेटा निकालने के लिए किया जा सकता है।

नेस्टेड लोडर

इसका उपयोग किसी दस्तावेज़ के उपधारा से मानों को पार्स करते समय नेस्टेड लोडर बनाने के लिए किया जाता है। यदि आप नेस्टेड लोडर नहीं बनाते हैं, तो आपको प्रत्येक मूल्य के लिए पूर्ण XPath या CSS निर्दिष्ट करना होगा जिसे आप निकालना चाहते हैं।

उदाहरण के लिए, मान लें कि डेटा हेडर पेज से निकाला जा रहा है -

<header>
   <a class = "social" href = "http://facebook.com/whatever">facebook</a>
   <a class = "social" href = "http://twitter.com/whatever">twitter</a>
   <a class = "email" href = "mailto:[email protected]">send mail</a>
</header>

अगला, आप हेडर से संबंधित मान जोड़कर हेडर चयनकर्ता के साथ नेस्टेड लोडर बना सकते हैं -

loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()

आइटम लोडरों का पुन: उपयोग और विस्तार करना

आइटम लोडर रखरखाव को राहत देने के लिए डिज़ाइन किए गए हैं जो कि एक मूलभूत समस्या बन जाती है जब आपकी परियोजना अधिक मकड़ियों का अधिग्रहण करती है।

उदाहरण के लिए, मान लें कि किसी साइट पर उनके उत्पाद का नाम तीन डैश में संलग्न है (जैसे --dvd ---)। आप डिफ़ॉल्ट उत्पाद आइटम लोडर का पुन: उपयोग करके उन डैश को हटा सकते हैं, यदि आप इसे अंतिम उत्पाद नामों में नहीं चाहते हैं जैसा कि निम्नलिखित कोड में दिखाया गया है -

from scrapy.loader.processors import MapCompose 
from demoproject.ItemLoaders import DemoLoader  

def strip_dashes(x): 
   return x.strip('-')  

class SiteSpecificLoader(DemoLoader): 
   title_in = MapCompose(strip_dashes, DemoLoader.title_in)

उपलब्ध अंतर्निहित प्रोसेसर

निम्नलिखित आमतौर पर निर्मित प्रोसेसर में से कुछ हैं -

वर्ग scrapy.loader.processors.Identity

यह मूल मान को बदले बिना बदल देता है। उदाहरण के लिए -

>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']

वर्ग scrapy.loader.processors.TakeFirst

यह पहला मान लौटाता है जो प्राप्त मानों की सूची से गैर-शून्य / गैर-रिक्त है। उदाहरण के लिए -

>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'

वर्ग scrapy.loader.processors.Join (विभाजक = u '')

यह विभाजक से जुड़े मान को लौटाता है। डिफ़ॉल्ट विभाजक u '' है और यह फ़ंक्शन के बराबर हैu' '.join। उदाहरण के लिए -

>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'

वर्ग scrapy.loader.processors.Compose (* फ़ंक्शंस, ** default_loader_context)

यह एक प्रोसेसर द्वारा परिभाषित किया गया है, जहां इसके प्रत्येक इनपुट मूल्य को पहले फ़ंक्शन में पास किया जाता है, और उस फ़ंक्शन का परिणाम दूसरे फ़ंक्शन और इतने पर पारित किया जाता है, जब तक कि lthe ast फ़ंक्शन आउटपुट के रूप में अंतिम मान नहीं लौटाता।

उदाहरण के लिए -

>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'

वर्ग scrapy.loader.processors.MapCompose (* फ़ंक्शन, ** default_loader_context)

यह एक ऐसा प्रोसेसर होता है, जहां इनपुट वैल्यू को पुनरावृत्त किया जाता है और प्रत्येक फ़ंक्शन पर पहला फ़ंक्शन लागू किया जाता है। इसके बाद, इन फ़ंक्शन कॉल्स का नतीजा नए चलने योग्य बनाने के लिए सम्‍मिलित किया जाता है जो फिर दूसरे फ़ंक्शन पर लागू होता है और इसी तरह अंतिम फ़ंक्शन तक।

उदाहरण के लिए -

>>> def filter_scrapy(x): 
   return None if x == 'scrapy' else x  

>>> from scrapy.loader.processors import MapCompose 
>>> proc = MapCompose(filter_scrapy, unicode.upper) 
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy']) 
[u'HI, u'IM', u'PYTHONSCRAPY']

वर्ग scrapy.loader.processors.SelectJmes (json_path)

यह वर्ग प्रदान किए गए json पथ का उपयोग कर मूल्य पर सवाल उठाता है और आउटपुट देता है।

उदाहरण के लिए -

>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}

निम्नलिखित कोड है, जो json आयात करके मूल्य पर सवाल उठाता है -

>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']