स्क्रैपी - आइटम लोडर
विवरण
आइटम लोडर वेबसाइटों से स्क्रैप की गई वस्तुओं को भरने के लिए एक सुविधाजनक तरीका प्रदान करते हैं।
आइटम लोडर की घोषणा
आइटम लोडरों की घोषणा आइटम की तरह है।
उदाहरण के लिए -
from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join
class DemoLoader(ItemLoader):
default_output_processor = TakeFirst()
title_in = MapCompose(unicode.title)
title_out = Join()
size_in = MapCompose(unicode.strip)
# you can continue scraping here
उपरोक्त कोड में, आप देख सकते हैं कि इनपुट प्रोसेसर का उपयोग करके घोषित किया गया है _in प्रत्यय और आउटपुट प्रोसेसर का उपयोग कर घोषित किया जाता है _out प्रत्यय।
ItemLoader.default_input_processor तथा ItemLoader.default_output_processor डिफ़ॉल्ट इनपुट / आउटपुट प्रोसेसर घोषित करने के लिए विशेषताओं का उपयोग किया जाता है।
आइटम लोडर का उपयोग करने के लिए आइटम आबाद
आइटम लोडर का उपयोग करने के लिए, पहले ताना-जैसी वस्तु के साथ या बिना आइटम के आइटम का उपयोग किए हुए आइटम वर्ग में निर्दिष्ट किए बिना तुरंत ItemLoader.default_item_class विशेषता।
आइटम लोडर में मान एकत्र करने के लिए आप चयनकर्ताओं का उपयोग कर सकते हैं।
आप समान आइटम फ़ील्ड में अधिक मान जोड़ सकते हैं, जहाँ आइटम लोडर इन मानों को जोड़ने के लिए एक उपयुक्त हैंडलर का उपयोग करेगा।
निम्न कोड प्रदर्शित करता है कि आइटम लोडर का उपयोग करके आइटम कैसे पॉपुलेट किए जाते हैं -
from scrapy.loader import ItemLoader
from demoproject.items import Demo
def parse(self, response):
l = ItemLoader(item = Product(), response = response)
l.add_xpath("title", "//div[@class = 'product_title']")
l.add_xpath("title", "//div[@class = 'product_name']")
l.add_xpath("desc", "//div[@class = 'desc']")
l.add_css("size", "div#size]")
l.add_value("last_updated", "yesterday")
return l.load_item()
जैसा कि ऊपर दिखाया गया है, दो अलग-अलग XPaths हैं जिनमें से title फ़ील्ड का उपयोग करके निकाला जाता है add_xpath() विधि -
1. //div[@class = "product_title"]
2. //div[@class = "product_name"]
इसके बाद, एक समान अनुरोध का उपयोग किया जाता है descमैदान। आकार डेटा का उपयोग करके निकाला जाता हैadd_css() विधि और last_updated एक मान "कल" का उपयोग करके भरा जाता है add_value() तरीका।
एक बार सभी डेटा एकत्र होने के बाद, कॉल करें ItemLoader.load_item() विधि जो उपयोग किए गए डेटा से भरी वस्तुओं को वापस करती है add_xpath(), add_css() तथा add_value() तरीकों।
इनपुट और आउटपुट प्रोसेसर
आइटम लोडर के प्रत्येक क्षेत्र में एक इनपुट प्रोसेसर और एक आउटपुट प्रोसेसर होता है।
जब डेटा निकाला जाता है, तो इनपुट प्रोसेसर इसे संसाधित करता है और इसका परिणाम ItemLoader में संग्रहीत होता है।
अगला, डेटा एकत्र करने के बाद, Item Item को लोड करने के लिए ItemLoader.load_item () विधि पर कॉल करें।
अंत में, आप आउटपुट प्रोसेसर के परिणाम को आइटम पर असाइन कर सकते हैं।
निम्न कोड दर्शाता है कि किसी विशिष्ट फ़ील्ड के लिए इनपुट और आउटपुट प्रोसेसर कैसे कॉल करें -
l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css) # [3]
l.add_value("title", "demo") # [4]
return l.load_item() # [5]
Line 1 - शीर्षक का डेटा xpath1 से निकाला जाता है और इनपुट प्रोसेसर के माध्यम से पारित किया जाता है और इसका परिणाम एकत्र किया जाता है और आइटमलॉडर में संग्रहीत किया जाता है।
Line 2 - इसी प्रकार, शीर्षक xpath2 से निकाला जाता है और एक ही इनपुट प्रोसेसर से होकर गुजरता है और इसके परिणाम को [1] के लिए एकत्र किए गए डेटा में जोड़ा जाता है।
Line 3 - शीर्षक सीएसएस चयनकर्ता से निकाला जाता है और एक ही इनपुट प्रोसेसर से गुजरता है और परिणाम [1] और [2] के लिए एकत्र किए गए डेटा में जोड़ा जाता है।
Line 4 - अगला, मान "डेमो" इनपुट प्रोसेसर के माध्यम से सौंपा और पारित किया जाता है।
Line 5 - अंत में, डेटा को सभी क्षेत्रों से आंतरिक रूप से एकत्र किया जाता है और आउटपुट प्रोसेसर को पास किया जाता है और अंतिम मूल्य आइटम को सौंपा जाता है।
इनपुट और आउटपुट प्रोसेसर्स की घोषणा
ItemLoader परिभाषा में इनपुट और आउटपुट प्रोसेसर घोषित किए गए हैं। इसके अलावा, वे में भी निर्दिष्ट किया जा सकता हैItem Field मेटाडाटा।
उदाहरण के लिए -
import scrapy
from scrapy.loader.processors import Join, MapCompose, TakeFirst
from w3lib.html import remove_tags
def filter_size(value):
if value.isdigit():
return value
class Item(scrapy.Item):
name = scrapy.Field(
input_processor = MapCompose(remove_tags),
output_processor = Join(),
)
size = scrapy.Field(
input_processor = MapCompose(remove_tags, filter_price),
output_processor = TakeFirst(),
)
>>> from scrapy.loader import ItemLoader
>>> il = ItemLoader(item = Product())
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>'])
>>> il.add_value('size', [u'<span>100 kg</span>'])
>>> il.load_item()
यह एक आउटपुट प्रदर्शित करता है -
{'title': u'Hello world', 'size': u'100 kg'}
आइटम लोडर संदर्भ
आइटम लोडर संदर्भ इनपुट और आउटपुट प्रोसेसर के बीच साझा किए गए मनमाने कुंजी मूल्यों का एक तानाशाही है।
उदाहरण के लिए, मान लें कि आपके पास फ़ंक्शन parse_length है -
def parse_length(text, loader_context):
unit = loader_context.get('unit', 'cm')
# You can write parsing code of length here
return parsed_length
Loader_context तर्क प्राप्त करके, यह आइटम लोडर को बताता है कि वह आइटम लोडर संदर्भ प्राप्त कर सकता है। आइटम लोडर संदर्भ के मूल्य को बदलने के कई तरीके हैं -
वर्तमान सक्रिय आइटम लोडर संदर्भ को संशोधित करें -
loader = ItemLoader (product)
loader.context ["unit"] = "mm"
आइटम लोडर तात्कालिकता पर -
loader = ItemLoader(product, unit = "mm")
आइटम लोडर घोषणा पर इनपुट / आउटपुट प्रोसेसर के लिए, जो आइटम लोडर संदर्भ के साथ तत्काल करता है -
class ProductLoader(ItemLoader):
length_out = MapCompose(parse_length, unit = "mm")
आइटमऑब्लेडर ऑब्जेक्ट्स
यह एक वस्तु है जो दिए गए आइटम को आबाद करने के लिए एक नया आइटम लोडर देता है। इसकी निम्न श्रेणी है -
class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)
निम्न तालिका ItemLoader ऑब्जेक्ट्स के मापदंडों को दिखाती है -
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | item यह add_xpath (), add_css () या add_value () कॉल करके पॉप्युलेट करने के लिए आइटम है। |
2 | selector इसका उपयोग वेबसाइटों से डेटा निकालने के लिए किया जाता है। |
3 | response इसका उपयोग default_selector_class का उपयोग करके चयनकर्ता के निर्माण के लिए किया जाता है। |
निम्न तालिका में आइटमऑलडर ऑब्जेक्ट्स के तरीके दिखाए गए हैं -
अनु क्रमांक | विधि और विवरण | उदाहरण |
---|---|---|
1 | get_value(value, *processors, **kwargs) किसी दिए गए प्रोसेसर और कीवर्ड तर्क द्वारा, मान get_value () विधि द्वारा संसाधित किया जाता है। |
|
2 | add_value(field_name, value, *processors, **kwargs) यह मूल्य को संसाधित करता है और फ़ील्ड इनपुट प्रोसेसर के माध्यम से गुजरने से पहले प्रोसेसर और कीवर्ड तर्क देकर इसे पहली बार get_value के माध्यम से पारित किया जाता है। |
|
3 | replace_value(field_name, value, *processors, **kwargs) यह एकत्र किए गए डेटा को नए मूल्य के साथ बदल देता है। |
|
4 | get_xpath(xpath, *processors, **kwargs) यह XPath प्राप्त करके प्रोसेसर और कीवर्ड तर्क देकर यूनिकोड स्ट्रिंग्स निकालने के लिए उपयोग किया जाता है । |
|
5 | add_xpath(field_name, xpath, *processors, **kwargs) यह एक्सपीथ को उस क्षेत्र में प्राप्त करता है जो यूनिकोड स्ट्रिंग्स को निकालता है। |
|
6 | replace_xpath(field_name, xpath, *processors, **kwargs) यह साइटों से XPath का उपयोग करके एकत्र किए गए डेटा को बदल देता है। |
|
7 | get_css(css, *processors, **kwargs) यह सीएसएस चयनकर्ता को यूनिकोड के तार निकालने के लिए उपयोग किया जाता है। |
|
8 | add_css(field_name, css, *processors, **kwargs) यह एक अंतर के साथ add_value () विधि के समान है जो फ़ील्ड में CSS चयनकर्ता जोड़ता है। |
|
9 | replace_css(field_name, css, *processors, **kwargs) यह CSS चयनकर्ता का उपयोग करके निकाले गए डेटा को बदल देता है। |
|
10 | load_item() जब डेटा एकत्र किया जाता है, तो यह विधि एकत्रित डेटा के साथ आइटम को भरती है और इसे वापस करती है। |
|
1 1 | nested_xpath(xpath) इसका उपयोग XPath चयनकर्ता के साथ नेस्टेड लोडर बनाने के लिए किया जाता है। |
|
12 | nested_css(css) इसका उपयोग CSS चयनकर्ता के साथ नेस्टेड लोडर बनाने के लिए किया जाता है। |
|
निम्न तालिका में आइटम की विशेषताएँ दर्शाती हैं -
अनु क्रमांक | विशेषता और विवरण |
---|---|
1 | item यह एक ऑब्जेक्ट है जिस पर आइटम लोडर पार्सिंग करता है। |
2 | context यह आइटम लोडर का वर्तमान संदर्भ है जो सक्रिय है। |
3 | default_item_class इसका उपयोग वस्तुओं का प्रतिनिधित्व करने के लिए किया जाता है, यदि निर्माणकर्ता में नहीं दिया गया है। |
4 | default_input_processor वे क्षेत्र जो इनपुट प्रोसेसर निर्दिष्ट नहीं करते हैं, वे केवल जिनके लिए default_input_processors का उपयोग किया जाता है। |
5 | default_output_processor फ़ील्ड जो आउटपुट प्रोसेसर को निर्दिष्ट नहीं करते हैं वे केवल वही हैं जिनके लिए default_output_processors का उपयोग किया जाता है। |
6 | default_selector_class यह चयनकर्ता के निर्माण के लिए उपयोग किया जाने वाला एक वर्ग है, अगर यह निर्माणकर्ता में नहीं दिया गया है। |
7 | selector यह एक ऐसी वस्तु है जिसका उपयोग साइटों से डेटा निकालने के लिए किया जा सकता है। |
नेस्टेड लोडर
इसका उपयोग किसी दस्तावेज़ के उपधारा से मानों को पार्स करते समय नेस्टेड लोडर बनाने के लिए किया जाता है। यदि आप नेस्टेड लोडर नहीं बनाते हैं, तो आपको प्रत्येक मूल्य के लिए पूर्ण XPath या CSS निर्दिष्ट करना होगा जिसे आप निकालना चाहते हैं।
उदाहरण के लिए, मान लें कि डेटा हेडर पेज से निकाला जा रहा है -
<header>
<a class = "social" href = "http://facebook.com/whatever">facebook</a>
<a class = "social" href = "http://twitter.com/whatever">twitter</a>
<a class = "email" href = "mailto:[email protected]">send mail</a>
</header>
अगला, आप हेडर से संबंधित मान जोड़कर हेडर चयनकर्ता के साथ नेस्टेड लोडर बना सकते हैं -
loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()
आइटम लोडरों का पुन: उपयोग और विस्तार करना
आइटम लोडर रखरखाव को राहत देने के लिए डिज़ाइन किए गए हैं जो कि एक मूलभूत समस्या बन जाती है जब आपकी परियोजना अधिक मकड़ियों का अधिग्रहण करती है।
उदाहरण के लिए, मान लें कि किसी साइट पर उनके उत्पाद का नाम तीन डैश में संलग्न है (जैसे --dvd ---)। आप डिफ़ॉल्ट उत्पाद आइटम लोडर का पुन: उपयोग करके उन डैश को हटा सकते हैं, यदि आप इसे अंतिम उत्पाद नामों में नहीं चाहते हैं जैसा कि निम्नलिखित कोड में दिखाया गया है -
from scrapy.loader.processors import MapCompose
from demoproject.ItemLoaders import DemoLoader
def strip_dashes(x):
return x.strip('-')
class SiteSpecificLoader(DemoLoader):
title_in = MapCompose(strip_dashes, DemoLoader.title_in)
उपलब्ध अंतर्निहित प्रोसेसर
निम्नलिखित आमतौर पर निर्मित प्रोसेसर में से कुछ हैं -
वर्ग scrapy.loader.processors.Identity
यह मूल मान को बदले बिना बदल देता है। उदाहरण के लिए -
>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']
वर्ग scrapy.loader.processors.TakeFirst
यह पहला मान लौटाता है जो प्राप्त मानों की सूची से गैर-शून्य / गैर-रिक्त है। उदाहरण के लिए -
>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'
वर्ग scrapy.loader.processors.Join (विभाजक = u '')
यह विभाजक से जुड़े मान को लौटाता है। डिफ़ॉल्ट विभाजक u '' है और यह फ़ंक्शन के बराबर हैu' '.join। उदाहरण के लिए -
>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'
वर्ग scrapy.loader.processors.Compose (* फ़ंक्शंस, ** default_loader_context)
यह एक प्रोसेसर द्वारा परिभाषित किया गया है, जहां इसके प्रत्येक इनपुट मूल्य को पहले फ़ंक्शन में पास किया जाता है, और उस फ़ंक्शन का परिणाम दूसरे फ़ंक्शन और इतने पर पारित किया जाता है, जब तक कि lthe ast फ़ंक्शन आउटपुट के रूप में अंतिम मान नहीं लौटाता।
उदाहरण के लिए -
>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'
वर्ग scrapy.loader.processors.MapCompose (* फ़ंक्शन, ** default_loader_context)
यह एक ऐसा प्रोसेसर होता है, जहां इनपुट वैल्यू को पुनरावृत्त किया जाता है और प्रत्येक फ़ंक्शन पर पहला फ़ंक्शन लागू किया जाता है। इसके बाद, इन फ़ंक्शन कॉल्स का नतीजा नए चलने योग्य बनाने के लिए सम्मिलित किया जाता है जो फिर दूसरे फ़ंक्शन पर लागू होता है और इसी तरह अंतिम फ़ंक्शन तक।
उदाहरण के लिए -
>>> def filter_scrapy(x):
return None if x == 'scrapy' else x
>>> from scrapy.loader.processors import MapCompose
>>> proc = MapCompose(filter_scrapy, unicode.upper)
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy'])
[u'HI, u'IM', u'PYTHONSCRAPY']
वर्ग scrapy.loader.processors.SelectJmes (json_path)
यह वर्ग प्रदान किए गए json पथ का उपयोग कर मूल्य पर सवाल उठाता है और आउटपुट देता है।
उदाहरण के लिए -
>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}
निम्नलिखित कोड है, जो json आयात करके मूल्य पर सवाल उठाता है -
>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']