स्क्रेपी - आइटम पाइपलाइन
विवरण
Item Pipelineएक ऐसी विधि है जहाँ फंसी वस्तुओं को संसाधित किया जाता है। जब कोई आइटम आइटम पाइपलाइन को भेजा जाता है, तो इसे एक मकड़ी द्वारा स्क्रैप किया जाता है और कई घटकों का उपयोग करके संसाधित किया जाता है, जिसे क्रमिक रूप से निष्पादित किया जाता है।
जब भी कोई वस्तु प्राप्त होती है, तो वह निम्नलिखित में से किसी एक कार्रवाई का निर्णय लेती है -
- आइटम को संसाधित करते रहें।
- इसे पाइपलाइन से गिराएं।
- आइटम को संसाधित करना बंद करें।
आइटम पाइपलाइनों का उपयोग आमतौर पर निम्नलिखित उद्देश्यों के लिए किया जाता है -
- डेटाबेस में संग्रहीत आइटम संग्रहीत करना।
- यदि प्राप्त आइटम को दोहराया जाता है, तो यह दोहराया आइटम को छोड़ देगा।
- यह जांच करेगा कि आइटम लक्षित क्षेत्रों के साथ है या नहीं।
- HTML डेटा साफ़ करना।
वाक्य - विन्यास
आप निम्न विधि का उपयोग करके आइटम पाइपलाइन लिख सकते हैं -
process_item(self, item, spider)
उपरोक्त विधि में निम्नलिखित पैरामीटर हैं -
- आइटम (आइटम ऑब्जेक्ट या शब्दकोश) - यह स्क्रैप की गई वस्तु को निर्दिष्ट करता है।
- मकड़ी (मकड़ी वस्तु) - वह मकड़ी जिसने वस्तु को खुरच दिया हो।
आप निम्न तालिका में दिए गए अतिरिक्त तरीकों का उपयोग कर सकते हैं -
अनु क्रमांक | विधि और विवरण | मापदंडों |
---|---|---|
1 | open_spider(self, spider) स्पाइडर खोले जाने पर इसे चुना जाता है। |
मकड़ी (स्पाइडर ऑब्जेक्ट) - यह मकड़ी को संदर्भित करता है जिसे खोला गया था। |
2 | close_spider(self, spider) मकड़ी बंद होने पर इसका चयन किया जाता है। |
मकड़ी (स्पाइडर ऑब्जेक्ट) - यह मकड़ी को संदर्भित करता है जिसे बंद कर दिया गया था। |
3 | from_crawler(cls, crawler) क्रॉलर की मदद से, पाइपलाइन मुख्य घटकों जैसे सिग्नल और स्क्रैपी की सेटिंग्स तक पहुंच सकती है। |
क्रॉलर (क्रॉलर ऑब्जेक्ट) - यह क्रॉलर को संदर्भित करता है जो इस पाइपलाइन का उपयोग करता है। |
उदाहरण
विभिन्न अवधारणाओं में उपयोग की जाने वाली आइटम पाइपलाइन के उदाहरण निम्नलिखित हैं।
नो टैग के साथ आइटम गिराना
निम्नलिखित कोड में, पाइपलाइन उन वस्तुओं के लिए (मूल्य) विशेषता को संतुलित करता है जिसमें वैट (अपवर्जित विशेषता) शामिल नहीं है और उन वस्तुओं को अनदेखा करते हैं जिनमें मूल्य टैग नहीं है -
from Scrapy.exceptions import DropItem
class PricePipeline(object):
vat = 2.25
def process_item(self, item, spider):
if item['price']:
if item['excludes_vat']:
item['price'] = item['price'] * self.vat
return item
else:
raise DropItem("Missing price in %s" % item)
JSON फ़ाइल में आइटम लिखना
निम्नलिखित कोड सभी मकड़ियों से सभी स्क्रैप किए गए आइटम को एक एकल में संग्रहीत करेगा items.jlफ़ाइल, जिसमें JSON प्रारूप में क्रमबद्ध रूप में प्रति पंक्ति एक आइटम शामिल है। JsonWriterPipeline क्लास का उपयोग कोड में आइटम पाइपलाइन को लिखने के तरीके के लिए किया जाता है -
import json
class JsonWriterPipeline(object):
def __init__(self):
self.file = open('items.jl', 'wb')
def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
MongoDB को आइटम लिखना
आप MongoDB पता और डेटाबेस का नाम स्क्रेपी सेटिंग्स में निर्दिष्ट कर सकते हैं और MongoDB संग्रह को आइटम वर्ग के नाम पर रखा जा सकता है। निम्नलिखित कोड का उपयोग करने का तरीका बताता हैfrom_crawler() संसाधनों को ठीक से इकट्ठा करने की विधि -
import pymongo
class MongoPipeline(object):
collection_name = 'Scrapy_list'
def __init__(self, mongo_uri, mongo_db):
self.mongo_uri = mongo_uri
self.mongo_db = mongo_db
@classmethod
def from_crawler(cls, crawler):
return cls(
mongo_uri = crawler.settings.get('MONGO_URI'),
mongo_db = crawler.settings.get('MONGO_DB', 'lists')
)
def open_spider(self, spider):
self.client = pymongo.MongoClient(self.mongo_uri)
self.db = self.client[self.mongo_db]
def close_spider(self, spider):
self.client.close()
def process_item(self, item, spider):
self.db[self.collection_name].insert(dict(item))
return item
डुप्लिकेट फिल्टर
एक फ़िल्टर दोहराया वस्तुओं के लिए जाँच करेगा और यह पहले से ही संसाधित वस्तुओं को छोड़ देगा। निम्नलिखित कोड में, हमने अपने आइटम के लिए एक अद्वितीय आईडी का उपयोग किया है, लेकिन मकड़ी एक ही आईडी के साथ कई आइटम लौटाती है -
from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
if item['id'] in self.ids_seen:
raise DropItem("Repeated items found: %s" % item)
else:
self.ids_seen.add(item['id'])
return item
एक आइटम पाइपलाइन को सक्रिय करना
आप निम्नलिखित कोड में दिखाए गए अनुसार ITEM_PIPELINES सेटिंग में अपनी कक्षा जोड़कर एक आइटम पाइपलाइन घटक को सक्रिय कर सकते हैं । आप कक्षाओं में पूर्णांक मानों को उस क्रम में असाइन कर सकते हैं जिसमें वे चलते हैं (क्रम को उच्च मूल्यवान कक्षाओं के लिए कम मूल्यवान किया जा सकता है) और मान 0-1000 रेंज में होंगे।
ITEM_PIPELINES = {
'myproject.pipelines.PricePipeline': 100,
'myproject.pipelines.JsonWriterPipeline': 600,
}