स्क्रेपी - पहला स्पाइडर

विवरण

स्पाइडर एक ऐसा वर्ग है जो डेटा को निकालने के लिए प्रारंभिक URL को परिभाषित करता है, कैसे पेजिंग लिंक का अनुसरण करें और कैसे परिभाषित फ़ील्ड को निकालें और पार्स करें items.py। स्क्रेपी विभिन्न प्रकार के मकड़ियों प्रदान करता है, जिनमें से प्रत्येक एक विशिष्ट उद्देश्य देता है।

नामक एक फ़ाइल बनाएँ "first_spider.py"First_scrapy / मकड़ियों निर्देशिका के तहत, जहां हम स्क्रैप को बता सकते हैं कि हम जिस सटीक डेटा की तलाश कर रहे हैं उसे कैसे खोजें। इसके लिए, आपको कुछ विशेषताओं को परिभाषित करना होगा -

  • name - यह मकड़ी के लिए अद्वितीय नाम को परिभाषित करता है।

  • allowed_domains - इसमें मकड़ी के रेंगने के लिए आधार URL होते हैं।

  • start-urls - उन URL की सूची जहां से मकड़ी रेंगना शुरू करती है।

  • parse() - यह एक तरीका है जो निकाले गए डेटा को अर्क और पार्स करता है।

निम्न कोड दर्शाता है कि मकड़ी कोड कैसा दिखता है -

import scrapy  

class firstSpider(scrapy.Spider): 
   name = "first" 
   allowed_domains = ["dmoz.org"] 
   
   start_urls = [ 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
   ]  
   def parse(self, response): 
      filename = response.url.split("/")[-2] + '.html' 
      with open(filename, 'wb') as f: 
         f.write(response.body)