बकवास - निम्नलिखित लिंक

विवरण

इस अध्याय में, हम अध्ययन करेंगे कि हमारी रुचि के पृष्ठों के लिंक कैसे निकाले जाएँ, उनका अनुसरण करें और उस पृष्ठ से डेटा निकालें। इसके लिए, हमें अपने पिछले कोड में निम्न परिवर्तन करने की आवश्यकता है जो निम्नानुसार है -

import scrapy
from tutorial.items import DmozItem

class MyprojectSpider(scrapy.Spider):
   name = "project"
   allowed_domains = ["dmoz.org"]
   
   start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/",
   ]
   def parse(self, response):
      for href in response.css("ul.directory.dir-col > li > a::attr('href')"):
         url = response.urljoin(href.extract())
            yield scrapy.Request(url, callback = self.parse_dir_contents)

   def parse_dir_contents(self, response):
      for sel in response.xpath('//ul/li'):
         item = DmozItem()
         item['title'] = sel.xpath('a/text()').extract()
         item['link'] = sel.xpath('a/@href').extract()
         item['desc'] = sel.xpath('text()').extract()
         yield item

उपरोक्त कोड में निम्नलिखित विधियाँ हैं -

  • parse() - यह हमारी रुचि के लिंक निकालेगा।

  • response.urljoin - पार्स () विधि इस विधि का उपयोग एक नया यूआरएल बनाने और एक नया अनुरोध प्रदान करने के लिए करेगी, जिसे बाद में कॉलबैक में भेजा जाएगा।

  • parse_dir_contents() - यह एक कॉलबैक है जो वास्तव में ब्याज के डेटा को परिमार्जन करेगा।

यहां, स्क्रेपी लिंक का पालन करने के लिए कॉलबैक तंत्र का उपयोग करता है। इस तंत्र का उपयोग करके, बड़े क्रॉलर को डिज़ाइन किया जा सकता है और विभिन्न पृष्ठों से वांछित डेटा को परिमार्जन करने के लिए ब्याज की लिंक का पालन कर सकता है। नियमित विधि कॉलबैक विधि होगी, जो वस्तुओं को निकालेगी, अगले पृष्ठ का अनुसरण करने के लिए लिंक की तलाश करेगी और फिर उसी कॉलबैक के लिए अनुरोध प्रदान करेगी।

निम्नलिखित उदाहरण एक लूप का उत्पादन करता है, जो अगले पृष्ठ के लिंक का पालन करेगा।

def parse_articles_follow_next_page(self, response):
   for article in response.xpath("//article"):
      item = ArticleItem()
    
      ... extract article data here

      yield item

   next_page = response.css("ul.navigation > li.next-page > a::attr('href')")
   if next_page:
      url = response.urljoin(next_page[0].extract())
      yield scrapy.Request(url, self.parse_articles_follow_next_page)