Scrapy - Erste Spinne

Beschreibung

Spider ist eine Klasse, die die anfängliche URL definiert, aus der die Daten extrahiert werden sollen, wie Paginierungslinks zu folgen sind und wie die in der Definition definierten Felder extrahiert und analysiert werden items.py. Scrapy bietet verschiedene Arten von Spinnen, von denen jede einen bestimmten Zweck erfüllt.

Erstellen Sie eine Datei mit dem Namen "first_spider.py"im Verzeichnis first_scrapy / spiders, wo wir Scrapy mitteilen können, wie die genauen Daten zu finden sind, nach denen wir suchen. Dazu müssen Sie einige Attribute definieren -

  • name - Es definiert den eindeutigen Namen für die Spinne.

  • allowed_domains - Es enthält die Basis-URLs, die die Spinne crawlen soll.

  • start-urls - Eine Liste von URLs, von denen aus die Spinne zu kriechen beginnt.

  • parse() - Es ist eine Methode, die die kratzenden Daten extrahiert und analysiert.

Der folgende Code zeigt, wie ein Spinnencode aussieht -

import scrapy  

class firstSpider(scrapy.Spider): 
   name = "first" 
   allowed_domains = ["dmoz.org"] 
   
   start_urls = [ 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
   ]  
   def parse(self, response): 
      filename = response.url.split("/")[-2] + '.html' 
      with open(filename, 'wb') as f: 
         f.write(response.body)