Scrapy - Guide rapide

Scrapy est un framework d'exploration Web rapide et open-source écrit en Python, utilisé pour extraire les données de la page Web à l'aide de sélecteurs basés sur XPath.

Scrapy a été publié pour la première fois le 26 juin 2008 sous licence BSD, avec un jalon 1.0 publié en juin 2015.

Pourquoi utiliser Scrapy?

  • Il est plus facile de créer et de mettre à l'échelle de grands projets d'exploration.

  • Il dispose d'un mécanisme intégré appelé sélecteurs, pour extraire les données des sites Web.

  • Il gère les demandes de manière asynchrone et c'est rapide.

  • Il ajuste automatiquement la vitesse d'exploration à l'aide du mécanisme d'auto-étranglement .

  • Assure l'accessibilité des développeurs.

Caractéristiques de Scrapy

  • Scrapy est un framework d'exploration Web open source et gratuit.

  • Scrapy génère des exportations de flux dans des formats tels que JSON, CSV et XML.

  • Scrapy a un support intégré pour sélectionner et extraire des données à partir de sources soit par XPath ou expressions CSS.

  • Scrapy basé sur un robot d'exploration, permet d'extraire automatiquement les données des pages Web.

Avantages

  • Scrapy est facilement extensible, rapide et puissant.

  • Il s'agit d'un framework applicatif multiplateforme (Windows, Linux, Mac OS et BSD).

  • Les demandes Scrapy sont planifiées et traitées de manière asynchrone.

  • Scrapy est livré avec un service intégré appelé Scrapyd qui permet de télécharger des projets et de contrôler les araignées à l'aide du service Web JSON.

  • Il est possible de supprimer n'importe quel site Web, bien que ce site Web ne dispose pas d'API pour l'accès aux données brutes.

Désavantages

  • Scrapy est uniquement pour Python 2.7. +

  • L'installation est différente pour différents systèmes d'exploitation.

Dans ce chapitre, nous verrons comment installer et configurer Scrapy. Scrapy doit être installé avec Python.

Scrapy peut être installé en utilisant pip. Pour installer, exécutez la commande suivante -

pip install Scrapy

les fenêtres

Note - Python 3 n'est pas pris en charge sur le système d'exploitation Windows.

Step 1- Installez Python 2.7 depuis Python

Définissez les variables d'environnement en ajoutant les chemins suivants au PATH -

C:\Python27\;C:\Python27\Scripts\;

Vous pouvez vérifier la version Python à l'aide de la commande suivante -

python --version

Step 2- Installez OpenSSL .

Ajoutez C: \ OpenSSL-Win32 \ bin dans vos variables d'environnement.

Note - OpenSSL est préinstallé dans tous les systèmes d'exploitation à l'exception de Windows.

Step 3- Installez les redistribuables Visual C ++ 2008 .

Step 4- Installez pywin32 .

Step 5- Installez pip pour les versions Python antérieures à 2.7.9.

Vous pouvez vérifier la version de pip en utilisant la commande suivante -

pip --version

Step 6 - Pour installer scrapy, exécutez la commande suivante -

pip install Scrapy

Anaconda

Si anaconda ou miniconda est installé sur votre machine, exécutez la commande ci-dessous pour installer Scrapy en utilisant conda -

conda install -c scrapinghub scrapy

La société Scrapinghub prend en charge les packages conda officiels pour Linux, Windows et OS X.

Note - Il est recommandé d'installer Scrapy à l'aide de la commande ci-dessus si vous rencontrez des problèmes lors de l'installation via pip.

Ubuntu 9.10 ou supérieur

La dernière version de Python est préinstallée sur le système d'exploitation Ubuntu. Utilisez les packages Ubuntu aptgettable fournis par Scrapinghub. Pour utiliser les packages -

Step 1 - Vous devez importer la clé GPG utilisée pour signer les packages Scrapy dans le porte-clés APT -

sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7

Step 2 - Ensuite, utilisez la commande suivante pour créer le fichier /etc/apt/sources.list.d/scrapy.list -

echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee 
/etc/apt/sources.list.d/scrapy.list

Step 3 - Mettre à jour la liste des paquets et installer scrapy -

sudo apt-get update && sudo apt-get install scrapy

Archlinux

Vous pouvez installer Scrapy à partir du package AUR Scrapy en utilisant la commande suivante -

yaourt -S scrapy

Mac OS X

Utilisez la commande suivante pour installer les outils de ligne de commande Xcode -

xcode-select --install

Au lieu d'utiliser le système Python, installez une nouvelle version mise à jour qui n'entre pas en conflit avec le reste de votre système.

Step 1- Installez homebrew .

Step 2 - Définissez la variable d'environnement PATH pour spécifier que les packages homebrew doivent être utilisés avant les packages système -

echo "export PATH = /usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc

Step 3 - Pour vous assurer que les modifications sont effectuées, rechargez .bashrc en utilisant la commande suivante -

source ~/.bashrc

Step 4 - Ensuite, installez Python à l'aide de la commande suivante -

brew install python

Step 5 - Installez Scrapy en utilisant la commande suivante -

pip install Scrapy

La description

L'outil de ligne de commande Scrapy est utilisé pour contrôler Scrapy, souvent appelé 'Scrapy tool'. Il comprend les commandes pour divers objets avec un groupe d'arguments et d'options.

Paramètres de configuration

Scrapy trouvera les paramètres de configuration dans le scrapy.cfgfichier. Voici quelques endroits -

  • C: \ scrapy (dossier du projet) \ scrapy.cfg dans le système

  • ~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) et ~ / .scrapy.cfg ($ HOME) pour les paramètres globaux

  • Vous pouvez trouver le scrapy.cfg à la racine du projet.

Scrapy peut également être configuré à l'aide des variables d'environnement suivantes -

  • SCRAPY_SETTINGS_MODULE
  • SCRAPY_PROJECT
  • SCRAPY_PYTHON_SHELL

Projet Scrapy de structure par défaut

La structure suivante montre la structure de fichiers par défaut du projet Scrapy.

scrapy.cfg                - Deploy the configuration file
project_name/             - Name of the project
   _init_.py
   items.py               - It is project's items file
   pipelines.py           - It is project's pipelines file
   settings.py            - It is project's settings file
   spiders                - It is the spiders directory
      _init_.py
      spider_name.py
      . . .

le scrapy.cfgfile est un répertoire racine du projet, qui comprend le nom du projet avec les paramètres du projet. Par exemple -

[settings] 
default = [name of the project].settings  

[deploy] 
#url = http://localhost:6800/ 
project = [name of the project]

Utilisation de l'outil Scrapy

L'outil Scrapy fournit certaines utilisations et commandes disponibles comme suit -

Scrapy X.Y  - no active project 
Usage: 
   scrapy  [options] [arguments] 
Available commands: 
   crawl      It puts spider (handle the URL) to work for crawling data 
   fetch      It fetches the response from the given URL

Créer un projet

Vous pouvez utiliser la commande suivante pour créer le projet dans Scrapy -

scrapy startproject project_name

Cela créera le projet appelé project_nameannuaire. Ensuite, accédez au projet nouvellement créé, en utilisant la commande suivante -

cd  project_name

Contrôle des projets

Vous pouvez contrôler le projet et les gérer à l'aide de l'outil Scrapy et également créer la nouvelle araignée, en utilisant la commande suivante -

scrapy genspider mydomain mydomain.com

Les commandes telles que crawl, etc. doivent être utilisées dans le projet Scrapy. Vous saurez quelles commandes doivent être exécutées dans le projet Scrapy dans la section suivante.

Scrapy contient des commandes intégrées, qui peuvent être utilisées pour votre projet. Pour voir la liste des commandes disponibles, utilisez la commande suivante -

scrapy -h

Lorsque vous exécutez la commande suivante, Scrapy affichera la liste des commandes disponibles comme indiqué -

  • fetch - Il récupère l'URL à l'aide du téléchargeur Scrapy.

  • runspider - Il est utilisé pour exécuter spider autonome sans créer de projet.

  • settings - Il spécifie la valeur de réglage du projet.

  • shell - C'est un module de scraping interactif pour l'URL donnée.

  • startproject - Il crée un nouveau projet Scrapy.

  • version - Il affiche la version Scrapy.

  • view - Il récupère l'URL à l'aide du téléchargeur Scrapy et affiche le contenu dans un navigateur.

Vous pouvez avoir certaines commandes liées au projet comme répertoriées -

  • crawl - Il est utilisé pour analyser les données à l'aide de l'araignée.

  • check - Il vérifie les éléments renvoyés par la commande analysée.

  • list - Il affiche la liste des araignées disponibles présentes dans le projet.

  • edit - Vous pouvez éditer les araignées en utilisant l'éditeur.

  • parse - Il analyse l'URL donnée avec l'araignée.

  • bench - Il est utilisé pour exécuter un test de référence rapide (le test de référence indique combien de pages peuvent être explorées par minute par Scrapy).

Commandes de projet personnalisées

Vous pouvez créer une commande de projet personnalisée avec COMMANDS_MODULEdans le projet Scrapy. Il inclut une chaîne vide par défaut dans le paramètre. Vous pouvez ajouter la commande personnalisée suivante -

COMMANDS_MODULE = 'mycmd.commands'

Les commandes Scrapy peuvent être ajoutées à l'aide de la section scrapy.commands du fichier setup.py illustré ci-dessous -

from setuptools import setup, find_packages  

setup(name = 'scrapy-module_demo', 
   entry_points = { 
      'scrapy.commands': [ 
         'cmd_demo = my_module.commands:CmdDemo', 
      ], 
   }, 
)

Le code ci-dessus ajoute cmd_demo commande dans le setup.py fichier.

La description

Spider est une classe chargée de définir comment suivre les liens via un site Web et extraire les informations des pages.

Les araignées par défaut de Scrapy sont les suivantes -

tremblante.

C'est une araignée dont toutes les autres araignées doivent hériter. Il a la classe suivante -

class scrapy.spiders.Spider

Le tableau suivant présente les champs de la classe scrapy.Spider -

Sr.Non Champ et description
1

name

C'est le nom de votre araignée.

2

allowed_domains

C'est une liste de domaines sur lesquels l'araignée rampe.

3

start_urls

C'est une liste d'URL, qui seront les racines des analyses ultérieures, d'où l'araignée commencera à explorer.

4

custom_settings

Ce sont les paramètres, lors de l'exécution de l'araignée, qui seront remplacés par la configuration à l'échelle du projet.

5

crawler

C'est un attribut lié à l'objet Crawler auquel l'instance d'araignée est liée.

6

settings

Ce sont les paramètres pour exécuter une araignée.

sept

logger

C'est un enregistreur Python utilisé pour envoyer des messages de journal.

8

from_crawler(crawler,*args,**kwargs)

C'est une méthode de classe, qui crée votre araignée. Les paramètres sont -

  • crawler - Un robot auquel l'instance spider sera liée.

  • args(list)- Ces arguments sont passés à la méthode _init_ () .

  • kwargs(dict)- Ces arguments de mot-clé sont passés à la méthode _init_ () .

9

start_requests()

Lorsqu'aucune URL particulière n'est spécifiée et que l'araignée est ouverte pour la mise au rebut, Scrapy appelle la méthode start_requests () .

dix

make_requests_from_url(url)

C'est une méthode utilisée pour convertir les URL en requêtes.

11

parse(response)

Cette méthode traite la réponse et renvoie les données supprimées après d'autres URL.

12

log(message[,level,component])

C'est une méthode qui envoie un message de journal via un enregistreur d'araignées.

13

closed(reason)

Cette méthode est appelée lorsque l'araignée se ferme.

Arguments d'araignée

Les arguments Spider sont utilisés pour spécifier les URL de démarrage et sont transmis à l'aide de la commande d'exploration avec -a option, illustrée comme suit -

scrapy crawl first_scrapy -a group = accessories

Le code suivant montre comment une araignée reçoit des arguments -

import scrapy 

class FirstSpider(scrapy.Spider): 
   name = "first" 
   
   def __init__(self, group = None, *args, **kwargs): 
      super(FirstSpider, self).__init__(*args, **kwargs) 
      self.start_urls = ["http://www.example.com/group/%s" % group]

Araignées génériques

Vous pouvez utiliser des araignées génériques pour sous-classer vos araignées. Leur objectif est de suivre tous les liens sur le site Web en fonction de certaines règles pour extraire les données de toutes les pages.

Pour les exemples utilisés dans les spiders suivants, supposons que nous ayons un projet avec les champs suivants -

import scrapy 
from scrapy.item import Item, Field 
  
class First_scrapyItem(scrapy.Item): 
   product_title = Field() 
   product_link = Field() 
   product_description = Field()

CrawlSpider

CrawlSpider définit un ensemble de règles pour suivre les liens et supprimer plus d'une page. Il a la classe suivante -

class scrapy.spiders.CrawlSpider

Voici les attributs de la classe CrawlSpider -

règles

Il s'agit d'une liste d'objets de règle qui définit la manière dont le robot suit le lien.

Le tableau suivant montre les règles de la classe CrawlSpider -

Sr.Non Règle et description
1

LinkExtractor

Il spécifie comment l'araignée suit les liens et extrait les données.

2

callback

Il doit être appelé après chaque page est grattée.

3

follow

Il spécifie s'il faut continuer à suivre les liens ou non.

parse_start_url (réponse)

Il retourne un élément ou un objet de requête en permettant d'analyser les réponses initiales.

Note - Assurez-vous de renommer la fonction d'analyse autrement que parse lors de l'écriture des règles car la fonction d'analyse est utilisée par CrawlSpider pour implémenter sa logique.

Jetons un coup d'œil à l'exemple suivant, où spider commence à explorer la page d'accueil de demoexample.com, en collectant toutes les pages, liens et analyses avec la méthode parse_items -

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class DemoSpider(CrawlSpider):
   name = "demo"
   allowed_domains = ["www.demoexample.com"]
   start_urls = ["http://www.demoexample.com"]
      
   rules = ( 
      Rule(LinkExtractor(allow =(), restrict_xpaths = ("//div[@class = 'next']",)),
         callback = "parse_item", follow = True),
   )
   
   def parse_item(self, response):
      item = DemoItem()
      item["product_title"] = response.xpath("a/text()").extract()
      item["product_link"] = response.xpath("a/@href").extract()
      item["product_description"] = response.xpath("div[@class = 'desc']/text()").extract()
      return items

XMLFeedSpider

C'est la classe de base pour les araignées qui grattent des flux XML et itèrent sur les nœuds. Il a la classe suivante -

class scrapy.spiders.XMLFeedSpider

Le tableau suivant montre les attributs de classe utilisés pour définir un itérateur et un nom de balise -

Sr.Non Attribut et description
1

iterator

Il définit l'itérateur à utiliser. Il peut s'agir d' iternodes, html ou xml . La valeur par défaut est iternodes .

2

itertag

C'est une chaîne avec le nom du nœud à itérer.

3

namespaces

Il est défini par une liste de tuples (prefix, uri) qui enregistre automatiquement les espaces de noms en utilisant la méthode register_namespace () .

4

adapt_response(response)

Il reçoit la réponse et modifie le corps de la réponse dès qu'il arrive du middleware spider, avant que spider ne commence à l'analyser.

5

parse_node(response,selector)

Il reçoit la réponse et un sélecteur lorsqu'il est appelé pour chaque nœud correspondant au nom de balise fourni.

Note - Votre araignée ne fonctionnera pas si vous ne remplacez pas cette méthode.

6

process_results(response,results)

Il renvoie une liste de résultats et de réponse renvoyés par l'araignée.

CSVFeedSpider

Il parcourt chacune de ses lignes, reçoit un fichier CSV en réponse et appelle la méthode parse_row () . Il a la classe suivante -

class scrapy.spiders.CSVFeedSpider

Le tableau suivant montre les options qui peuvent être définies concernant le fichier CSV -

Sr.Non Option et description
1

delimiter

C'est une chaîne contenant une virgule (',') séparateur pour chaque champ.

2

quotechar

Il s'agit d'une chaîne contenant des guillemets ('"') pour chaque champ.

3

headers

C'est une liste d'instructions à partir desquelles les champs peuvent être extraits.

4

parse_row(response,row)

Il reçoit une réponse et chaque ligne avec une clé pour l'en-tête.

Exemple CSVFeedSpider

from scrapy.spiders import CSVFeedSpider
from demoproject.items import DemoItem  

class DemoSpider(CSVFeedSpider): 
   name = "demo" 
   allowed_domains = ["www.demoexample.com"] 
   start_urls = ["http://www.demoexample.com/feed.csv"] 
   delimiter = ";" 
   quotechar = "'" 
   headers = ["product_title", "product_link", "product_description"]  
   
   def parse_row(self, response, row): 
      self.logger.info("This is row: %r", row)  
      item = DemoItem() 
      item["product_title"] = row["product_title"] 
      item["product_link"] = row["product_link"] 
      item["product_description"] = row["product_description"] 
      return item

Plan du siteSpider

SitemapSpider à l'aide de Sitemaps explore un site Web en localisant les URL à partir du fichier robots.txt. Il a la classe suivante -

class scrapy.spiders.SitemapSpider

Le tableau suivant montre les champs de SitemapSpider -

Sr.Non Champ et description
1

sitemap_urls

Une liste d'URL que vous souhaitez explorer pointant vers les plans de site.

2

sitemap_rules

C'est une liste de tuples (regex, callback), où regex est une expression régulière, et le callback est utilisé pour traiter les URL correspondant à une expression régulière.

3

sitemap_follow

C'est une liste d'expressions régulières de sitemap à suivre.

4

sitemap_alternate_links

Spécifie les liens alternatifs à suivre pour une seule URL.

Exemple SitemapSpider

Le SitemapSpider suivant traite toutes les URL -

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider): 
   urls = ["http://www.demoexample.com/sitemap.xml"]  
   
   def parse(self, response): 
      # You can scrap items here

Le SitemapSpider suivant traite certaines URL avec rappel -

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider): 
   urls = ["http://www.demoexample.com/sitemap.xml"] 
   
   rules = [ 
      ("/item/", "parse_item"), 
      ("/group/", "parse_group"), 
   ]  
   
   def parse_item(self, response): 
      # you can scrap item here  
   
   def parse_group(self, response): 
      # you can scrap group here

Le code suivant montre les sitemaps dans le fichier robots.txt dont l'URL a /sitemap_company -

from scrapy.spiders import SitemapSpider

class DemoSpider(SitemapSpider): 
   urls = ["http://www.demoexample.com/robots.txt"] 
   rules = [ 
      ("/company/", "parse_company"), 
   ] 
   sitemap_follow = ["/sitemap_company"]  
   
   def parse_company(self, response): 
      # you can scrap company here

Vous pouvez même combiner SitemapSpider avec d'autres URL comme indiqué dans la commande suivante.

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider): 
   urls = ["http://www.demoexample.com/robots.txt"] 
   rules = [ 
      ("/company/", "parse_company"), 
   ]  
   
   other_urls = ["http://www.demoexample.com/contact-us"] 
   def start_requests(self): 
      requests = list(super(DemoSpider, self).start_requests()) 
      requests += [scrapy.Request(x, self.parse_other) for x in self.other_urls] 
      return requests 

   def parse_company(self, response): 
      # you can scrap company here... 

   def parse_other(self, response): 
      # you can scrap other here...

La description

Lorsque vous grattez les pages Web, vous devez extraire une certaine partie de la source HTML en utilisant le mécanisme appelé selectors, réalisé en utilisant des expressions XPath ou CSS. Les sélecteurs sont basés surlxml bibliothèque, qui traite le XML et le HTML en langage Python.

Utilisez l'extrait de code suivant pour définir différents concepts de sélecteurs -

<html>
   <head>
      <title>My Website</title>
   </head>
   
   <body>
      <span>Hello world!!!</span>
      <div class = 'links'>
         <a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
         <a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
         <a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
      </div>
   </body>
</html>

Construire des sélecteurs

Vous pouvez construire les instances de classe de sélecteur en passant le text ou TextResponseobjet. En fonction du type d'entrée fourni, le sélecteur choisit les règles suivantes -

from scrapy.selector import Selector 
from scrapy.http import HtmlResponse

En utilisant le code ci-dessus, vous pouvez construire à partir du texte comme -

Selector(text = body).xpath('//span/text()').extract()

Il affichera le résultat comme -

[u'Hello world!!!']

Vous pouvez construire à partir de la réponse comme -

response = HtmlResponse(url = 'http://mysite.com', body = body) 
Selector(response = response).xpath('//span/text()').extract()

Il affichera le résultat comme -

[u'Hello world!!!']

Utilisation des sélecteurs

En utilisant l'extrait de code simple ci-dessus, vous pouvez construire le XPath pour sélectionner le texte qui est défini dans la balise de titre comme indiqué ci-dessous -

>>response.selector.xpath('//title/text()')

Maintenant, vous pouvez extraire les données textuelles en utilisant le .extract() méthode montrée comme suit -

>>response.xpath('//title/text()').extract()

Il produira le résultat comme -

[u'My Website']

Vous pouvez afficher le nom de tous les éléments indiqués comme suit -

>>response.xpath('//div[@class = "links"]/a/text()').extract()

Il affichera les éléments comme -

Link 1
Link 2
Link 3

Si vous souhaitez extraire le premier élément, utilisez la méthode .extract_first(), illustré comme suit -

>>response.xpath('//div[@class = "links"]/a/text()').extract_first()

Il affichera l'élément comme -

Link 1

Sélecteurs d'imbrication

À l'aide du code ci-dessus, vous pouvez imbriquer les sélecteurs pour afficher le lien de la page et la source de l'image à l'aide du .xpath() méthode, illustrée comme suit -

links = response.xpath('//a[contains(@href, "image")]') 

for index, link in enumerate(links): 
   args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract()) 
   print 'The link %d pointing to url %s and image %s' % args

Il affichera le résultat comme -

Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']

Sélecteurs utilisant des expressions régulières

Scrapy permet d'extraire les données à l'aide d'expressions régulières, qui utilise le .re()méthode. À partir du code HTML ci-dessus, nous allons extraire les noms d'images comme suit -

>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')

La ligne ci-dessus affiche les noms des images sous la forme -

[u'Link 1', 
u'Link 2', 
u'Link 3']

Utilisation des XPaths relatifs

Lorsque vous travaillez avec XPaths, qui commence par le /, les sélecteurs imbriqués et XPath sont liés au chemin absolu du document et non au chemin relatif du sélecteur.

Si vous souhaitez extraire le <p> éléments, puis gagnez d'abord tous les éléments div -

>>mydiv = response.xpath('//div')

Ensuite, vous pouvez extraire tous les 'p' éléments à l'intérieur, en préfixant XPath avec un point comme .//p comme indiqué ci-dessous -

>>for p in mydiv.xpath('.//p').extract()

Utilisation des extensions EXSLT

L'EXSLT est une communauté qui émet les extensions du XSLT (Extensible Stylesheet Language Transformations) qui convertit les documents XML en documents XHTML. Vous pouvez utiliser les extensions EXSLT avec l'espace de noms enregistré dans les expressions XPath comme indiqué dans le tableau suivant -

Sr.Non Préfixe et utilisation Espace de noms
1

re

expressions régulières

http://exslt.org/regexp/index.html

2

set

manipulation d'ensemble

http://exslt.org/set/index.html

Vous pouvez vérifier le format de code simple pour extraire des données à l'aide d'expressions régulières dans la section précédente.

Il existe quelques astuces XPath, utiles lors de l'utilisation de XPath avec des sélecteurs Scrapy. Pour plus d'informations, cliquez sur ce lien .

La description

Le processus Scrapy peut être utilisé pour extraire les données de sources telles que des pages Web à l'aide des araignées. Utilisations ScrapyItem class pour produire la sortie dont les objets sont utilisés pour rassembler les données récupérées.

Déclaration d'éléments

Vous pouvez déclarer les éléments à l'aide de la syntaxe de définition de classe avec les objets de champ affichés comme suit -

import scrapy 
class MyProducts(scrapy.Item): 
   productName = Field() 
   productLink = Field() 
   imageURL = Field() 
   price = Field() 
   size = Field()

Champs d'article

Les champs d'élément sont utilisés pour afficher les métadonnées de chaque champ. Comme il n'y a pas de limitation de valeurs sur les objets de champ, les clés de métadonnées accessibles ne contiennent aucune liste de référence des métadonnées. Les objets de champ sont utilisés pour spécifier toutes les métadonnées de champ et vous pouvez spécifier toute autre clé de champ selon vos besoins dans le projet. Les objets de champ sont accessibles à l'aide de l'attribut Item.fields.

Travailler avec des éléments

Certaines fonctions communes peuvent être définies lorsque vous travaillez avec les éléments. Pour plus d'informations, cliquez sur ce lien .

Extension des éléments

Les éléments peuvent être étendus en indiquant la sous-classe de l'élément d'origine. Par exemple -

class MyProductDetails(Product): 
   original_rate = scrapy.Field(serializer = str) 
   discount_rate = scrapy.Field()

Vous pouvez utiliser les métadonnées de champ existantes pour étendre les métadonnées de champ en ajoutant plus de valeurs ou en modifiant les valeurs existantes comme indiqué dans le code suivant -

class MyProductPackage(Product): 
   name = scrapy.Field(Product.fields['name'], serializer = serializer_demo)

Objets d'article

Les objets élément peuvent être spécifiés à l'aide de la classe suivante qui fournit le nouvel élément initialisé à partir de l'argument donné -

class scrapy.item.Item([arg])

L'élément fournit une copie du constructeur et fournit un attribut supplémentaire qui est donné par les éléments dans les champs.

Objets de champ

Les objets de champ peuvent être spécifiés à l'aide de la classe suivante dans laquelle la classe Field n'émet pas le processus ou les attributs supplémentaires -

class scrapy.item.Field([arg])

La description

Les chargeurs d'articles constituent un moyen pratique de remplir les articles extraits des sites Web.

Déclaration des chargeurs d'articles

La déclaration des chargeurs d'articles est semblable aux articles.

Par exemple -

from scrapy.loader import ItemLoader 
from scrapy.loader.processors import TakeFirst, MapCompose, Join  

class DemoLoader(ItemLoader):  
   default_output_processor = TakeFirst()  
   title_in = MapCompose(unicode.title) 
   title_out = Join()  
   size_in = MapCompose(unicode.strip)  
   # you can continue scraping here

Dans le code ci-dessus, vous pouvez voir que les processeurs d'entrée sont déclarés en utilisant _in les processeurs de suffixe et de sortie sont déclarés en utilisant _out suffixe.

le ItemLoader.default_input_processor et ItemLoader.default_output_processor Les attributs sont utilisés pour déclarer les processeurs d'entrée / sortie par défaut.

Utilisation de chargeurs d'articles pour remplir des articles

Pour utiliser le chargeur d'élément, instanciez d'abord avec un objet de type dict ou sans objet lorsque l'élément utilise la classe Item spécifiée dans ItemLoader.default_item_class attribut.

  • Vous pouvez utiliser des sélecteurs pour collecter des valeurs dans le chargeur d'articles.

  • Vous pouvez ajouter plus de valeurs dans le même champ d'élément, où le chargeur d'élément utilisera un gestionnaire approprié pour ajouter ces valeurs.

Le code suivant montre comment les éléments sont remplis à l'aide de chargeurs d'éléments -

from scrapy.loader import ItemLoader 
from demoproject.items import Demo  

def parse(self, response): 
   l = ItemLoader(item = Product(), response = response)
   l.add_xpath("title", "//div[@class = 'product_title']")
   l.add_xpath("title", "//div[@class = 'product_name']")
   l.add_xpath("desc", "//div[@class = 'desc']")
   l.add_css("size", "div#size]")
   l.add_value("last_updated", "yesterday")
   return l.load_item()

Comme indiqué ci-dessus, il existe deux XPaths différents à partir desquels le title le champ est extrait en utilisant add_xpath() méthode -

1. //div[@class = "product_title"] 
2. //div[@class = "product_name"]

Par la suite, une demande similaire est utilisée pour descchamp. Les données de taille sont extraites à l'aide deadd_css() méthode et last_updated est rempli avec une valeur "hier" en utilisant add_value() méthode.

Une fois toutes les données collectées, appelez ItemLoader.load_item() méthode qui renvoie les éléments remplis de données extraites à l'aide de add_xpath(), add_css() et add_value() méthodes.

Processeurs d'entrée et de sortie

Chaque champ d'un Item Loader contient un processeur d'entrée et un processeur de sortie.

  • Lorsque les données sont extraites, le processeur d'entrée les traite et son résultat est stocké dans ItemLoader.

  • Ensuite, après avoir collecté les données, appelez la méthode ItemLoader.load_item () pour obtenir l'objet Item rempli.

  • Enfin, vous pouvez affecter le résultat du processeur de sortie à l'élément.

Le code suivant montre comment appeler des processeurs d'entrée et de sortie pour un champ spécifique -

l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css)      # [3]
l.add_value("title", "demo") # [4]
return l.load_item()         # [5]

Line 1 - Les données de titre sont extraites de xpath1 et passées par le processeur d'entrée et son résultat est collecté et stocké dans ItemLoader.

Line 2 - De même, le titre est extrait de xpath2 et passé par le même processeur d'entrée et son résultat est ajouté aux données collectées pour [1].

Line 3 - Le titre est extrait du sélecteur css et passé par le même processeur d'entrée et le résultat est ajouté aux données collectées pour [1] et [2].

Line 4 - Ensuite, la valeur "demo" est affectée et transmise par les processeurs d'entrée.

Line 5 - Enfin, les données sont collectées en interne à partir de tous les champs et transmises au processeur de sortie et la valeur finale est affectée à l'élément.

Déclaration des processeurs d'entrée et de sortie

Les processeurs d'entrée et de sortie sont déclarés dans la définition ItemLoader. En dehors de cela, ils peuvent également être spécifiés dans leItem Field métadonnées.

Par exemple -

import scrapy 
from scrapy.loader.processors import Join, MapCompose, TakeFirst 
from w3lib.html import remove_tags  

def filter_size(value): 
   if value.isdigit(): 
      return value  

class Item(scrapy.Item): 
   name = scrapy.Field( 
      input_processor = MapCompose(remove_tags), 
      output_processor = Join(), 
   )
   size = scrapy.Field( 
      input_processor = MapCompose(remove_tags, filter_price), 
      output_processor = TakeFirst(), 
   ) 

>>> from scrapy.loader import ItemLoader 
>>> il = ItemLoader(item = Product()) 
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>']) 
>>> il.add_value('size', [u'<span>100 kg</span>']) 
>>> il.load_item()

Il affiche une sortie comme -

{'title': u'Hello world', 'size': u'100 kg'}

Contexte du chargeur d'articles

Le contexte du chargeur d'élément est un dict de valeurs de clé arbitraires partagées entre les processeurs d'entrée et de sortie.

Par exemple, supposons que vous ayez une fonction parse_length -

def parse_length(text, loader_context): 
   unit = loader_context.get('unit', 'cm') 
   
   # You can write parsing code of length here  
   return parsed_length

En recevant les arguments loader_context, il indique au chargeur d'éléments qu'il peut recevoir le contexte du chargeur d'éléments. Il existe plusieurs façons de modifier la valeur du contexte du chargeur d'élément -

  • Modifier le contexte actuel du chargeur d'élément actif -

loader = ItemLoader (product)
loader.context ["unit"] = "mm"
  • Sur l'instanciation du chargeur d'objets -

loader = ItemLoader(product, unit = "mm")
  • Sur la déclaration du chargeur d'élément pour les processeurs d'entrée / sortie qui instancie avec le contexte du chargeur d'élément -

class ProductLoader(ItemLoader):
   length_out = MapCompose(parse_length, unit = "mm")

Objets ItemLoader

C'est un objet qui renvoie un nouveau chargeur d'élément pour remplir l'élément donné. Il a la classe suivante -

class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)

Le tableau suivant montre les paramètres des objets ItemLoader -

Sr.Non Paramètre et description
1

item

C'est l'élément à remplir en appelant add_xpath (), add_css () ou add_value ().

2

selector

Il est utilisé pour extraire des données de sites Web.

3

response

Il est utilisé pour construire un sélecteur en utilisant default_selector_class.

Le tableau suivant montre les méthodes des objets ItemLoader -

Sr.Non Méthode et description Exemple
1

get_value(value, *processors, **kwargs)

Par un processeur et des arguments de mots clés donnés, la valeur est traitée par la méthode get_value ().

>>> from scrapy.loader.processors import TakeFirst
>>> loader.get_value(u'title: demoweb', TakeFirst(), 
unicode.upper, re = 'title: (.+)')
'DEMOWEB`
2

add_value(field_name, value, *processors, **kwargs)

Il traite la valeur et ajoute au champ où elle est d'abord passée par get_value en donnant des processeurs et des arguments de mot-clé avant de passer par le processeur d'entrée de champ.

loader.add_value('title', u'DVD')
loader.add_value('colors', [u'black', u'white'])
loader.add_value('length', u'80')
loader.add_value('price', u'2500')
3

replace_value(field_name, value, *processors, **kwargs)

Il remplace les données collectées par une nouvelle valeur.

loader.replace_value('title', u'DVD')
loader.replace_value('colors', [u'black', 
u'white'])
loader.replace_value('length', u'80')
loader.replace_value('price', u'2500')
4

get_xpath(xpath, *processors, **kwargs)

Il est utilisé pour extraire des chaînes unicode en donnant des processeurs et des arguments de mots clés en recevant XPath .

# HTML code: <div class = "item-name">DVD</div>
loader.get_xpath("//div[@class = 
'item-name']")

# HTML code: <div id = "length">the length is 
45cm</div>
loader.get_xpath("//div[@id = 'length']", TakeFirst(), 
re = "the length is (.*)")
5

add_xpath(field_name, xpath, *processors, **kwargs)

Il reçoit XPath dans le champ qui extrait les chaînes unicode.

# HTML code: <div class = "item-name">DVD</div>
loader.add_xpath('name', '//div
[@class = "item-name"]')

# HTML code: <div id = "length">the length is 
45cm</div>
loader.add_xpath('length', '//div[@id = "length"]',
 re = 'the length is (.*)')
6

replace_xpath(field_name, xpath, *processors, **kwargs)

Il remplace les données collectées à l'aide de XPath à partir de sites.

# HTML code: <div class = "item-name">DVD</div>
loader.replace_xpath('name', '
//div[@class = "item-name"]')

# HTML code: <div id = "length">the length is
 45cm</div>
loader.replace_xpath('length', '
//div[@id = "length"]', re = 'the length is (.*)')
sept

get_css(css, *processors, **kwargs)

Il reçoit le sélecteur CSS utilisé pour extraire les chaînes unicode.

loader.get_css("div.item-name")
loader.get_css("div#length", TakeFirst(), 
re = "the length is (.*)")
8

add_css(field_name, css, *processors, **kwargs)

Elle est similaire à la méthode add_value () à une différence près qu'elle ajoute un sélecteur CSS au champ.

loader.add_css('name', 'div.item-name')
loader.add_css('length', 'div#length', 
re = 'the length is (.*)')
9

replace_css(field_name, css, *processors, **kwargs)

Il remplace les données extraites à l'aide du sélecteur CSS.

loader.replace_css('name', 'div.item-name')
loader.replace_css('length', 'div#length',
 re = 'the length is (.*)')
dix

load_item()

Lorsque les données sont collectées, cette méthode remplit l'élément avec les données collectées et les renvoie.

def parse(self, response):
l = ItemLoader(item = Product(), 
response = response)
l.add_xpath('title', '//
div[@class = "product_title"]')
loader.load_item()
11

nested_xpath(xpath)

Il est utilisé pour créer des chargeurs imbriqués avec un sélecteur XPath.

loader = ItemLoader(item = Item())
loader.add_xpath('social', '
a[@class = "social"]/@href')
loader.add_xpath('email', '
a[@class = "email"]/@href')
12

nested_css(css)

Il est utilisé pour créer des chargeurs imbriqués avec un sélecteur CSS.

loader = ItemLoader(item = Item())
loader.add_css('social', 'a[@class = "social"]/@href')
loader.add_css('email', 'a[@class = "email"]/@href')

Le tableau suivant montre les attributs des objets ItemLoader -

Sr.Non Attribut et description
1

item

C'est un objet sur lequel le chargeur d'élément effectue une analyse.

2

context

C'est le contexte actuel de Item Loader qui est actif.

3

default_item_class

Il est utilisé pour représenter les éléments, s'ils ne sont pas donnés dans le constructeur.

4

default_input_processor

Les champs qui ne spécifient pas de processeur d'entrée sont les seuls pour lesquels des processeurs default_input_processors sont utilisés.

5

default_output_processor

Les champs qui ne spécifient pas le processeur de sortie sont les seuls pour lesquels default_output_processors sont utilisés.

6

default_selector_class

C'est une classe utilisée pour construire le sélecteur, si elle n'est pas donnée dans le constructeur.

sept

selector

C'est un objet qui peut être utilisé pour extraire les données des sites.

Chargeurs imbriqués

Il est utilisé pour créer des chargeurs imbriqués tout en analysant les valeurs de la sous-section d'un document. Si vous ne créez pas de chargeurs imbriqués, vous devez spécifier XPath ou CSS complet pour chaque valeur que vous souhaitez extraire.

Par exemple, supposons que les données sont extraites d'une page d'en-tête -

<header>
   <a class = "social" href = "http://facebook.com/whatever">facebook</a>
   <a class = "social" href = "http://twitter.com/whatever">twitter</a>
   <a class = "email" href = "mailto:[email protected]">send mail</a>
</header>

Ensuite, vous pouvez créer un chargeur imbriqué avec sélecteur d'en-tête en ajoutant des valeurs associées à l'en-tête -

loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()

Réutilisation et extension des chargeurs d'articles

Les chargeurs d'objets sont conçus pour soulager la maintenance qui devient un problème fondamental lorsque votre projet acquiert plus d'araignées.

Par exemple, supposons qu'un site a son nom de produit entouré de trois tirets (par exemple --DVD ---). Vous pouvez supprimer ces tirets en réutilisant le chargeur d'élément de produit par défaut, si vous ne le souhaitez pas dans les noms de produit finaux, comme indiqué dans le code suivant -

from scrapy.loader.processors import MapCompose 
from demoproject.ItemLoaders import DemoLoader  

def strip_dashes(x): 
   return x.strip('-')  

class SiteSpecificLoader(DemoLoader): 
   title_in = MapCompose(strip_dashes, DemoLoader.title_in)

Processeurs intégrés disponibles

Voici quelques-uns des processeurs intégrés couramment utilisés -

classe scrapy.loader.processors.Identity

Il renvoie la valeur d'origine sans la modifier. Par exemple -

>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']

classe scrapy.loader.processors.TakeFirst

Il renvoie la première valeur non nulle / non vide de la liste des valeurs reçues. Par exemple -

>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'

classe scrapy.loader.processors.Join (separator = u '')

Il renvoie la valeur attachée au séparateur. Le séparateur par défaut est u '' et équivaut à la fonctionu' '.join. Par exemple -

>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'

classe scrapy.loader.processors.Compose (* fonctions, ** default_loader_context)

Il est défini par un processeur où chacune de ses valeurs d'entrée est passée à la première fonction, et le résultat de cette fonction est passé à la seconde fonction et ainsi de suite, jusqu'à ce que la fonction ast renvoie la valeur finale en sortie.

Par exemple -

>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'

classe scrapy.loader.processors.MapCompose (* fonctions, ** default_loader_context)

C'est un processeur où la valeur d'entrée est itérée et la première fonction est appliquée à chaque élément. Ensuite, le résultat de ces appels de fonction est concaténé pour créer un nouvel itérable qui est ensuite appliqué à la deuxième fonction et ainsi de suite, jusqu'à la dernière fonction.

Par exemple -

>>> def filter_scrapy(x): 
   return None if x == 'scrapy' else x  

>>> from scrapy.loader.processors import MapCompose 
>>> proc = MapCompose(filter_scrapy, unicode.upper) 
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy']) 
[u'HI, u'IM', u'PYTHONSCRAPY']

classe scrapy.loader.processors.SelectJmes (json_path)

Cette classe interroge la valeur à l'aide du chemin json fourni et renvoie la sortie.

Par exemple -

>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}

Voici le code, qui interroge la valeur en important json -

>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']

La description

Scrapy Shell peut être utilisé pour supprimer les données avec un code sans erreur, sans utiliser d'araignée. L'objectif principal de Scrapy Shell est de tester le code extrait, XPath ou les expressions CSS. Il permet également de spécifier les pages Web à partir desquelles vous récupérez les données.

Configurer le Shell

Le shell peut être configuré en installant la console IPython (utilisée pour le calcul interactif), qui est un puissant shell interactif qui donne la complétion automatique, la sortie colorisée, etc.

Si vous travaillez sur la plate-forme Unix, il est préférable d'installer IPython. Vous pouvez également utiliser bpython , si IPython est inaccessible.

Vous pouvez configurer le shell en définissant la variable d'environnement appelée SCRAPY_PYTHON_SHELL ou en définissant le fichier scrapy.cfg comme suit -

[settings]
shell = bpython

Lancement du Shell

Scrapy Shell peut être lancé à l'aide de la commande suivante -

scrapy shell <url>

L' URL spécifie l'URL pour laquelle les données doivent être récupérées.

Utilisation du shell

Le shell fournit des raccourcis supplémentaires et des objets Scrapy comme décrit dans le tableau suivant -

Raccourcis disponibles

Shell fournit les raccourcis disponibles suivants dans le projet -

Sr.Non Raccourci et description
1

shelp()

Il fournit les objets et raccourcis disponibles avec l'option d'aide.

2

fetch(request_or_url)

Il recueille la réponse de la demande ou de l'URL et les objets associés seront mis à jour correctement.

3

view(response)

Vous pouvez afficher la réponse pour la demande donnée dans le navigateur local pour l'observation et pour afficher correctement le lien externe, il ajoute une balise de base au corps de la réponse.

Objets Scrapy disponibles

Shell fournit les objets Scrapy disponibles suivants dans le projet -

Sr.Non Objet et description
1

crawler

Il spécifie l'objet du robot d'exploration actuel.

2

spider

S'il n'y a pas d'araignée pour l'URL actuelle, alors il gérera l'URL ou l'objet d'araignée en définissant la nouvelle araignée.

3

request

Il spécifie l'objet de requête pour la dernière page collectée.

4

response

Il spécifie l'objet de réponse pour la dernière page collectée.

5

settings

Il fournit les paramètres Scrapy actuels.

Exemple de session Shell

Essayons de gratter le site scrapy.org, puis commençons à supprimer les données de reddit.com comme décrit.

Avant d'aller de l'avant, nous allons d'abord lancer le shell comme indiqué dans la commande suivante -

scrapy shell 'http://scrapy.org' --nolog

Scrapy affichera les objets disponibles tout en utilisant l'URL ci-dessus -

[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1e16b50>
[s]   item       {}
[s]   request    <GET http://scrapy.org >
[s]   response   <200 http://scrapy.org >
[s]   settings   <scrapy.settings.Settings object at 0x2bfd650>
[s]   spider     <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s]   shelp()           Provides available objects and shortcuts with help option
[s]   fetch(req_or_url) Collects the response from the request or URL and associated 
objects will get update
[s]   view(response)    View the response for the given request

Ensuite, commencez par le travail des objets, comme suit -

>> response.xpath('//title/text()').extract_first() 
u'Scrapy | A Fast and Powerful Scraping and Web Crawling Framework'  
>> fetch("http://reddit.com") 
[s] Available Scrapy objects: 
[s]   crawler     
[s]   item       {} 
[s]   request     
[s]   response   <200 https://www.reddit.com/> 
[s]   settings    
[s]   spider      
[s] Useful shortcuts: 
[s]   shelp()           Shell help (print this help) 
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects 
[s]   view(response)    View response in a browser  
>> response.xpath('//title/text()').extract() 
[u'reddit: the front page of the internet']  
>> request = request.replace(method="POST")  
>> fetch(request) 
[s] Available Scrapy objects: 
[s]   crawler     
...

Invocation du shell des araignées pour inspecter les réponses

Vous pouvez inspecter les réponses qui sont traitées à partir de l'araignée, uniquement si vous vous attendez à obtenir cette réponse.

Par exemple -

import scrapy 

class SpiderDemo(scrapy.Spider): 
   name = "spiderdemo" 
   start_urls = [ 
      "http://mysite.com", 
      "http://mysite1.org", 
      "http://mysite2.net", 
   ]  
   
   def parse(self, response): 
      # You can inspect one specific response 
      if ".net" in response.url: 
         from scrapy.shell import inspect_response 
         inspect_response(response, self)

Comme indiqué dans le code ci-dessus, vous pouvez appeler le shell des araignées pour inspecter les réponses à l'aide de la fonction suivante -

scrapy.shell.inspect_response

Maintenant, lancez l'araignée, et vous obtiendrez l'écran suivant -

2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None) 
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None) 
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None) 
[s] Available Scrapy objects: 
[s]   crawler     
...  
>> response.url 
'http://mysite2.org'

Vous pouvez examiner si le code extrait fonctionne à l'aide du code suivant -

>> response.xpath('//div[@class = "val"]')

Il affiche la sortie comme

[]

La ligne ci-dessus n'a affiché qu'une sortie vierge. Vous pouvez maintenant appeler le shell pour inspecter la réponse comme suit -

>> view(response)

Il affiche la réponse comme

True

La description

Item Pipelineest une méthode de traitement des articles mis au rebut. Lorsqu'un article est envoyé au pipeline d'articles, il est gratté par une araignée et traité à l'aide de plusieurs composants, qui sont exécutés séquentiellement.

Chaque fois qu'un objet est reçu, il décide de l'une des actions suivantes -

  • Continuez à traiter l'article.
  • Supprimez-le du pipeline.
  • Arrêtez de traiter l'élément.

Les pipelines d'articles sont généralement utilisés aux fins suivantes -

  • Stockage des éléments récupérés dans la base de données.
  • Si l'élément reçu est répété, il supprimera l'élément répété.
  • Il vérifiera si l'élément contient des champs ciblés.
  • Effacement des données HTML.

Syntaxe

Vous pouvez écrire le pipeline d'articles en utilisant la méthode suivante -

process_item(self, item, spider)

La méthode ci-dessus contient les paramètres suivants -

  • Item (objet d'élément ou dictionnaire) - Il spécifie l'élément gratté.
  • spider (objet araignée) - L'araignée qui a gratté l'objet.

Vous pouvez utiliser des méthodes supplémentaires données dans le tableau suivant -

Sr.Non Méthode et description Paramètres
1

open_spider(self, spider)

Il est sélectionné lorsque l'araignée est ouverte.

spider (objet araignée) - Il fait référence à l'araignée qui a été ouverte.

2

close_spider(self, spider)

Il est sélectionné lorsque l'araignée est fermée.

spider (objet araignée) - Il fait référence à l'araignée qui a été fermée.

3

from_crawler(cls, crawler)

Avec l'aide du robot d'exploration, le pipeline peut accéder aux composants de base tels que les signaux et les paramètres de Scrapy.

crawler (objet Crawler) - Il fait référence au robot qui utilise ce pipeline.

Exemple

Voici les exemples de pipeline d'éléments utilisés dans différents concepts.

Déposer des éléments sans étiquette

Dans le code suivant, le pipeline équilibre l' attribut (price) pour les articles qui n'incluent pas la TVA (attribut excludes_vat) et ignore les articles qui n'ont pas d'étiquette de prix -

from Scrapy.exceptions import DropItem  
class PricePipeline(object): 
   vat = 2.25 

   def process_item(self, item, spider): 
      if item['price']: 
         if item['excludes_vat']: 
            item['price'] = item['price'] * self.vat 
            return item 
         else: 
            raise DropItem("Missing price in %s" % item)

Ecrire des éléments dans un fichier JSON

Le code suivant stockera tous les éléments récupérés de toutes les araignées dans un seul items.jlfichier, qui contient un élément par ligne sous une forme sérialisée au format JSON. leJsonWriterPipeline La classe est utilisée dans le code pour montrer comment écrire un pipeline d'élément -

import json  

class JsonWriterPipeline(object): 
   def __init__(self): 
      self.file = open('items.jl', 'wb') 

   def process_item(self, item, spider): 
      line = json.dumps(dict(item)) + "\n" 
      self.file.write(line) 
      return item

Ecrire des éléments dans MongoDB

Vous pouvez spécifier l'adresse MongoDB et le nom de la base de données dans les paramètres Scrapy et la collection MongoDB peut être nommée d'après la classe d'élément. Le code suivant décrit comment utiliserfrom_crawler() méthode pour collecter correctement les ressources -

import pymongo  

class MongoPipeline(object):  
   collection_name = 'Scrapy_list' 

   def __init__(self, mongo_uri, mongo_db): 
      self.mongo_uri = mongo_uri 
      self.mongo_db = mongo_db 

   @classmethod 
   def from_crawler(cls, crawler): 
      return cls( 
         mongo_uri = crawler.settings.get('MONGO_URI'), 
         mongo_db = crawler.settings.get('MONGO_DB', 'lists') 
      ) 
  
   def open_spider(self, spider): 
      self.client = pymongo.MongoClient(self.mongo_uri) 
      self.db = self.client[self.mongo_db] 

   def close_spider(self, spider): 
      self.client.close() 

   def process_item(self, item, spider): 
      self.db[self.collection_name].insert(dict(item)) 
      return item

Duplication de filtres

Un filtre vérifiera les éléments répétés et supprimera les éléments déjà traités. Dans le code suivant, nous avons utilisé un identifiant unique pour nos éléments, mais spider renvoie de nombreux éléments avec le même identifiant -

from scrapy.exceptions import DropItem  

class DuplicatesPipeline(object):  
   def __init__(self): 
      self.ids_seen = set() 

   def process_item(self, item, spider): 
      if item['id'] in self.ids_seen: 
         raise DropItem("Repeated items found: %s" % item) 
      else: 
         self.ids_seen.add(item['id']) 
         return item

Activation d'un pipeline d'articles

Vous pouvez activer un composant Pipeline d'articles en ajoutant sa classe au paramètre ITEM_PIPELINES comme indiqué dans le code suivant. Vous pouvez attribuer des valeurs entières aux classes dans l'ordre dans lequel elles s'exécutent (l'ordre peut être de valeur inférieure à des classes de valeur plus élevée) et les valeurs seront comprises entre 0 et 1000.

ITEM_PIPELINES = {
   'myproject.pipelines.PricePipeline': 100,
   'myproject.pipelines.JsonWriterPipeline': 600,
}

La description

Les exportations de flux sont une méthode de stockage des données extraites des sites, qui génère un "export file".

Formats de sérialisation

En utilisant plusieurs formats de sérialisation et backends de stockage, les exportations de flux utilisent des exportateurs d'articles et génèrent un flux avec des éléments supprimés.

Le tableau suivant montre les formats pris en charge -

Sr.Non Format et description
1

JSON

FEED_FORMAT est json

L'exportateur utilisé est la classe scrapy.exporters.JsonItemExporter

2

JSON lines

FEED_FROMAT est jsonlines

L'exportateur utilisé est la classe scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT est CSV

L'exportateur utilisé est la classe scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT est xml

L'exportateur utilisé est la classe scrapy.exporters.XmlItemExporter

En utilisant FEED_EXPORTERS paramètres, les formats pris en charge peuvent également être étendus -

Sr.Non Format et description
1

Pickle

FEED_FORMAT est pickel

L'exportateur utilisé est la classe scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT est maréchal

L'exportateur utilisé est la classe scrapy.exporters.MarshalItemExporter

Backends de stockage

Le backend de stockage définit où stocker le flux à l'aide de l'URI.

Le tableau suivant montre les backends de stockage pris en charge -

Sr.Non Backend de stockage et description
1

Local filesystem

Le schéma d'URI est un fichier et il est utilisé pour stocker les flux.

2

FTP

Le schéma d'URI est ftp et il est utilisé pour stocker les flux.

3

S3

Le schéma d'URI est S3 et les flux sont stockés sur Amazon S3. Les bibliothèques externes botocore ou boto sont requises.

4

Standard output

Le schéma d'URI est stdout et les flux sont stockés dans la sortie standard.

Paramètres d'URI de stockage

Voici les paramètres de l'URL de stockage, qui est remplacée lors de la création du flux -

  • % (time) s: ce paramètre est remplacé par un horodatage.
  • % (nom) s: ce paramètre est remplacé par le nom de l'araignée.

Réglages

Le tableau suivant montre les paramètres à l'aide desquels les exportations de flux peuvent être configurées -

Sr.Non Réglage et description
1

FEED_URI

Il s'agit de l'URI du flux d'exportation utilisé pour activer les exportations de flux.

2

FEED_FORMAT

Il s'agit d'un format de sérialisation utilisé pour le flux.

3

FEED_EXPORT_FIELDS

Il est utilisé pour définir les champs qui doivent être exportés.

4

FEED_STORE_EMPTY

Il définit s'il faut exporter les flux sans éléments.

5

FEED_STORAGES

C'est un dictionnaire avec des backends de stockage de flux supplémentaires.

6

FEED_STORAGES_BASE

Il s'agit d'un dictionnaire avec des backends de stockage de flux intégrés.

sept

FEED_EXPORTERS

C'est un dictionnaire avec des exportateurs de flux supplémentaires.

8

FEED_EXPORTERS_BASE

C'est un dictionnaire avec des exportateurs de flux intégrés.

La description

Scrapy peut explorer des sites Web à l'aide du Request et Responseobjets. Les objets de requête passent sur le système, utilisent les spiders pour exécuter la requête et reviennent à la requête quand il renvoie un objet de réponse.

Objets de demande

L'objet de requête est une requête HTTP qui génère une réponse. Il a la classe suivante -

class scrapy.http.Request(url[, callback, method = 'GET', headers, body, cookies, meta,
   encoding = 'utf-8', priority = 0, dont_filter = False, errback])

Le tableau suivant montre les paramètres des objets Request -

Sr.Non Paramètre et description
1

url

C'est une chaîne qui spécifie la demande d'URL.

2

callback

C'est une fonction appelable qui utilise la réponse de la requête comme premier paramètre.

3

method

C'est une chaîne qui spécifie la demande de méthode HTTP.

4

headers

C'est un dictionnaire avec des en-têtes de requête.

5

body

C'est une chaîne ou unicode qui a un corps de requête.

6

cookies

C'est une liste contenant des cookies de demande.

sept

meta

C'est un dictionnaire qui contient les valeurs des métadonnées de la demande.

8

encoding

C'est une chaîne contenant le codage utf-8 utilisé pour coder l'URL.

9

priority

Il s'agit d'un entier où le planificateur utilise la priorité pour définir l'ordre de traitement des demandes.

dix

dont_filter

C'est un booléen spécifiant que le planificateur ne doit pas filtrer la requête.

11

errback

C'est une fonction appelable à appeler lorsqu'une exception lors du traitement d'une requête est déclenchée.

Transmission de données supplémentaires aux fonctions de rappel

La fonction de rappel d'une requête est appelée lorsque la réponse est téléchargée en tant que premier paramètre.

Par exemple -

def parse_page1(self, response): 
   return scrapy.Request("http://www.something.com/some_page.html", 
      callback = self.parse_page2)  

def parse_page2(self, response): 
   self.logger.info("%s page visited", response.url)

Vous pouvez utiliser Request.meta attribut, si vous souhaitez passer des arguments aux fonctions appelables et recevoir ces arguments dans le deuxième rappel, comme indiqué dans l'exemple suivant -

def parse_page1(self, response): 
   item = DemoItem() 
   item['foremost_link'] = response.url 
   request = scrapy.Request("http://www.something.com/some_page.html", 
      callback = self.parse_page2) 
   request.meta['item'] = item 
   return request  

def parse_page2(self, response): 
   item = response.meta['item'] 
   item['other_link'] = response.url 
   return item

Utilisation des erreurs pour intercepter les exceptions dans le traitement des demandes

L'errback est une fonction appelable à appeler lorsqu'une exception lors du traitement d'une requête est déclenchée.

L'exemple suivant illustre ceci -

import scrapy  

from scrapy.spidermiddlewares.httperror import HttpError 
from twisted.internet.error import DNSLookupError 
from twisted.internet.error import TimeoutError, TCPTimedOutError  

class DemoSpider(scrapy.Spider): 
   name = "demo" 
   start_urls = [ 
      "http://www.httpbin.org/",              # HTTP 200 expected 
      "http://www.httpbin.org/status/404",    # Webpage not found  
      "http://www.httpbin.org/status/500",    # Internal server error 
      "http://www.httpbin.org:12345/",        # timeout expected 
      "http://www.httphttpbinbin.org/",       # DNS error expected 
   ]  
   
   def start_requests(self): 
      for u in self.start_urls: 
         yield scrapy.Request(u, callback = self.parse_httpbin, 
         errback = self.errback_httpbin, 
         dont_filter=True)  
   
   def parse_httpbin(self, response): 
      self.logger.info('Recieved response from {}'.format(response.url)) 
      # ...  
   
   def errback_httpbin(self, failure): 
      # logs failures 
      self.logger.error(repr(failure))  
      
      if failure.check(HttpError): 
         response = failure.value.response 
         self.logger.error("HttpError occurred on %s", response.url)  
      
      elif failure.check(DNSLookupError): 
         request = failure.request 
         self.logger.error("DNSLookupError occurred on %s", request.url) 

      elif failure.check(TimeoutError, TCPTimedOutError): 
         request = failure.request 
         self.logger.error("TimeoutError occurred on %s", request.url)

Request.meta Clés spéciales

Les clés spéciales request.meta sont une liste de clés méta spéciales identifiées par Scrapy.

Le tableau suivant montre certaines des clés de Request.meta -

Sr.Non Clé et description
1

dont_redirect

C'est une clé lorsqu'elle est définie sur true, ne redirige pas la demande en fonction de l'état de la réponse.

2

dont_retry

Il s'agit d'une clé lorsqu'elle est définie sur true, ne réessaye pas les demandes ayant échoué et sera ignorée par le middleware.

3

handle_httpstatus_list

C'est une clé qui définit quels codes de réponse par requête peuvent être autorisés.

4

handle_httpstatus_all

C'est une clé utilisée pour autoriser n'importe quel code de réponse pour une demande en le définissant sur true .

5

dont_merge_cookies

C'est une clé utilisée pour éviter de fusionner avec les cookies existants en la définissant sur true .

6

cookiejar

C'est une clé utilisée pour conserver plusieurs sessions de cookies par araignée.

sept

dont_cache

C'est une clé utilisée pour éviter de mettre en cache les requêtes et réponses HTTP sur chaque stratégie.

8

redirect_urls

C'est une clé qui contient les URL à travers lesquelles les requêtes passent.

9

bindaddress

C'est l'adresse IP de l'adresse IP sortante qui peut être utilisée pour exécuter la requête.

dix

dont_obey_robotstxt

C'est une clé lorsqu'elle est définie sur true, ne filtre pas les requêtes interdites par la norme d'exclusion robots.txt, même si ROBOTSTXT_OBEY est activé.

11

download_timeout

Il est utilisé pour définir le délai d'expiration (en secondes) par spider pendant lequel le téléchargeur attendra avant qu'il expire.

12

download_maxsize

Il est utilisé pour définir la taille maximale (en octets) par spider, que le téléchargeur téléchargera.

13

proxy

Le proxy peut être défini pour les objets Request afin de définir le proxy HTTP pour l'utilisation des requêtes.

Demander des sous-classes

Vous pouvez implémenter votre propre fonctionnalité personnalisée en sous-classant la classe de demande. Les sous-classes de requêtes intégrées sont les suivantes:

Objets FormRequest

La classe FormRequest traite les formulaires HTML en étendant la requête de base. Il a la classe suivante -

class scrapy.http.FormRequest(url[,formdata, callback, method = 'GET', headers, body, 
   cookies, meta, encoding = 'utf-8', priority = 0, dont_filter = False, errback])

Voici le paramètre -

formdata - Il s'agit d'un dictionnaire contenant des données de formulaire HTML qui sont affectées au corps de la requête.

Note - Les paramètres restants sont les mêmes que la classe de requête et sont expliqués dans Request Objects section.

Les méthodes de classe suivantes sont prises en charge par FormRequest objets en plus des méthodes de requête -

classmethod from_response(response[, formname = None, formnumber = 0, formdata = None, 
   formxpath = None, formcss = None, clickdata = None, dont_click = False, ...])

Le tableau suivant montre les paramètres de la classe ci-dessus -

Sr.Non Paramètre et description
1

response

Il s'agit d'un objet utilisé pour pré-remplir les champs du formulaire à l'aide du formulaire de réponse HTML.

2

formname

C'est une chaîne où la forme ayant l'attribut de nom sera utilisée, si elle est spécifiée.

3

formnumber

Il s'agit d'un entier de formulaires à utiliser lorsqu'il y a plusieurs formulaires dans la réponse.

4

formdata

Il s'agit d'un dictionnaire de champs dans les données de formulaire utilisé pour remplacer.

5

formxpath

C'est une chaîne lorsqu'elle est spécifiée, la forme correspondant à xpath est utilisée.

6

formcss

C'est une chaîne lorsqu'elle est spécifiée, la forme correspondant au sélecteur css est utilisée.

sept

clickdata

C'est un dictionnaire d'attributs utilisé pour observer le champ cliqué.

8

dont_click

Les données du formulaire seront soumises sans cliquer sur aucun élément, lorsqu'il est défini sur true.

Exemples

Voici quelques exemples d'utilisation des requêtes -

Using FormRequest to send data via HTTP POST

Le code suivant montre comment retourner FormRequest objet lorsque vous souhaitez dupliquer le formulaire HTML POST dans votre spider -

return [FormRequest(url = "http://www.something.com/post/action", 
   formdata = {'firstname': 'John', 'lastname': 'dave'}, 
   callback = self.after_post)]

Using FormRequest.from_response() to simulate a user login

Normalement, les sites Web utilisent des éléments à travers lesquels ils fournissent des champs de formulaire pré-remplis.

le FormRequest.form_response() peut être utilisée lorsque vous souhaitez que ces champs soient automatiquement renseignés lors du scraping.

L'exemple suivant illustre cela.

import scrapy  
class DemoSpider(scrapy.Spider): 
   name = 'demo' 
   start_urls = ['http://www.something.com/users/login.php']  
   def parse(self, response): 
      return scrapy.FormRequest.from_response( 
         response, 
         formdata = {'username': 'admin', 'password': 'confidential'}, 
         callback = self.after_login 
      )  
   
   def after_login(self, response): 
      if "authentication failed" in response.body: 
         self.logger.error("Login failed") 
         return  
      # You can continue scraping here

Objets de réponse

Il s'agit d'un objet indiquant la réponse HTTP qui est transmise aux araignées à traiter. Il a la classe suivante -

class scrapy.http.Response(url[, status = 200, headers, body, flags])

Le tableau suivant présente les paramètres des objets Response -

Sr.Non Paramètre et description
1

url

C'est une chaîne qui spécifie la réponse URL.

2

status

C'est un entier qui contient une réponse d'état HTTP.

3

headers

C'est un dictionnaire contenant des en-têtes de réponse.

4

body

C'est une chaîne avec un corps de réponse.

5

flags

C'est une liste contenant des indicateurs de réponse.

Sous-classes de réponse

Vous pouvez implémenter votre propre fonctionnalité personnalisée en sous-classant la classe de réponse. Les sous-classes de réponse intégrées sont les suivantes:

TextResponse objects

Les objets TextResponse sont utilisés pour des données binaires telles que des images, des sons, etc. qui ont la capacité d'encoder la classe Response de base. Il a la classe suivante -

class scrapy.http.TextResponse(url[, encoding[,status = 200, headers, body, flags]])

Voici le paramètre -

encoding - C'est une chaîne avec encodage qui est utilisée pour encoder une réponse.

Note - Les paramètres restants sont identiques à la classe de réponse et sont expliqués dans Response Objects section.

Le tableau suivant montre les attributs pris en charge par l'objet TextResponse en plus des méthodes de réponse -

Sr.Non Attribut et description
1

text

Il s'agit d'un corps de réponse, où response.text est accessible plusieurs fois.

2

encoding

C'est une chaîne contenant le codage de la réponse.

3

selector

Il s'agit d'un attribut instancié au premier accès et utilise la réponse comme cible.

Le tableau suivant montre les méthodes prises en charge par les objets TextResponse en plus des méthodes de réponse -

Sr.Non Méthode et description
1

xpath (query)

C'est un raccourci vers TextResponse.selector.xpath (requête).

2

css (query)

C'est un raccourci vers TextResponse.selector.css (requête).

3

body_as_unicode()

Il s'agit d'un corps de réponse disponible en tant que méthode, où response.text est accessible plusieurs fois.

Objets HtmlResponse

C'est un objet qui prend en charge l'encodage et la découverte automatique en regardant l' attribut meta httpequiv du HTML. Ses paramètres sont les mêmes que ceux de la classe de réponse et sont expliqués dans la section Objets de réponse. Il a la classe suivante -

class scrapy.http.HtmlResponse(url[,status = 200, headers, body, flags])

Objets XmlResponse

C'est un objet qui prend en charge le codage et la détection automatique en regardant la ligne XML. Ses paramètres sont les mêmes que ceux de la classe de réponse et sont expliqués dans la section Objets de réponse. Il a la classe suivante -

class scrapy.http.XmlResponse(url[, status = 200, headers, body, flags])

La description

Comme son nom l'indique, les extracteurs de liens sont les objets utilisés pour extraire des liens de pages Web à l'aide de scrapy.http.Responseobjets. Dans Scrapy, il existe des extracteurs intégrés tels quescrapy.linkextractors importer LinkExtractor. Vous pouvez personnaliser votre propre extracteur de lien en fonction de vos besoins en implémentant une interface simple.

Chaque extracteur de lien a une méthode publique appelée extract_linksqui inclut un objet Response et renvoie une liste d'objets scrapy.link.Link. Vous ne pouvez instancier les extracteurs de liens qu'une seule fois et appeler la méthode extract_links plusieurs fois pour extraire des liens avec des réponses différentes. La CrawlSpiderclass utilise des extracteurs de liens avec un ensemble de règles dont le but principal est d'extraire des liens.

Référence de l'extracteur de lien intégré

Normalement, les extracteurs de liens sont regroupés avec Scrapy et sont fournis dans le module scrapy.linkextractors. Par défaut, l'extracteur de lien sera LinkExtractor qui est égal en fonctionnalité avec LxmlLinkExtractor -

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow = (), deny = (), 
   allow_domains = (), deny_domains = (), deny_extensions = None, restrict_xpaths = (), 
   restrict_css = (), tags = ('a', 'area'), attrs = ('href', ), 
   canonicalize = True, unique = True, process_value = None)

Le LxmlLinkExtractor est un extracteur de lien fortement recommandé, car il a des options de filtrage à portée de main et il est utilisé avec HTMLParser robuste lxml.

Sr.Non Paramètre et description
1

allow (une expression régulière (ou une liste de))

Il autorise une seule expression ou un groupe d'expressions qui doit correspondre à l'url à extraire. S'il n'est pas mentionné, il correspondra à tous les liens.

2

deny (une expression régulière (ou une liste de))

Il bloque ou exclut une seule expression ou un groupe d'expressions qui doivent correspondre à l'url qui ne doit pas être extraite. S'il n'est pas mentionné ou laissé vide, il n'éliminera pas les liens indésirables.

3

allow_domains (chaîne ou liste)

Il permet une seule chaîne ou une liste de chaînes qui doivent correspondre aux domaines à partir desquels les liens doivent être extraits.

4

deny_domains (chaîne ou liste)

Il bloque ou exclut une seule chaîne ou une liste de chaînes qui doivent correspondre aux domaines dont les liens ne doivent pas être extraits.

5

deny_extensions (liste)

Il bloque la liste des chaînes avec les extensions lors de l'extraction des liens. S'il n'est pas défini, il sera défini par défaut sur IGNORED_EXTENSIONS qui contient une liste prédéfinie dans le package scrapy.linkextractors .

6

restrict_xpaths (chaîne ou liste)

Il s'agit d'une région de liste XPath à partir de laquelle les liens doivent être extraits de la réponse. S'ils sont donnés, les liens seront extraits uniquement du texte, qui est sélectionné par XPath.

sept

restrict_css (chaîne ou liste)

Il se comporte de manière similaire au paramètre restrict_xpaths qui extraira les liens des régions CSS sélectionnées à l'intérieur de la réponse.

8

tags (chaîne ou liste)

Une seule balise ou une liste de balises à prendre en compte lors de l'extraction des liens. Par défaut, ce sera ('a', 'area').

9

attrs (liste)

Un seul attribut ou une liste d'attributs doit être pris en compte lors de l'extraction des liens. Par défaut, ce sera ('href',).

dix

canonicalize (booléen)

L'URL extraite est mise au format standard en utilisant scrapy.utils.url.canonicalize_url . Par défaut, ce sera True.

11

unique (booléen)

Il sera utilisé si les liens extraits sont répétés.

12

process_value (appelable)

C'est une fonction qui reçoit une valeur des balises et attributs scannés. La valeur reçue peut être modifiée et retournée sinon rien ne sera retourné pour rejeter le lien. S'il n'est pas utilisé, il sera par défaut lambda x: x.

Exemple

Le code suivant est utilisé pour extraire les liens -

<a href = "javascript:goToPage('../other/page.html'); return false">Link text</a>

La fonction de code suivante peut être utilisée dans process_value -

def process_value(val): 
   m = re.search("javascript:goToPage\('(.*?)'", val) 
   if m: 
      return m.group(1)

La description

Le comportement des composants Scrapy peut être modifié à l'aide des paramètres Scrapy. Les paramètres peuvent également sélectionner le projet Scrapy actuellement actif, au cas où vous auriez plusieurs projets Scrapy.

Désignation des paramètres

Vous devez informer Scrapy du paramètre que vous utilisez lorsque vous supprimez un site Web. Pour cela, variable d'environnementSCRAPY_SETTINGS_MODULE doit être utilisé et sa valeur doit être dans la syntaxe de chemin Python.

Remplir les paramètres

Le tableau suivant montre certains des mécanismes par lesquels vous pouvez renseigner les paramètres -

Sr.Non Mécanisme et description
1

Command line options

Ici, les arguments passés ont la priorité la plus élevée en remplaçant les autres options. Le -s est utilisé pour remplacer un ou plusieurs paramètres.

scrapy crawl myspider -s LOG_FILE = scrapy.log
2

Settings per-spider

Les araignées peuvent avoir leurs propres paramètres qui remplacent ceux du projet en utilisant l'attribut custom_settings.

class DemoSpider(scrapy.Spider): 
   name = 'demo'  
   custom_settings = { 
      'SOME_SETTING': 'some value', 
   }
3

Project settings module

Ici, vous pouvez renseigner vos paramètres personnalisés tels que l'ajout ou la modification des paramètres dans le fichier settings.py.

4

Default settings per-command

Chaque commande de l'outil Scrapy définit ses propres paramètres dans l'attribut default_settings, pour remplacer les paramètres par défaut globaux.

5

Default global settings

Ces paramètres se trouvent dans le module scrapy.settings.default_settings.

Paramètres d'accès

Ils sont disponibles via self.settings et définis dans l'araignée de base après son initialisation.

L'exemple suivant illustre cela.

class DemoSpider(scrapy.Spider): 
   name = 'demo' 
   start_urls = ['http://example.com']  
   def parse(self, response): 
      print("Existing settings: %s" % self.settings.attributes.keys())

Pour utiliser les paramètres avant d'initialiser l'araignée, vous devez remplacer la méthode from_crawler dans la méthode _init_ () de votre spider. Vous pouvez accéder aux paramètres via l'attribut scrapy.crawler.Crawler.settings transmis à la méthode from_crawler .

L'exemple suivant illustre cela.

class MyExtension(object): 
   def __init__(self, log_is_enabled = False): 
      if log_is_enabled: 
         print("Enabled log") 
         @classmethod 
   def from_crawler(cls, crawler): 
      settings = crawler.settings 
      return cls(settings.getbool('LOG_ENABLED'))

Justification de la définition des noms

Les noms de paramètres sont ajoutés en tant que préfixe au composant qu'ils configurent. Par exemple, pour l'extension robots.txt, les noms des paramètres peuvent être ROBOTSTXT_ENABLED, ROBOTSTXT_OBEY, ROBOTSTXT_CACHEDIR, etc.

Référence des paramètres intégrés

Le tableau suivant montre les paramètres intégrés de Scrapy -

Sr.Non Réglage et description
1

AWS_ACCESS_KEY_ID

Il est utilisé pour accéder à Amazon Web Services.

Valeur par défaut: aucune

2

AWS_SECRET_ACCESS_KEY

Il est utilisé pour accéder à Amazon Web Services.

Valeur par défaut: aucune

3

BOT_NAME

C'est le nom du bot qui peut être utilisé pour construire User-Agent.

Valeur par défaut: 'scrapybot'

4

CONCURRENT_ITEMS

Nombre maximum d'éléments existants dans le processeur d'éléments utilisés pour traiter en parallèle.

Valeur par défaut: 100

5

CONCURRENT_REQUESTS

Nombre maximum de requêtes existantes effectuées par le téléchargeur Scrapy.

Valeur par défaut: 16

6

CONCURRENT_REQUESTS_PER_DOMAIN

Nombre maximum de demandes existantes qui s'exécutent simultanément pour un seul domaine.

Valeur par défaut: 8

sept

CONCURRENT_REQUESTS_PER_IP

Nombre maximum de demandes existantes qui s'exécutent simultanément sur une seule adresse IP.

Valeur par défaut: 0

8

DEFAULT_ITEM_CLASS

C'est une classe utilisée pour représenter des éléments.

Valeur par défaut: 'scrapy.item.Item'

9

DEFAULT_REQUEST_HEADERS

C'est un en-tête par défaut utilisé pour les requêtes HTTP de Scrapy.

Valeur par défaut -

{  
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,
	*/*;q=0.8', 'Accept-Language': 'en',  
}
dix

DEPTH_LIMIT

La profondeur maximale pour qu'une araignée explore n'importe quel site.

Valeur par défaut: 0

11

DEPTH_PRIORITY

C'est un entier utilisé pour modifier la priorité de la requête en fonction de la profondeur.

Valeur par défaut: 0

12

DEPTH_STATS

Il indique s'il faut collecter des statistiques de profondeur ou non.

Valeur par défaut: True

13

DEPTH_STATS_VERBOSE

Ce paramètre, lorsqu'il est activé, le nombre de requêtes est collecté dans les statistiques pour chaque profondeur détaillée.

Valeur par défaut: False

14

DNSCACHE_ENABLED

Il est utilisé pour activer DNS dans le cache mémoire.

Valeur par défaut: True

15

DNSCACHE_SIZE

Il définit la taille du DNS dans le cache mémoire.

Valeur par défaut: 10000

16

DNS_TIMEOUT

Il est utilisé pour définir le délai d'expiration du DNS pour traiter les requêtes.

Valeur par défaut: 60

17

DOWNLOADER

Il s'agit d'un téléchargeur utilisé pour le processus d'exploration.

Valeur par défaut: 'scrapy.core.downloader.Downloader'

18

DOWNLOADER_MIDDLEWARES

Il s'agit d'un dictionnaire contenant les intergiciels de téléchargement et leurs commandes.

Valeur par défaut: {}

19

DOWNLOADER_MIDDLEWARES_BASE

Il s'agit d'un dictionnaire contenant un middleware de téléchargement qui est activé par défaut.

Valeur par défaut -

{ 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, }
20

DOWNLOADER_STATS

Ce paramètre est utilisé pour activer les statistiques du téléchargeur.

Valeur par défaut: True

21

DOWNLOAD_DELAY

Il définit la durée totale du téléchargeur avant de télécharger les pages du site.

Valeur par défaut: 0

22

DOWNLOAD_HANDLERS

C'est un dictionnaire avec des gestionnaires de téléchargement.

Valeur par défaut: {}

23

DOWNLOAD_HANDLERS_BASE

C'est un dictionnaire avec des gestionnaires de téléchargement qui est activé par défaut.

Valeur par défaut -

{ 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler', }
24

DOWNLOAD_TIMEOUT

C'est le temps total que le téléchargeur doit attendre avant d'expirer.

Valeur par défaut: 180

25

DOWNLOAD_MAXSIZE

Il s'agit de la taille maximale de réponse à télécharger par le téléchargeur.

Valeur par défaut: 1073741824 (1024 Mo)

26

DOWNLOAD_WARNSIZE

Il définit la taille de la réponse que le téléchargeur doit avertir.

Valeur par défaut: 33554432 (32 Mo)

27

DUPEFILTER_CLASS

Il s'agit d'une classe utilisée pour détecter et filtrer les demandes en double.

Valeur par défaut: 'scrapy.dupefilters.RFPDupeFilter'

28

DUPEFILTER_DEBUG

Ce paramètre enregistre tous les filtres en double lorsqu'il est défini sur true.

Valeur par défaut: False

29

EDITOR

Il est utilisé pour éditer les araignées en utilisant la commande d'édition.

Valeur par défaut: dépend de l'environnement

30

EXTENSIONS

C'est un dictionnaire dont les extensions sont activées dans le projet.

Valeur par défaut: {}

31

EXTENSIONS_BASE

C'est un dictionnaire avec des extensions intégrées.

Valeur par défaut: {'scrapy.extensions.corestats.CoreStats': 0,}

32

FEED_TEMPDIR

Il s'agit d'un répertoire utilisé pour définir le dossier personnalisé dans lequel les fichiers temporaires du robot peuvent être stockés.

33

ITEM_PIPELINES

C'est un dictionnaire avec des pipelines.

Valeur par défaut: {}

34

LOG_ENABLED

Il définit si la journalisation doit être activée.

Valeur par défaut: True

35

LOG_ENCODING

Il définit le type de codage à utiliser pour la journalisation.

Valeur par défaut: 'utf-8'

36

LOG_FILE

C'est le nom du fichier à utiliser pour la sortie de la journalisation.

Valeur par défaut: aucune

37

LOG_FORMAT

C'est une chaîne à l'aide de laquelle les messages du journal peuvent être formatés.

Valeur par défaut: '% (asctime) s [% (name) s]% (levelname) s:% (message) s'

38

LOG_DATEFORMAT

C'est une chaîne utilisant quelle date / heure peut être formatée.

Valeur par défaut: '% Y-% m-% d% H:% M:% S'

39

LOG_LEVEL

Il définit le niveau de journalisation minimum.

Valeur par défaut: 'DEBUG'

40

LOG_STDOUT

Ce paramètre s'il est défini sur true, toute la sortie de votre processus apparaîtra dans le journal.

Valeur par défaut: False

41

MEMDEBUG_ENABLED

Il définit si le débogage de la mémoire doit être activé.

Valeur par défaut: False

42

MEMDEBUG_NOTIFY

Il définit le rapport de mémoire qui est envoyé à une adresse particulière lorsque le débogage de la mémoire est activé.

Valeur par défaut: []

43

MEMUSAGE_ENABLED

Il définit si l'utilisation de la mémoire doit être activée lorsqu'un processus Scrapy dépasse une limite de mémoire.

Valeur par défaut: False

44

MEMUSAGE_LIMIT_MB

Il définit la limite maximale de la mémoire (en mégaoctets) à autoriser.

Valeur par défaut: 0

45

MEMUSAGE_CHECK_INTERVAL_SECONDS

Il est utilisé pour vérifier l'utilisation actuelle de la mémoire en définissant la longueur des intervalles.

Valeur par défaut: 60,0

46

MEMUSAGE_NOTIFY_MAIL

Il est utilisé pour notifier avec une liste de courriels lorsque la mémoire atteint la limite.

Valeur par défaut: False

47

MEMUSAGE_REPORT

Il définit si le rapport d'utilisation de la mémoire doit être envoyé à la fermeture de chaque spider.

Valeur par défaut: False

48

MEMUSAGE_WARNING_MB

Il définit une mémoire totale à autoriser avant l'envoi d'un avertissement.

Valeur par défaut: 0

49

NEWSPIDER_MODULE

C'est un module dans lequel un nouveau spider est créé à l'aide de la commande genspider.

Valeur par défaut: ''

50

RANDOMIZE_DOWNLOAD_DELAY

Il définit un laps de temps aléatoire pendant lequel un Scrapy attend pendant le téléchargement des demandes depuis le site.

Valeur par défaut: True

51

REACTOR_THREADPOOL_MAXSIZE

Il définit une taille maximale pour le threadpool du réacteur.

Valeur par défaut: 10

52

REDIRECT_MAX_TIMES

Il définit combien de fois une demande peut être redirigée.

Valeur par défaut: 20

53

REDIRECT_PRIORITY_ADJUST

Ce paramètre, lorsqu'il est défini, ajuste la priorité de redirection d'une demande.

Valeur par défaut: +2

54

RETRY_PRIORITY_ADJUST

Ce paramètre, lorsqu'il est défini, ajuste la priorité de nouvelle tentative d'une demande.

Valeur par défaut: -1

55

ROBOTSTXT_OBEY

Scrapy obéit aux règles du fichier robots.txt lorsqu'il est défini sur true .

Valeur par défaut: False

56

SCHEDULER

Il définit le planificateur à utiliser à des fins d'analyse.

Valeur par défaut: 'scrapy.core.scheduler.Scheduler'

57

SPIDER_CONTRACTS

C'est un dictionnaire dans le projet ayant des contrats d'araignées pour tester les araignées.

Valeur par défaut: {}

58

SPIDER_CONTRACTS_BASE

C'est un dictionnaire contenant des contrats Scrapy qui est activé par défaut dans Scrapy.

Valeur par défaut -

{ 
   'scrapy.contracts.default.UrlContract' : 1, 
   'scrapy.contracts.default.ReturnsContract': 2, 
}
59

SPIDER_LOADER_CLASS

Il définit une classe qui implémente l' API SpiderLoader pour charger les spiders.

Valeur par défaut: 'scrapy.spiderloader.SpiderLoader'

60

SPIDER_MIDDLEWARES

C'est un dictionnaire contenant des middlewares d'araignée.

Valeur par défaut: {}

61

SPIDER_MIDDLEWARES_BASE

C'est un dictionnaire contenant des middlewares d'araignée qui est activé par défaut dans Scrapy.

Valeur par défaut -

{ 
   'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, 
}
62

SPIDER_MODULES

C'est une liste de modules contenant des araignées que Scrapy recherchera.

Valeur par défaut: []

63

STATS_CLASS

C'est une classe qui implémente l' API Stats Collector pour collecter des statistiques.

Valeur par défaut: 'scrapy.statscollectors.MemoryStatsCollector'

64

STATS_DUMP

Ce paramètre, lorsqu'il est défini sur true, vide les statistiques dans le journal.

Valeur par défaut: True

65

STATSMAILER_RCPTS

Une fois que les araignées ont fini de gratter, Scrapy utilise ce paramètre pour envoyer les statistiques.

Valeur par défaut: []

66

TELNETCONSOLE_ENABLED

Il définit s'il faut activer la console telnet.

Valeur par défaut: True

67

TELNETCONSOLE_PORT

Il définit un port pour la console telnet.

Valeur par défaut: [6023, 6073]

68

TEMPLATES_DIR

Il s'agit d'un répertoire contenant des modèles pouvant être utilisés lors de la création de nouveaux projets.

Valeur par défaut: répertoire des modèles dans le module scrapy

69

URLLENGTH_LIMIT

Il définit la limite maximale de la longueur d'URL à autoriser pour les URL explorées.

Valeur par défaut: 2083

70

USER_AGENT

Il définit l'agent utilisateur à utiliser lors de l'exploration d'un site.

Valeur par défaut: "Scrapy / VERSION (+ http: //scrapy.org)"

Pour les autres paramètres Scrapy, accédez à ce lien .

La description

Les événements irréguliers sont appelés exceptions. Dans Scrapy, des exceptions sont déclenchées pour des raisons telles qu'une configuration manquante, la suppression d'un élément du pipeline d'éléments, etc. Voici la liste des exceptions mentionnées dans Scrapy et leur application.

Lacher un objet

Le pipeline d'articles utilise cette exception pour arrêter le traitement de l'article à tout moment. Il peut s'écrire -

exception (scrapy.exceptions.DropItem)

FermerSpider

Cette exception est utilisée pour arrêter l'araignée à l'aide de la demande de rappel. Il peut s'écrire -

exception (scrapy.exceptions.CloseSpider)(reason = 'cancelled')

Il contient le paramètre appelé reason (str) qui spécifie la raison de la fermeture.

Par exemple, le code suivant montre cette utilisation d'exception -

def parse_page(self, response): 
   if 'Bandwidth exceeded' in response.body: 
      raise CloseSpider('bandwidth_exceeded')

IgnorerRequest

Cette exception est utilisée par le programmateur ou le middleware du téléchargeur pour ignorer une requête. Il peut s'écrire -

exception (scrapy.exceptions.IgnoreRequest)

Pas configuré

Il indique une situation de configuration manquante et doit être déclenché dans un constructeur de composant.

exception (scrapy.exceptions.NotConfigured)

Cette exception peut être déclenchée si l'un des composants suivants est désactivé.

  • Extensions
  • Pipelines d'articles
  • Middlewares de téléchargement
  • Middlewares d'araignée

Non supporté

Cette exception est déclenchée lorsqu'une fonctionnalité ou une méthode n'est pas prise en charge. Il peut s'écrire -

exception (scrapy.exceptions.NotSupported)

La description

Pour supprimer les données des pages Web, vous devez d'abord créer le projet Scrapy dans lequel vous stockerez le code. Pour créer un nouveau répertoire, exécutez la commande suivante -

scrapy startproject first_scrapy

Le code ci-dessus créera un répertoire avec le nom first_scrapy et il contiendra la structure suivante -

first_scrapy/
scrapy.cfg            # deploy configuration file
first_scrapy/         # project's Python module, you'll import your code from here
__init__.py
items.py              # project items file
pipelines.py          # project pipelines file
settings.py           # project settings file
spiders/              # a directory where you'll later put your spiders
__init__.py

La description

Les éléments sont les conteneurs utilisés pour collecter les données supprimées des sites Web. Vous devez démarrer votre araignée en définissant votre objet. Pour définir des éléments, modifiezitems.py fichier trouvé sous le répertoire first_scrapy(répertoire personnalisé). Le items.py ressemble à ce qui suit -

import scrapy  

class First_scrapyItem(scrapy.Item): 
   # define the fields for your item here like: 
      # name = scrapy.Field()

La classe MyItem hérite de Item contenant un certain nombre d'objets prédéfinis que Scrapy a déjà construits pour nous. Par exemple, si vous souhaitez extraire le nom, l'URL et la description des sites, vous devez définir les champs pour chacun de ces trois attributs.

Par conséquent, ajoutons les éléments que nous voulons collecter -

from scrapy.item import Item, Field  

class First_scrapyItem(scrapy.Item): 
   name = scrapy.Field() 
   url = scrapy.Field() 
   desc = scrapy.Field()

La description

Spider est une classe qui définit l'URL initiale à partir de laquelle extraire les données, comment suivre les liens de pagination et comment extraire et analyser les champs définis dans le items.py. Scrapy fournit différents types d'araignées dont chacun donne un but spécifique.

Créez un fichier appelé "first_spider.py"sous le répertoire first_scrapy / spiders, où nous pouvons dire à Scrapy comment trouver les données exactes que nous recherchons. Pour cela, vous devez définir certains attributs -

  • name - Il définit le nom unique de l'araignée.

  • allowed_domains - Il contient les URL de base que l'araignée doit explorer.

  • start-urls - Une liste d'URL à partir desquelles l'araignée commence à explorer.

  • parse() - C'est une méthode qui extrait et analyse les données grattées.

Le code suivant montre à quoi ressemble un code d'araignée -

import scrapy  

class firstSpider(scrapy.Spider): 
   name = "first" 
   allowed_domains = ["dmoz.org"] 
   
   start_urls = [ 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
   ]  
   def parse(self, response): 
      filename = response.url.split("/")[-2] + '.html' 
      with open(filename, 'wb') as f: 
         f.write(response.body)

La description

Pour exécuter votre spider, exécutez la commande suivante dans votre répertoire first_scrapy -

scrapy crawl first

Où, first est le nom de l'araignée spécifié lors de la création de l'araignée.

Une fois que l'araignée parcourt, vous pouvez voir la sortie suivante -

2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)

Comme vous pouvez le voir dans la sortie, pour chaque URL, il y a une ligne de journal qui (référent: Aucun) indique que les URL sont des URL de démarrage et qu'elles n'ont pas de référents. Ensuite, vous devriez voir deux nouveaux fichiers nommés Books.html et Resources.html sont créés dans votre répertoire first_scrapy .

La description

Pour extraire des données de pages Web, Scrapy utilise une technique appelée sélecteurs basée sur des expressions XPath et CSS . Voici quelques exemples d'expressions XPath -

  • /html/head/title - Cela sélectionnera l'élément <title>, à l'intérieur de l'élément <head> d'un document HTML.

  • /html/head/title/text() - Cela sélectionnera le texte dans le même élément <title>.

  • //td - Cela sélectionnera tous les éléments de <td>.

  • //div[@class = "slice"]- Cela sélectionnera tous les éléments de div qui contiennent un attribut class = "slice"

Les sélecteurs ont quatre méthodes de base, comme indiqué dans le tableau suivant -

Sr.Non Méthode et description
1

extract()

Il renvoie une chaîne Unicode avec les données sélectionnées.

2

re()

Il renvoie une liste de chaînes Unicode, extraites lorsque l'expression régulière a été donnée en argument.

3

xpath()

Il renvoie une liste de sélecteurs, qui représente les nœuds sélectionnés par l'expression xpath donnée en argument.

4

css()

Il renvoie une liste de sélecteurs, qui représente les nœuds sélectionnés par l'expression CSS donnée en argument.

Utilisation de sélecteurs dans le shell

Pour démontrer les sélecteurs avec le shell Scrapy intégré, vous devez avoir IPython installé sur votre système. L'important ici est que les URL doivent être incluses dans les guillemets lors de l'exécution de Scrapy; sinon les URL avec les caractères «&» ne fonctionneront pas. Vous pouvez démarrer un shell en utilisant la commande suivante dans le répertoire de niveau supérieur du projet -

scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"

Un shell ressemblera à ce qui suit -

[ ... Scrapy log here ... ]

2014-01-23 17:11:42-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>(referer: None)
[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x3636b50>
[s]   item       {}
[s]   request    <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s]   response   <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s]   settings   <scrapy.settings.Settings object at 0x3fadc50>
[s]   spider     <Spider 'default' at 0x3cebf50>
[s] Useful shortcuts:
[s]   shelp()           Shell help (print this help)
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects
[s]   view(response)    View response in a browser

In [1]:

Lors du chargement du shell, vous pouvez accéder au corps ou à l'en-tête en utilisant respectivement response.body et response.header . De même, vous pouvez exécuter des requêtes sur la réponse à l'aide de response.selector.xpath () ou response.selector.css () .

Par exemple -

In [1]: response.xpath('//title')
Out[1]: [<Selector xpath = '//title' data = u'<title>My Book - Scrapy'>]

In [2]: response.xpath('//title').extract()
Out[2]: [u'<title>My Book - Scrapy: Index: Chapters</title>']

In [3]: response.xpath('//title/text()')
Out[3]: [<Selector xpath = '//title/text()' data = u'My Book - Scrapy: Index:'>]

In [4]: response.xpath('//title/text()').extract()
Out[4]: [u'My Book - Scrapy: Index: Chapters']

In [5]: response.xpath('//title/text()').re('(\w+):')
Out[5]: [u'Scrapy', u'Index', u'Chapters']

Extraire les données

Pour extraire des données d'un site HTML normal, nous devons inspecter le code source du site pour obtenir des XPath. Après inspection, vous pouvez voir que les données seront dans leulmarque. Sélectionnez les éléments dansli marque.

Les lignes de code suivantes montrent l'extraction de différents types de données -

Pour sélectionner des données dans la balise li -

response.xpath('//ul/li')

Pour sélectionner les descriptions -

response.xpath('//ul/li/text()').extract()

Pour sélectionner les titres de sites -

response.xpath('//ul/li/a/text()').extract()

Pour sélectionner les liens du site -

response.xpath('//ul/li/a/@href').extract()

Le code suivant illustre l'utilisation des extracteurs ci-dessus -

import scrapy

class MyprojectSpider(scrapy.Spider):
   name = "project"
   allowed_domains = ["dmoz.org"]
   
   start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
      for sel in response.xpath('//ul/li'):
         title = sel.xpath('a/text()').extract()
         link = sel.xpath('a/@href').extract()
         desc = sel.xpath('text()').extract()
         print title, link, desc

La description

Itemles objets sont les dictats réguliers de Python. Nous pouvons utiliser la syntaxe suivante pour accéder aux attributs de la classe -

>>> item = DmozItem()
>>> item['title'] = 'sample title'
>>> item['title']
'sample title'

Ajoutez le code ci-dessus à l'exemple suivant -

import scrapy

from tutorial.items import DmozItem

class MyprojectSpider(scrapy.Spider):
   name = "project"
   allowed_domains = ["dmoz.org"]
   
   start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
      for sel in response.xpath('//ul/li'):
         item = DmozItem()
         item['title'] = sel.xpath('a/text()').extract()
         item['link'] = sel.xpath('a/@href').extract()
         item['desc'] = sel.xpath('text()').extract()
         yield item

La sortie de l'araignée ci-dessus sera -

[scrapy] DEBUG: Scraped from <200 
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
   {'desc': [u' - By David Mertz; Addison Wesley. Book in progress, full text, 
      ASCII format. Asks for feedback. [author website, Gnosis Software, Inc.\n],
   'link': [u'http://gnosis.cx/TPiP/'],
   'title': [u'Text Processing in Python']}
[scrapy] DEBUG: Scraped from <200 
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
   {'desc': [u' - By Sean McGrath; Prentice Hall PTR, 2000, ISBN 0130211192, 
      has CD-ROM. Methods to build XML applications fast, Python tutorial, DOM and 
      SAX, new Pyxie open source XML processing library. [Prentice Hall PTR]\n'],
   'link': [u'http://www.informit.com/store/product.aspx?isbn=0130211192'],
   'title': [u'XML Processing with Python']}

La description

Dans ce chapitre, nous allons étudier comment extraire les liens des pages qui nous intéressent, les suivre et extraire les données de cette page. Pour cela, nous devons apporter les modifications suivantes dans notre code précédent illustré comme suit -

import scrapy
from tutorial.items import DmozItem

class MyprojectSpider(scrapy.Spider):
   name = "project"
   allowed_domains = ["dmoz.org"]
   
   start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/",
   ]
   def parse(self, response):
      for href in response.css("ul.directory.dir-col > li > a::attr('href')"):
         url = response.urljoin(href.extract())
            yield scrapy.Request(url, callback = self.parse_dir_contents)

   def parse_dir_contents(self, response):
      for sel in response.xpath('//ul/li'):
         item = DmozItem()
         item['title'] = sel.xpath('a/text()').extract()
         item['link'] = sel.xpath('a/@href').extract()
         item['desc'] = sel.xpath('text()').extract()
         yield item

Le code ci-dessus contient les méthodes suivantes -

  • parse() - Il extraira les liens de notre intérêt.

  • response.urljoin - La méthode parse () utilisera cette méthode pour construire une nouvelle url et fournir une nouvelle requête, qui sera envoyée ultérieurement au callback.

  • parse_dir_contents() - Ceci est un rappel qui va en fait gratter les données d'intérêt.

Ici, Scrapy utilise un mécanisme de rappel pour suivre les liens. En utilisant ce mécanisme, le plus gros robot peut être conçu et peut suivre des liens d'intérêt pour extraire les données souhaitées de différentes pages. La méthode régulière sera la méthode de rappel, qui extraira les éléments, recherchera des liens pour suivre la page suivante, puis fournira une demande pour le même rappel.

L'exemple suivant produit une boucle, qui suivra les liens vers la page suivante.

def parse_articles_follow_next_page(self, response):
   for article in response.xpath("//article"):
      item = ArticleItem()
    
      ... extract article data here

      yield item

   next_page = response.css("ul.navigation > li.next-page > a::attr('href')")
   if next_page:
      url = response.urljoin(next_page[0].extract())
      yield scrapy.Request(url, self.parse_articles_follow_next_page)

La description

La meilleure façon de stocker les données récupérées consiste à utiliser les exportations de flux, ce qui garantit que les données sont correctement stockées à l'aide de plusieurs formats de sérialisation. JSON, lignes JSON, CSV, XML sont les formats facilement pris en charge dans les formats de sérialisation. Les données peuvent être stockées avec la commande suivante -

scrapy crawl dmoz -o data.json

Cette commande créera un data.jsonfichier contenant des données récupérées dans JSON. Cette technique est valable pour une petite quantité de données. Si une grande quantité de données doit être gérée, nous pouvons utiliser Item Pipeline. Tout comme le fichier data.json, un fichier réservé est configuré lorsque le projet est créé danstutorial/pipelines.py.

La description

Loggingsignifie le suivi des événements, qui utilise un système de journalisation intégré et définit des fonctions et des classes pour implémenter des applications et des bibliothèques. La journalisation est un matériel prêt à l'emploi, qui peut fonctionner avec les paramètres Scrapy répertoriés dans les paramètres de journalisation.

Scrapy définira certains paramètres par défaut et gérera ces paramètres à l'aide de scrapy.utils.log.configure_logging () lors de l'exécution des commandes.

Niveaux de journal

En Python, il existe cinq niveaux de gravité différents sur un message de journal. La liste suivante montre les messages de journal standard dans un ordre croissant -

  • logging.DEBUG - pour les messages de débogage (gravité la plus faible)

  • logging.INFO - pour les messages d'information

  • logging.WARNING - pour les messages d'avertissement

  • logging.ERROR - pour les erreurs régulières

  • logging.CRITICAL - pour les erreurs critiques (gravité la plus élevée)

Comment enregistrer les messages

Le code suivant montre la journalisation d'un message à l'aide de logging.info niveau.

import logging 
logging.info("This is an information")

Le message de journalisation ci-dessus peut être passé comme argument en utilisant logging.log montré comme suit -

import logging 
logging.log(logging.INFO, "This is an information")

Désormais, vous pouvez également utiliser des enregistreurs pour inclure le message à l'aide de la journalisation des assistants de journalisation pour que le message de journalisation soit clairement affiché comme suit -

import logging
logger = logging.getLogger()
logger.info("This is an information")

Il peut y avoir plusieurs enregistreurs et ceux-ci sont accessibles en obtenant leurs noms à l'aide de logging.getLogger fonction illustrée comme suit.

import logging
logger = logging.getLogger('mycustomlogger')
logger.info("This is an information")

Un enregistreur personnalisé peut être utilisé pour n'importe quel module en utilisant la variable __name__ qui contient le chemin du module indiqué comme suit -

import logging
logger = logging.getLogger(__name__)
logger.info("This is an information")

Journalisation des araignées

Chaque instance d'araignée a un logger à l'intérieur et peut être utilisé comme suit -

import scrapy 

class LogSpider(scrapy.Spider):  
   name = 'logspider' 
   start_urls = ['http://dmoz.com']  
   def parse(self, response): 
      self.logger.info('Parse function called on %s', response.url)

Dans le code ci-dessus, l'enregistreur est créé en utilisant le nom de l'araignée, mais vous pouvez utiliser n'importe quel enregistreur personnalisé fourni par Python comme indiqué dans le code suivant -

import logging
import scrapy

logger = logging.getLogger('customizedlogger')
class LogSpider(scrapy.Spider):
   name = 'logspider'
   start_urls = ['http://dmoz.com']

   def parse(self, response):
      logger.info('Parse function called on %s', response.url)

Configuration de la journalisation

Les enregistreurs ne sont pas en mesure d'afficher seuls les messages qu'ils ont envoyés. Ils ont donc besoin de «gestionnaires» pour afficher ces messages et les gestionnaires redirigeront ces messages vers leurs destinations respectives telles que les fichiers, les e-mails et la sortie standard.

En fonction des paramètres suivants, Scrapy configurera le gestionnaire pour l'enregistreur.

Paramètres de journalisation

Les paramètres suivants sont utilisés pour configurer la journalisation -

  • le LOG_FILE et LOG_ENABLED décider de la destination des messages du journal.

  • Lorsque vous définissez le LOG_ENCODING à false, il n'affichera pas les messages de sortie du journal.

  • le LOG_LEVELdéterminera l'ordre de gravité du message; les messages moins sévères seront filtrés.

  • le LOG_FORMAT et LOG_DATEFORMAT sont utilisés pour spécifier les dispositions de tous les messages.

  • Lorsque vous définissez le LOG_STDOUT à true, tous les messages d'erreur et de sortie standard de votre processus seront redirigés vers log.

Options de ligne de commande

Les paramètres Scrapy peuvent être remplacés en passant des arguments de ligne de commande comme indiqué dans le tableau suivant -

Sr.Non Commande et description
1

--logfile FILE

Remplace LOG_FILE

2

--loglevel/-L LEVEL

Remplace LOG_LEVEL

3

--nolog

Définit LOG_ENABLED sur False

module scrapy.utils.log

Cette fonction peut être utilisée pour initialiser les valeurs par défaut de journalisation pour Scrapy.

scrapy.utils.log.configure_logging(settings = None, install_root_handler = True)

Sr.Non Paramètre et description
1

settings (dict, None)

Il crée et configure le gestionnaire de l'enregistreur racine. Par défaut, c'est Aucun .

2

install_root_handler (bool)

Il spécifie d'installer le gestionnaire de journalisation racine. Par défaut, c'est True .

La fonction ci-dessus -

  • Achemine les avertissements et les enregistrements déformés via la journalisation standard Python.
  • Assigne DEBUG à Scrapy et le niveau ERROR aux enregistreurs Twisted.
  • Achemine stdout vers le journal, si le paramètre LOG_STDOUT est vrai.

Les options par défaut peuvent être remplacées à l'aide du settingsargument. Lorsque les paramètres ne sont pas spécifiés, les valeurs par défaut sont utilisées. Le gestionnaire peut être créé pour le journal racine, lorsque install_root_handler est défini sur true. S'il est défini sur false, aucune sortie de journal n'est définie. Lors de l'utilisation des commandes Scrapy, configure_logging sera appelé automatiquement et pourra s'exécuter explicitement, tout en exécutant les scripts personnalisés.

Pour configurer manuellement la sortie de la journalisation, vous pouvez utiliser logging.basicConfig() montré comme suit -

import logging 
from scrapy.utils.log import configure_logging  

configure_logging(install_root_handler = False) 
logging.basicConfig ( 
   filename = 'logging.txt', 
   format = '%(levelname)s: %(your_message)s', 
   level = logging.INFO 
)

La description

Stats Collector est une fonctionnalité fournie par Scrapy pour collecter les statistiques sous forme de clés / valeurs et il est accessible à l'aide de l'API Crawler (Crawler donne accès à tous les composants principaux de Scrapy). Le collecteur de statistiques fournit une table de statistiques par araignée dans laquelle le collecteur de statistiques s'ouvre automatiquement lorsque l'araignée s'ouvre et ferme le collecteur de statistiques lorsque l'araignée est fermée.

Utilisations courantes du collecteur de statistiques

Le code suivant accède au collecteur de statistiques en utilisant stats attribut.

class ExtensionThatAccessStats(object): 
   def __init__(self, stats): 
      self.stats = stats  
   
   @classmethod 
   def from_crawler(cls, crawler): 
      return cls(crawler.stats)

Le tableau suivant montre diverses options pouvant être utilisées avec le collecteur de statistiques -

Sr.Non Paramètres La description
1
stats.set_value('hostname', socket.gethostname())
Il est utilisé pour définir la valeur des statistiques.
2
stats.inc_value('customized_count')
Il incrémente la valeur statistique.
3
stats.max_value('max_items_scraped', value)
Vous pouvez définir la valeur statistique, uniquement si elle est supérieure à la valeur précédente.
4
stats.min_value('min_free_memory_percent', value)
Vous pouvez définir la valeur statistique, uniquement si elle est inférieure à la valeur précédente.
5
stats.get_value('customized_count')
Il récupère la valeur statistique.
6
stats.get_stats() {'custom_count': 1, 'start_time': 
datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)}
Il récupère toutes les statistiques

Collectionneurs de statistiques disponibles

Scrapy fournit différents types de collecteurs de statistiques accessibles à l'aide du STATS_CLASS réglage.

MemoryStatsCollector

C'est le collecteur de statistiques par défaut qui maintient les statistiques de chaque araignée qui a été utilisée pour le scraping et les données seront stockées dans la mémoire.

class scrapy.statscollectors.MemoryStatsCollector

DummyStatsCollecteur

Ce collecteur de statistiques est très efficace et ne fait rien. Cela peut être défini à l'aide du paramètre STATS_CLASS et peut être utilisé pour désactiver la collecte de statistiques afin d'améliorer les performances.

class scrapy.statscollectors.DummyStatsCollector

La description

Scrapy peut envoyer des e-mails en utilisant sa propre fonction appelée E / S non bloquante Twisted qui évite les E / S non bloquantes du robot d'exploration. Vous pouvez configurer les quelques paramètres d'envoi d'e-mails et fournir une API simple pour l'envoi de pièces jointes.

Il existe deux façons d'instancier le MailSender comme indiqué dans le tableau suivant -

Sr.Non Paramètres Méthode
1 à partir de scrapy.mail import MailSender mailer = MailSender () En utilisant un constructeur standard.
2 mailer = MailSender.from_settings (paramètres) En utilisant l'objet de paramètres Scrapy.

La ligne suivante envoie un e-mail sans pièces jointes -

mailer.send(to = ["[email protected]"], subject = "subject data", body = "body data", 
   cc = ["[email protected]"])

Référence de classe MailSender

La classe MailSender utilise des E / S non bloquantes Twisted pour envoyer des e-mails depuis Scrapy.

class scrapy.mail.MailSender(smtphost = None, mailfrom = None, smtpuser = None, 
   smtppass = None, smtpport = None)

Le tableau suivant montre les paramètres utilisés dans la classe MailSender -

Sr.Non Paramètre et description
1

smtphost (str)

L'hôte SMTP est utilisé pour l'envoi des e-mails. Sinon, le paramètre MAIL_HOST sera utilisé.

2

mailfrom (str)

L'adresse du destinataire est utilisée pour envoyer les e-mails. Sinon, le paramètre MAIL_FROM sera utilisé.

3

smtpuser

Il spécifie l'utilisateur SMTP. S'il n'est pas utilisé, le paramètre MAIL_USER sera utilisé et il n'y aura pas de validation SMTP s'il n'est pas mentionné.

4

smtppass (str)

Il spécifie la passe SMTP pour la validation.

5

smtpport (int)

Il spécifie le port SMTP pour la connexion.

6

smtptls (boolean)

Il implémente en utilisant le SMTP STARTTLS.

sept

smtpssl (boolean)

Il administre en utilisant une connexion SSL sécurisée.

Les deux méthodes suivantes sont présentes dans la référence de classe MailSender comme spécifié. Première méthode,

classmethod from_settings(settings)

Il incorpore en utilisant l'objet de paramètres Scrapy. Il contient le paramètre suivant -

settings (scrapy.settings.Settings object) - Il est traité comme un destinataire de courrier électronique.

Une autre méthode,

send(to, subject, body, cc = None, attachs = (), mimetype = 'text/plain', charset = None)

Le tableau suivant contient les paramètres de la méthode ci-dessus -

Sr.Non Paramètre et description
1

to (list)

Il fait référence au destinataire de l'e-mail.

2

subject (str)

Il précise le sujet de l'e-mail.

3

cc (list)

Il fait référence à la liste des destinataires.

4

body (str)

Il fait référence aux données du corps de l'e-mail.

5

attachs (iterable)

Il fait référence à la pièce jointe de l'e-mail, au type MIME de la pièce jointe et au nom de la pièce jointe.

6

mimetype (str)

Il représente le type MIME de l'e-mail.

sept

charset (str)

Il spécifie le codage de caractères utilisé pour le contenu des e-mails.

Paramètres de messagerie

Les paramètres suivants garantissent que sans écrire de code, nous pouvons configurer un e-mail à l'aide de la classe MailSender dans le projet.

Sr.Non Paramètres et description Valeur par défaut
1

MAIL_FROM

Il fait référence à l'e-mail de l'expéditeur pour l'envoi d'e-mails.

'scrapy @ localhost'
2

MAIL_HOST

Il fait référence à l'hôte SMTP utilisé pour envoyer des e-mails.

'localhost'
3

MAIL_PORT

Il spécifie le port SMTP à utiliser pour l'envoi d'e-mails.

25
4

MAIL_USER

Il fait référence à la validation SMTP. Il n'y aura pas de validation si ce paramètre est défini sur désactivé.

Aucun
5

MAIL_PASS

Il fournit le mot de passe utilisé pour la validation SMTP.

Aucun
6

MAIL_TLS

Il fournit la méthode de mise à niveau d'une connexion non sécurisée vers une connexion sécurisée à l'aide de SSL / TLS.

Faux
sept

MAIL_SSL

Il implémente la connexion à l'aide d'une connexion cryptée SSL.

Faux

La description

La console Telnet est un shell Python qui s'exécute dans le processus Scrapy et est utilisé pour inspecter et contrôler un processus en cours d'exécution Scrapy.

Accéder à la console Telnet

La console telnet est accessible à l'aide de la commande suivante -

telnet localhost 6023

Fondamentalement, la console telnet est répertoriée dans le port TCP, qui est décrit dans TELNETCONSOLE_PORT réglages.

Variables

Certaines des variables par défaut données dans le tableau suivant sont utilisées comme raccourcis -

Sr.Non Raccourci et description
1

crawler

Cela fait référence à l'objet Scrapy Crawler (scrapy.crawler.Crawler).

2

engine

Cela fait référence à l'attribut Crawler.engine.

3

spider

Cela fait référence à l'araignée qui est active.

4

slot

Cela fait référence à l'emplacement du moteur.

5

extensions

Cela fait référence à l'attribut Extension Manager (Crawler.extensions).

6

stats

Cela fait référence à l'attribut Stats Collector (Crawler.stats).

sept

setting

Cela fait référence à l'attribut de l'objet Scrapy settings (Crawler.settings).

8

est

Cela fait référence à l'impression d'un rapport sur l'état du moteur.

9

prefs

Cela fait référence à la mémoire pour le débogage.

dix

p

Cela fait référence à un raccourci vers la fonction pprint.pprint .

11

hpy

Cela fait référence au débogage de la mémoire.

Exemples

Voici quelques exemples illustrés à l'aide de la console Telnet.

Mettre en pause, reprendre et arrêter le Scrapy Engine

Pour mettre en pause le moteur Scrapy, utilisez la commande suivante -

telnet localhost 6023
>>> engine.pause()
>>>

Pour reprendre le moteur Scrapy, utilisez la commande suivante -

telnet localhost 6023
>>> engine.unpause()
>>>

Pour arrêter le moteur Scrapy, utilisez la commande suivante -

telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.

Afficher l'état du moteur

La console Telnet utilise est() méthode pour vérifier l'état du moteur Scrapy comme indiqué dans le code suivant -

telnet localhost 6023
>>> est()
Execution engine status

time()-engine.start_time                        : 8.62972998619
engine.has_capacity()                           : False
len(engine.downloader.active)                   : 16
engine.scraper.is_idle()                        : False
engine.spider.name                              : followall
engine.spider_is_idle(engine.spider)            : False
engine.slot.closing                             : False
len(engine.slot.inprogress)                     : 16
len(engine.slot.scheduler.dqs or [])            : 0
len(engine.slot.scheduler.mqs)                  : 92
len(engine.scraper.slot.queue)                  : 0
len(engine.scraper.slot.active)                 : 0
engine.scraper.slot.active_size                 : 0
engine.scraper.slot.itemproc_size               : 0
engine.scraper.slot.needs_backout()             : False

Signaux de la console Telnet

Vous pouvez utiliser les signaux de la console telnet pour ajouter, mettre à jour ou supprimer les variables dans l'espace de noms local telnet. Pour effectuer cette action, vous devez ajouter le dict telnet_vars dans votre gestionnaire.

scrapy.extensions.telnet.update_telnet_vars(telnet_vars)

Paramètres -

telnet_vars (dict)

Où, dict est un dictionnaire contenant des variables telnet.

Paramètres Telnet

Le tableau suivant montre les paramètres qui contrôlent le comportement de la console Telnet -

Sr.Non Paramètres et description Valeur par défaut
1

TELNETCONSOLE_PORT

Cela fait référence à la plage de ports pour la console telnet. S'il est défini sur aucun, le port sera attribué dynamiquement.

[6023, 6073]
2

TELNETCONSOLE_HOST

Cela fait référence à l'interface sur laquelle la console telnet doit écouter.

«127.0.0.1»

La description

Un robot d'exploration Scrapy en cours d'exécution peut être contrôlé via JSON-RPC. Il est activé par le paramètre JSONRPC_ENABLED. Ce service permet d'accéder à l'objet principal du robot d'exploration via le protocole JSON-RPC 2.0 . Le point de terminaison pour accéder à l'objet du robot est -

http://localhost:6080/crawler

Le tableau suivant contient certains des paramètres qui montrent le comportement du service Web -

Sr.Non Réglage et description Valeur par défaut
1

JSONRPC_ENABLED

Cela fait référence au booléen, qui décide que le service Web avec son extension sera activé ou non.

Vrai
2

JSONRPC_LOGFILE

Il s'agit du fichier utilisé pour la journalisation des requêtes HTTP adressées au service Web. S'il n'est pas défini, le journal Scrapy standard sera utilisé.

Aucun
3

JSONRPC_PORT

Cela fait référence à la plage de ports du service Web. S'il est défini sur aucun, le port sera attribué dynamiquement.

[6080, 7030]
4

JSONRPC_HOST

Cela fait référence à l'interface sur laquelle le service Web doit écouter.

«127.0.0.1»