Scrapy - Guide rapide
Scrapy est un framework d'exploration Web rapide et open-source écrit en Python, utilisé pour extraire les données de la page Web à l'aide de sélecteurs basés sur XPath.
Scrapy a été publié pour la première fois le 26 juin 2008 sous licence BSD, avec un jalon 1.0 publié en juin 2015.
Pourquoi utiliser Scrapy?
Il est plus facile de créer et de mettre à l'échelle de grands projets d'exploration.
Il dispose d'un mécanisme intégré appelé sélecteurs, pour extraire les données des sites Web.
Il gère les demandes de manière asynchrone et c'est rapide.
Il ajuste automatiquement la vitesse d'exploration à l'aide du mécanisme d'auto-étranglement .
Assure l'accessibilité des développeurs.
Caractéristiques de Scrapy
Scrapy est un framework d'exploration Web open source et gratuit.
Scrapy génère des exportations de flux dans des formats tels que JSON, CSV et XML.
Scrapy a un support intégré pour sélectionner et extraire des données à partir de sources soit par XPath ou expressions CSS.
Scrapy basé sur un robot d'exploration, permet d'extraire automatiquement les données des pages Web.
Avantages
Scrapy est facilement extensible, rapide et puissant.
Il s'agit d'un framework applicatif multiplateforme (Windows, Linux, Mac OS et BSD).
Les demandes Scrapy sont planifiées et traitées de manière asynchrone.
Scrapy est livré avec un service intégré appelé Scrapyd qui permet de télécharger des projets et de contrôler les araignées à l'aide du service Web JSON.
Il est possible de supprimer n'importe quel site Web, bien que ce site Web ne dispose pas d'API pour l'accès aux données brutes.
Désavantages
Scrapy est uniquement pour Python 2.7. +
L'installation est différente pour différents systèmes d'exploitation.
Dans ce chapitre, nous verrons comment installer et configurer Scrapy. Scrapy doit être installé avec Python.
Scrapy peut être installé en utilisant pip. Pour installer, exécutez la commande suivante -
pip install Scrapy
les fenêtres
Note - Python 3 n'est pas pris en charge sur le système d'exploitation Windows.
Step 1- Installez Python 2.7 depuis Python
Définissez les variables d'environnement en ajoutant les chemins suivants au PATH -
C:\Python27\;C:\Python27\Scripts\;
Vous pouvez vérifier la version Python à l'aide de la commande suivante -
python --version
Step 2- Installez OpenSSL .
Ajoutez C: \ OpenSSL-Win32 \ bin dans vos variables d'environnement.
Note - OpenSSL est préinstallé dans tous les systèmes d'exploitation à l'exception de Windows.
Step 3- Installez les redistribuables Visual C ++ 2008 .
Step 4- Installez pywin32 .
Step 5- Installez pip pour les versions Python antérieures à 2.7.9.
Vous pouvez vérifier la version de pip en utilisant la commande suivante -
pip --version
Step 6 - Pour installer scrapy, exécutez la commande suivante -
pip install Scrapy
Anaconda
Si anaconda ou miniconda est installé sur votre machine, exécutez la commande ci-dessous pour installer Scrapy en utilisant conda -
conda install -c scrapinghub scrapy
La société Scrapinghub prend en charge les packages conda officiels pour Linux, Windows et OS X.
Note - Il est recommandé d'installer Scrapy à l'aide de la commande ci-dessus si vous rencontrez des problèmes lors de l'installation via pip.
Ubuntu 9.10 ou supérieur
La dernière version de Python est préinstallée sur le système d'exploitation Ubuntu. Utilisez les packages Ubuntu aptgettable fournis par Scrapinghub. Pour utiliser les packages -
Step 1 - Vous devez importer la clé GPG utilisée pour signer les packages Scrapy dans le porte-clés APT -
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7
Step 2 - Ensuite, utilisez la commande suivante pour créer le fichier /etc/apt/sources.list.d/scrapy.list -
echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee
/etc/apt/sources.list.d/scrapy.list
Step 3 - Mettre à jour la liste des paquets et installer scrapy -
sudo apt-get update && sudo apt-get install scrapy
Archlinux
Vous pouvez installer Scrapy à partir du package AUR Scrapy en utilisant la commande suivante -
yaourt -S scrapy
Mac OS X
Utilisez la commande suivante pour installer les outils de ligne de commande Xcode -
xcode-select --install
Au lieu d'utiliser le système Python, installez une nouvelle version mise à jour qui n'entre pas en conflit avec le reste de votre système.
Step 1- Installez homebrew .
Step 2 - Définissez la variable d'environnement PATH pour spécifier que les packages homebrew doivent être utilisés avant les packages système -
echo "export PATH = /usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
Step 3 - Pour vous assurer que les modifications sont effectuées, rechargez .bashrc en utilisant la commande suivante -
source ~/.bashrc
Step 4 - Ensuite, installez Python à l'aide de la commande suivante -
brew install python
Step 5 - Installez Scrapy en utilisant la commande suivante -
pip install Scrapy
La description
L'outil de ligne de commande Scrapy est utilisé pour contrôler Scrapy, souvent appelé 'Scrapy tool'. Il comprend les commandes pour divers objets avec un groupe d'arguments et d'options.
Paramètres de configuration
Scrapy trouvera les paramètres de configuration dans le scrapy.cfgfichier. Voici quelques endroits -
C: \ scrapy (dossier du projet) \ scrapy.cfg dans le système
~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) et ~ / .scrapy.cfg ($ HOME) pour les paramètres globaux
Vous pouvez trouver le scrapy.cfg à la racine du projet.
Scrapy peut également être configuré à l'aide des variables d'environnement suivantes -
- SCRAPY_SETTINGS_MODULE
- SCRAPY_PROJECT
- SCRAPY_PYTHON_SHELL
Projet Scrapy de structure par défaut
La structure suivante montre la structure de fichiers par défaut du projet Scrapy.
scrapy.cfg - Deploy the configuration file
project_name/ - Name of the project
_init_.py
items.py - It is project's items file
pipelines.py - It is project's pipelines file
settings.py - It is project's settings file
spiders - It is the spiders directory
_init_.py
spider_name.py
. . .
le scrapy.cfgfile est un répertoire racine du projet, qui comprend le nom du projet avec les paramètres du projet. Par exemple -
[settings]
default = [name of the project].settings
[deploy]
#url = http://localhost:6800/
project = [name of the project]
Utilisation de l'outil Scrapy
L'outil Scrapy fournit certaines utilisations et commandes disponibles comme suit -
Scrapy X.Y - no active project
Usage:
scrapy [options] [arguments]
Available commands:
crawl It puts spider (handle the URL) to work for crawling data
fetch It fetches the response from the given URL
Créer un projet
Vous pouvez utiliser la commande suivante pour créer le projet dans Scrapy -
scrapy startproject project_name
Cela créera le projet appelé project_nameannuaire. Ensuite, accédez au projet nouvellement créé, en utilisant la commande suivante -
cd project_name
Contrôle des projets
Vous pouvez contrôler le projet et les gérer à l'aide de l'outil Scrapy et également créer la nouvelle araignée, en utilisant la commande suivante -
scrapy genspider mydomain mydomain.com
Les commandes telles que crawl, etc. doivent être utilisées dans le projet Scrapy. Vous saurez quelles commandes doivent être exécutées dans le projet Scrapy dans la section suivante.
Scrapy contient des commandes intégrées, qui peuvent être utilisées pour votre projet. Pour voir la liste des commandes disponibles, utilisez la commande suivante -
scrapy -h
Lorsque vous exécutez la commande suivante, Scrapy affichera la liste des commandes disponibles comme indiqué -
fetch - Il récupère l'URL à l'aide du téléchargeur Scrapy.
runspider - Il est utilisé pour exécuter spider autonome sans créer de projet.
settings - Il spécifie la valeur de réglage du projet.
shell - C'est un module de scraping interactif pour l'URL donnée.
startproject - Il crée un nouveau projet Scrapy.
version - Il affiche la version Scrapy.
view - Il récupère l'URL à l'aide du téléchargeur Scrapy et affiche le contenu dans un navigateur.
Vous pouvez avoir certaines commandes liées au projet comme répertoriées -
crawl - Il est utilisé pour analyser les données à l'aide de l'araignée.
check - Il vérifie les éléments renvoyés par la commande analysée.
list - Il affiche la liste des araignées disponibles présentes dans le projet.
edit - Vous pouvez éditer les araignées en utilisant l'éditeur.
parse - Il analyse l'URL donnée avec l'araignée.
bench - Il est utilisé pour exécuter un test de référence rapide (le test de référence indique combien de pages peuvent être explorées par minute par Scrapy).
Commandes de projet personnalisées
Vous pouvez créer une commande de projet personnalisée avec COMMANDS_MODULEdans le projet Scrapy. Il inclut une chaîne vide par défaut dans le paramètre. Vous pouvez ajouter la commande personnalisée suivante -
COMMANDS_MODULE = 'mycmd.commands'
Les commandes Scrapy peuvent être ajoutées à l'aide de la section scrapy.commands du fichier setup.py illustré ci-dessous -
from setuptools import setup, find_packages
setup(name = 'scrapy-module_demo',
entry_points = {
'scrapy.commands': [
'cmd_demo = my_module.commands:CmdDemo',
],
},
)
Le code ci-dessus ajoute cmd_demo commande dans le setup.py fichier.
La description
Spider est une classe chargée de définir comment suivre les liens via un site Web et extraire les informations des pages.
Les araignées par défaut de Scrapy sont les suivantes -
tremblante.
C'est une araignée dont toutes les autres araignées doivent hériter. Il a la classe suivante -
class scrapy.spiders.Spider
Le tableau suivant présente les champs de la classe scrapy.Spider -
Sr.Non | Champ et description |
---|---|
1 | name C'est le nom de votre araignée. |
2 | allowed_domains C'est une liste de domaines sur lesquels l'araignée rampe. |
3 | start_urls C'est une liste d'URL, qui seront les racines des analyses ultérieures, d'où l'araignée commencera à explorer. |
4 | custom_settings Ce sont les paramètres, lors de l'exécution de l'araignée, qui seront remplacés par la configuration à l'échelle du projet. |
5 | crawler C'est un attribut lié à l'objet Crawler auquel l'instance d'araignée est liée. |
6 | settings Ce sont les paramètres pour exécuter une araignée. |
sept | logger C'est un enregistreur Python utilisé pour envoyer des messages de journal. |
8 | from_crawler(crawler,*args,**kwargs) C'est une méthode de classe, qui crée votre araignée. Les paramètres sont -
|
9 | start_requests() Lorsqu'aucune URL particulière n'est spécifiée et que l'araignée est ouverte pour la mise au rebut, Scrapy appelle la méthode start_requests () . |
dix | make_requests_from_url(url) C'est une méthode utilisée pour convertir les URL en requêtes. |
11 | parse(response) Cette méthode traite la réponse et renvoie les données supprimées après d'autres URL. |
12 | log(message[,level,component]) C'est une méthode qui envoie un message de journal via un enregistreur d'araignées. |
13 | closed(reason) Cette méthode est appelée lorsque l'araignée se ferme. |
Arguments d'araignée
Les arguments Spider sont utilisés pour spécifier les URL de démarrage et sont transmis à l'aide de la commande d'exploration avec -a option, illustrée comme suit -
scrapy crawl first_scrapy -a group = accessories
Le code suivant montre comment une araignée reçoit des arguments -
import scrapy
class FirstSpider(scrapy.Spider):
name = "first"
def __init__(self, group = None, *args, **kwargs):
super(FirstSpider, self).__init__(*args, **kwargs)
self.start_urls = ["http://www.example.com/group/%s" % group]
Araignées génériques
Vous pouvez utiliser des araignées génériques pour sous-classer vos araignées. Leur objectif est de suivre tous les liens sur le site Web en fonction de certaines règles pour extraire les données de toutes les pages.
Pour les exemples utilisés dans les spiders suivants, supposons que nous ayons un projet avec les champs suivants -
import scrapy
from scrapy.item import Item, Field
class First_scrapyItem(scrapy.Item):
product_title = Field()
product_link = Field()
product_description = Field()
CrawlSpider
CrawlSpider définit un ensemble de règles pour suivre les liens et supprimer plus d'une page. Il a la classe suivante -
class scrapy.spiders.CrawlSpider
Voici les attributs de la classe CrawlSpider -
règles
Il s'agit d'une liste d'objets de règle qui définit la manière dont le robot suit le lien.
Le tableau suivant montre les règles de la classe CrawlSpider -
Sr.Non | Règle et description |
---|---|
1 | LinkExtractor Il spécifie comment l'araignée suit les liens et extrait les données. |
2 | callback Il doit être appelé après chaque page est grattée. |
3 | follow Il spécifie s'il faut continuer à suivre les liens ou non. |
parse_start_url (réponse)
Il retourne un élément ou un objet de requête en permettant d'analyser les réponses initiales.
Note - Assurez-vous de renommer la fonction d'analyse autrement que parse lors de l'écriture des règles car la fonction d'analyse est utilisée par CrawlSpider pour implémenter sa logique.
Jetons un coup d'œil à l'exemple suivant, où spider commence à explorer la page d'accueil de demoexample.com, en collectant toutes les pages, liens et analyses avec la méthode parse_items -
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class DemoSpider(CrawlSpider):
name = "demo"
allowed_domains = ["www.demoexample.com"]
start_urls = ["http://www.demoexample.com"]
rules = (
Rule(LinkExtractor(allow =(), restrict_xpaths = ("//div[@class = 'next']",)),
callback = "parse_item", follow = True),
)
def parse_item(self, response):
item = DemoItem()
item["product_title"] = response.xpath("a/text()").extract()
item["product_link"] = response.xpath("a/@href").extract()
item["product_description"] = response.xpath("div[@class = 'desc']/text()").extract()
return items
XMLFeedSpider
C'est la classe de base pour les araignées qui grattent des flux XML et itèrent sur les nœuds. Il a la classe suivante -
class scrapy.spiders.XMLFeedSpider
Le tableau suivant montre les attributs de classe utilisés pour définir un itérateur et un nom de balise -
Sr.Non | Attribut et description |
---|---|
1 | iterator Il définit l'itérateur à utiliser. Il peut s'agir d' iternodes, html ou xml . La valeur par défaut est iternodes . |
2 | itertag C'est une chaîne avec le nom du nœud à itérer. |
3 | namespaces Il est défini par une liste de tuples (prefix, uri) qui enregistre automatiquement les espaces de noms en utilisant la méthode register_namespace () . |
4 | adapt_response(response) Il reçoit la réponse et modifie le corps de la réponse dès qu'il arrive du middleware spider, avant que spider ne commence à l'analyser. |
5 | parse_node(response,selector) Il reçoit la réponse et un sélecteur lorsqu'il est appelé pour chaque nœud correspondant au nom de balise fourni. Note - Votre araignée ne fonctionnera pas si vous ne remplacez pas cette méthode. |
6 | process_results(response,results) Il renvoie une liste de résultats et de réponse renvoyés par l'araignée. |
CSVFeedSpider
Il parcourt chacune de ses lignes, reçoit un fichier CSV en réponse et appelle la méthode parse_row () . Il a la classe suivante -
class scrapy.spiders.CSVFeedSpider
Le tableau suivant montre les options qui peuvent être définies concernant le fichier CSV -
Sr.Non | Option et description |
---|---|
1 | delimiter C'est une chaîne contenant une virgule (',') séparateur pour chaque champ. |
2 | quotechar Il s'agit d'une chaîne contenant des guillemets ('"') pour chaque champ. |
3 | headers C'est une liste d'instructions à partir desquelles les champs peuvent être extraits. |
4 | parse_row(response,row) Il reçoit une réponse et chaque ligne avec une clé pour l'en-tête. |
Exemple CSVFeedSpider
from scrapy.spiders import CSVFeedSpider
from demoproject.items import DemoItem
class DemoSpider(CSVFeedSpider):
name = "demo"
allowed_domains = ["www.demoexample.com"]
start_urls = ["http://www.demoexample.com/feed.csv"]
delimiter = ";"
quotechar = "'"
headers = ["product_title", "product_link", "product_description"]
def parse_row(self, response, row):
self.logger.info("This is row: %r", row)
item = DemoItem()
item["product_title"] = row["product_title"]
item["product_link"] = row["product_link"]
item["product_description"] = row["product_description"]
return item
Plan du siteSpider
SitemapSpider à l'aide de Sitemaps explore un site Web en localisant les URL à partir du fichier robots.txt. Il a la classe suivante -
class scrapy.spiders.SitemapSpider
Le tableau suivant montre les champs de SitemapSpider -
Sr.Non | Champ et description |
---|---|
1 | sitemap_urls Une liste d'URL que vous souhaitez explorer pointant vers les plans de site. |
2 | sitemap_rules C'est une liste de tuples (regex, callback), où regex est une expression régulière, et le callback est utilisé pour traiter les URL correspondant à une expression régulière. |
3 | sitemap_follow C'est une liste d'expressions régulières de sitemap à suivre. |
4 | sitemap_alternate_links Spécifie les liens alternatifs à suivre pour une seule URL. |
Exemple SitemapSpider
Le SitemapSpider suivant traite toutes les URL -
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/sitemap.xml"]
def parse(self, response):
# You can scrap items here
Le SitemapSpider suivant traite certaines URL avec rappel -
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/sitemap.xml"]
rules = [
("/item/", "parse_item"),
("/group/", "parse_group"),
]
def parse_item(self, response):
# you can scrap item here
def parse_group(self, response):
# you can scrap group here
Le code suivant montre les sitemaps dans le fichier robots.txt dont l'URL a /sitemap_company -
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/robots.txt"]
rules = [
("/company/", "parse_company"),
]
sitemap_follow = ["/sitemap_company"]
def parse_company(self, response):
# you can scrap company here
Vous pouvez même combiner SitemapSpider avec d'autres URL comme indiqué dans la commande suivante.
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/robots.txt"]
rules = [
("/company/", "parse_company"),
]
other_urls = ["http://www.demoexample.com/contact-us"]
def start_requests(self):
requests = list(super(DemoSpider, self).start_requests())
requests += [scrapy.Request(x, self.parse_other) for x in self.other_urls]
return requests
def parse_company(self, response):
# you can scrap company here...
def parse_other(self, response):
# you can scrap other here...
La description
Lorsque vous grattez les pages Web, vous devez extraire une certaine partie de la source HTML en utilisant le mécanisme appelé selectors, réalisé en utilisant des expressions XPath ou CSS. Les sélecteurs sont basés surlxml bibliothèque, qui traite le XML et le HTML en langage Python.
Utilisez l'extrait de code suivant pour définir différents concepts de sélecteurs -
<html>
<head>
<title>My Website</title>
</head>
<body>
<span>Hello world!!!</span>
<div class = 'links'>
<a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
<a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
<a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
</div>
</body>
</html>
Construire des sélecteurs
Vous pouvez construire les instances de classe de sélecteur en passant le text ou TextResponseobjet. En fonction du type d'entrée fourni, le sélecteur choisit les règles suivantes -
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
En utilisant le code ci-dessus, vous pouvez construire à partir du texte comme -
Selector(text = body).xpath('//span/text()').extract()
Il affichera le résultat comme -
[u'Hello world!!!']
Vous pouvez construire à partir de la réponse comme -
response = HtmlResponse(url = 'http://mysite.com', body = body)
Selector(response = response).xpath('//span/text()').extract()
Il affichera le résultat comme -
[u'Hello world!!!']
Utilisation des sélecteurs
En utilisant l'extrait de code simple ci-dessus, vous pouvez construire le XPath pour sélectionner le texte qui est défini dans la balise de titre comme indiqué ci-dessous -
>>response.selector.xpath('//title/text()')
Maintenant, vous pouvez extraire les données textuelles en utilisant le .extract() méthode montrée comme suit -
>>response.xpath('//title/text()').extract()
Il produira le résultat comme -
[u'My Website']
Vous pouvez afficher le nom de tous les éléments indiqués comme suit -
>>response.xpath('//div[@class = "links"]/a/text()').extract()
Il affichera les éléments comme -
Link 1
Link 2
Link 3
Si vous souhaitez extraire le premier élément, utilisez la méthode .extract_first(), illustré comme suit -
>>response.xpath('//div[@class = "links"]/a/text()').extract_first()
Il affichera l'élément comme -
Link 1
Sélecteurs d'imbrication
À l'aide du code ci-dessus, vous pouvez imbriquer les sélecteurs pour afficher le lien de la page et la source de l'image à l'aide du .xpath() méthode, illustrée comme suit -
links = response.xpath('//a[contains(@href, "image")]')
for index, link in enumerate(links):
args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract())
print 'The link %d pointing to url %s and image %s' % args
Il affichera le résultat comme -
Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']
Sélecteurs utilisant des expressions régulières
Scrapy permet d'extraire les données à l'aide d'expressions régulières, qui utilise le .re()méthode. À partir du code HTML ci-dessus, nous allons extraire les noms d'images comme suit -
>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
La ligne ci-dessus affiche les noms des images sous la forme -
[u'Link 1',
u'Link 2',
u'Link 3']
Utilisation des XPaths relatifs
Lorsque vous travaillez avec XPaths, qui commence par le /, les sélecteurs imbriqués et XPath sont liés au chemin absolu du document et non au chemin relatif du sélecteur.
Si vous souhaitez extraire le <p> éléments, puis gagnez d'abord tous les éléments div -
>>mydiv = response.xpath('//div')
Ensuite, vous pouvez extraire tous les 'p' éléments à l'intérieur, en préfixant XPath avec un point comme .//p comme indiqué ci-dessous -
>>for p in mydiv.xpath('.//p').extract()
Utilisation des extensions EXSLT
L'EXSLT est une communauté qui émet les extensions du XSLT (Extensible Stylesheet Language Transformations) qui convertit les documents XML en documents XHTML. Vous pouvez utiliser les extensions EXSLT avec l'espace de noms enregistré dans les expressions XPath comme indiqué dans le tableau suivant -
Sr.Non | Préfixe et utilisation | Espace de noms |
---|---|---|
1 | re expressions régulières |
http://exslt.org/regexp/index.html |
2 | set manipulation d'ensemble |
http://exslt.org/set/index.html |
Vous pouvez vérifier le format de code simple pour extraire des données à l'aide d'expressions régulières dans la section précédente.
Il existe quelques astuces XPath, utiles lors de l'utilisation de XPath avec des sélecteurs Scrapy. Pour plus d'informations, cliquez sur ce lien .
La description
Le processus Scrapy peut être utilisé pour extraire les données de sources telles que des pages Web à l'aide des araignées. Utilisations ScrapyItem class pour produire la sortie dont les objets sont utilisés pour rassembler les données récupérées.
Déclaration d'éléments
Vous pouvez déclarer les éléments à l'aide de la syntaxe de définition de classe avec les objets de champ affichés comme suit -
import scrapy
class MyProducts(scrapy.Item):
productName = Field()
productLink = Field()
imageURL = Field()
price = Field()
size = Field()
Champs d'article
Les champs d'élément sont utilisés pour afficher les métadonnées de chaque champ. Comme il n'y a pas de limitation de valeurs sur les objets de champ, les clés de métadonnées accessibles ne contiennent aucune liste de référence des métadonnées. Les objets de champ sont utilisés pour spécifier toutes les métadonnées de champ et vous pouvez spécifier toute autre clé de champ selon vos besoins dans le projet. Les objets de champ sont accessibles à l'aide de l'attribut Item.fields.
Travailler avec des éléments
Certaines fonctions communes peuvent être définies lorsque vous travaillez avec les éléments. Pour plus d'informations, cliquez sur ce lien .
Extension des éléments
Les éléments peuvent être étendus en indiquant la sous-classe de l'élément d'origine. Par exemple -
class MyProductDetails(Product):
original_rate = scrapy.Field(serializer = str)
discount_rate = scrapy.Field()
Vous pouvez utiliser les métadonnées de champ existantes pour étendre les métadonnées de champ en ajoutant plus de valeurs ou en modifiant les valeurs existantes comme indiqué dans le code suivant -
class MyProductPackage(Product):
name = scrapy.Field(Product.fields['name'], serializer = serializer_demo)
Objets d'article
Les objets élément peuvent être spécifiés à l'aide de la classe suivante qui fournit le nouvel élément initialisé à partir de l'argument donné -
class scrapy.item.Item([arg])
L'élément fournit une copie du constructeur et fournit un attribut supplémentaire qui est donné par les éléments dans les champs.
Objets de champ
Les objets de champ peuvent être spécifiés à l'aide de la classe suivante dans laquelle la classe Field n'émet pas le processus ou les attributs supplémentaires -
class scrapy.item.Field([arg])
La description
Les chargeurs d'articles constituent un moyen pratique de remplir les articles extraits des sites Web.
Déclaration des chargeurs d'articles
La déclaration des chargeurs d'articles est semblable aux articles.
Par exemple -
from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join
class DemoLoader(ItemLoader):
default_output_processor = TakeFirst()
title_in = MapCompose(unicode.title)
title_out = Join()
size_in = MapCompose(unicode.strip)
# you can continue scraping here
Dans le code ci-dessus, vous pouvez voir que les processeurs d'entrée sont déclarés en utilisant _in les processeurs de suffixe et de sortie sont déclarés en utilisant _out suffixe.
le ItemLoader.default_input_processor et ItemLoader.default_output_processor Les attributs sont utilisés pour déclarer les processeurs d'entrée / sortie par défaut.
Utilisation de chargeurs d'articles pour remplir des articles
Pour utiliser le chargeur d'élément, instanciez d'abord avec un objet de type dict ou sans objet lorsque l'élément utilise la classe Item spécifiée dans ItemLoader.default_item_class attribut.
Vous pouvez utiliser des sélecteurs pour collecter des valeurs dans le chargeur d'articles.
Vous pouvez ajouter plus de valeurs dans le même champ d'élément, où le chargeur d'élément utilisera un gestionnaire approprié pour ajouter ces valeurs.
Le code suivant montre comment les éléments sont remplis à l'aide de chargeurs d'éléments -
from scrapy.loader import ItemLoader
from demoproject.items import Demo
def parse(self, response):
l = ItemLoader(item = Product(), response = response)
l.add_xpath("title", "//div[@class = 'product_title']")
l.add_xpath("title", "//div[@class = 'product_name']")
l.add_xpath("desc", "//div[@class = 'desc']")
l.add_css("size", "div#size]")
l.add_value("last_updated", "yesterday")
return l.load_item()
Comme indiqué ci-dessus, il existe deux XPaths différents à partir desquels le title le champ est extrait en utilisant add_xpath() méthode -
1. //div[@class = "product_title"]
2. //div[@class = "product_name"]
Par la suite, une demande similaire est utilisée pour descchamp. Les données de taille sont extraites à l'aide deadd_css() méthode et last_updated est rempli avec une valeur "hier" en utilisant add_value() méthode.
Une fois toutes les données collectées, appelez ItemLoader.load_item() méthode qui renvoie les éléments remplis de données extraites à l'aide de add_xpath(), add_css() et add_value() méthodes.
Processeurs d'entrée et de sortie
Chaque champ d'un Item Loader contient un processeur d'entrée et un processeur de sortie.
Lorsque les données sont extraites, le processeur d'entrée les traite et son résultat est stocké dans ItemLoader.
Ensuite, après avoir collecté les données, appelez la méthode ItemLoader.load_item () pour obtenir l'objet Item rempli.
Enfin, vous pouvez affecter le résultat du processeur de sortie à l'élément.
Le code suivant montre comment appeler des processeurs d'entrée et de sortie pour un champ spécifique -
l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css) # [3]
l.add_value("title", "demo") # [4]
return l.load_item() # [5]
Line 1 - Les données de titre sont extraites de xpath1 et passées par le processeur d'entrée et son résultat est collecté et stocké dans ItemLoader.
Line 2 - De même, le titre est extrait de xpath2 et passé par le même processeur d'entrée et son résultat est ajouté aux données collectées pour [1].
Line 3 - Le titre est extrait du sélecteur css et passé par le même processeur d'entrée et le résultat est ajouté aux données collectées pour [1] et [2].
Line 4 - Ensuite, la valeur "demo" est affectée et transmise par les processeurs d'entrée.
Line 5 - Enfin, les données sont collectées en interne à partir de tous les champs et transmises au processeur de sortie et la valeur finale est affectée à l'élément.
Déclaration des processeurs d'entrée et de sortie
Les processeurs d'entrée et de sortie sont déclarés dans la définition ItemLoader. En dehors de cela, ils peuvent également être spécifiés dans leItem Field métadonnées.
Par exemple -
import scrapy
from scrapy.loader.processors import Join, MapCompose, TakeFirst
from w3lib.html import remove_tags
def filter_size(value):
if value.isdigit():
return value
class Item(scrapy.Item):
name = scrapy.Field(
input_processor = MapCompose(remove_tags),
output_processor = Join(),
)
size = scrapy.Field(
input_processor = MapCompose(remove_tags, filter_price),
output_processor = TakeFirst(),
)
>>> from scrapy.loader import ItemLoader
>>> il = ItemLoader(item = Product())
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>'])
>>> il.add_value('size', [u'<span>100 kg</span>'])
>>> il.load_item()
Il affiche une sortie comme -
{'title': u'Hello world', 'size': u'100 kg'}
Contexte du chargeur d'articles
Le contexte du chargeur d'élément est un dict de valeurs de clé arbitraires partagées entre les processeurs d'entrée et de sortie.
Par exemple, supposons que vous ayez une fonction parse_length -
def parse_length(text, loader_context):
unit = loader_context.get('unit', 'cm')
# You can write parsing code of length here
return parsed_length
En recevant les arguments loader_context, il indique au chargeur d'éléments qu'il peut recevoir le contexte du chargeur d'éléments. Il existe plusieurs façons de modifier la valeur du contexte du chargeur d'élément -
Modifier le contexte actuel du chargeur d'élément actif -
loader = ItemLoader (product)
loader.context ["unit"] = "mm"
Sur l'instanciation du chargeur d'objets -
loader = ItemLoader(product, unit = "mm")
Sur la déclaration du chargeur d'élément pour les processeurs d'entrée / sortie qui instancie avec le contexte du chargeur d'élément -
class ProductLoader(ItemLoader):
length_out = MapCompose(parse_length, unit = "mm")
Objets ItemLoader
C'est un objet qui renvoie un nouveau chargeur d'élément pour remplir l'élément donné. Il a la classe suivante -
class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)
Le tableau suivant montre les paramètres des objets ItemLoader -
Sr.Non | Paramètre et description |
---|---|
1 | item C'est l'élément à remplir en appelant add_xpath (), add_css () ou add_value (). |
2 | selector Il est utilisé pour extraire des données de sites Web. |
3 | response Il est utilisé pour construire un sélecteur en utilisant default_selector_class. |
Le tableau suivant montre les méthodes des objets ItemLoader -
Sr.Non | Méthode et description | Exemple |
---|---|---|
1 | get_value(value, *processors, **kwargs) Par un processeur et des arguments de mots clés donnés, la valeur est traitée par la méthode get_value (). |
|
2 | add_value(field_name, value, *processors, **kwargs) Il traite la valeur et ajoute au champ où elle est d'abord passée par get_value en donnant des processeurs et des arguments de mot-clé avant de passer par le processeur d'entrée de champ. |
|
3 | replace_value(field_name, value, *processors, **kwargs) Il remplace les données collectées par une nouvelle valeur. |
|
4 | get_xpath(xpath, *processors, **kwargs) Il est utilisé pour extraire des chaînes unicode en donnant des processeurs et des arguments de mots clés en recevant XPath . |
|
5 | add_xpath(field_name, xpath, *processors, **kwargs) Il reçoit XPath dans le champ qui extrait les chaînes unicode. |
|
6 | replace_xpath(field_name, xpath, *processors, **kwargs) Il remplace les données collectées à l'aide de XPath à partir de sites. |
|
sept | get_css(css, *processors, **kwargs) Il reçoit le sélecteur CSS utilisé pour extraire les chaînes unicode. |
|
8 | add_css(field_name, css, *processors, **kwargs) Elle est similaire à la méthode add_value () à une différence près qu'elle ajoute un sélecteur CSS au champ. |
|
9 | replace_css(field_name, css, *processors, **kwargs) Il remplace les données extraites à l'aide du sélecteur CSS. |
|
dix | load_item() Lorsque les données sont collectées, cette méthode remplit l'élément avec les données collectées et les renvoie. |
|
11 | nested_xpath(xpath) Il est utilisé pour créer des chargeurs imbriqués avec un sélecteur XPath. |
|
12 | nested_css(css) Il est utilisé pour créer des chargeurs imbriqués avec un sélecteur CSS. |
|
Le tableau suivant montre les attributs des objets ItemLoader -
Sr.Non | Attribut et description |
---|---|
1 | item C'est un objet sur lequel le chargeur d'élément effectue une analyse. |
2 | context C'est le contexte actuel de Item Loader qui est actif. |
3 | default_item_class Il est utilisé pour représenter les éléments, s'ils ne sont pas donnés dans le constructeur. |
4 | default_input_processor Les champs qui ne spécifient pas de processeur d'entrée sont les seuls pour lesquels des processeurs default_input_processors sont utilisés. |
5 | default_output_processor Les champs qui ne spécifient pas le processeur de sortie sont les seuls pour lesquels default_output_processors sont utilisés. |
6 | default_selector_class C'est une classe utilisée pour construire le sélecteur, si elle n'est pas donnée dans le constructeur. |
sept | selector C'est un objet qui peut être utilisé pour extraire les données des sites. |
Chargeurs imbriqués
Il est utilisé pour créer des chargeurs imbriqués tout en analysant les valeurs de la sous-section d'un document. Si vous ne créez pas de chargeurs imbriqués, vous devez spécifier XPath ou CSS complet pour chaque valeur que vous souhaitez extraire.
Par exemple, supposons que les données sont extraites d'une page d'en-tête -
<header>
<a class = "social" href = "http://facebook.com/whatever">facebook</a>
<a class = "social" href = "http://twitter.com/whatever">twitter</a>
<a class = "email" href = "mailto:[email protected]">send mail</a>
</header>
Ensuite, vous pouvez créer un chargeur imbriqué avec sélecteur d'en-tête en ajoutant des valeurs associées à l'en-tête -
loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()
Réutilisation et extension des chargeurs d'articles
Les chargeurs d'objets sont conçus pour soulager la maintenance qui devient un problème fondamental lorsque votre projet acquiert plus d'araignées.
Par exemple, supposons qu'un site a son nom de produit entouré de trois tirets (par exemple --DVD ---). Vous pouvez supprimer ces tirets en réutilisant le chargeur d'élément de produit par défaut, si vous ne le souhaitez pas dans les noms de produit finaux, comme indiqué dans le code suivant -
from scrapy.loader.processors import MapCompose
from demoproject.ItemLoaders import DemoLoader
def strip_dashes(x):
return x.strip('-')
class SiteSpecificLoader(DemoLoader):
title_in = MapCompose(strip_dashes, DemoLoader.title_in)
Processeurs intégrés disponibles
Voici quelques-uns des processeurs intégrés couramment utilisés -
classe scrapy.loader.processors.Identity
Il renvoie la valeur d'origine sans la modifier. Par exemple -
>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']
classe scrapy.loader.processors.TakeFirst
Il renvoie la première valeur non nulle / non vide de la liste des valeurs reçues. Par exemple -
>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'
classe scrapy.loader.processors.Join (separator = u '')
Il renvoie la valeur attachée au séparateur. Le séparateur par défaut est u '' et équivaut à la fonctionu' '.join. Par exemple -
>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'
classe scrapy.loader.processors.Compose (* fonctions, ** default_loader_context)
Il est défini par un processeur où chacune de ses valeurs d'entrée est passée à la première fonction, et le résultat de cette fonction est passé à la seconde fonction et ainsi de suite, jusqu'à ce que la fonction ast renvoie la valeur finale en sortie.
Par exemple -
>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'
classe scrapy.loader.processors.MapCompose (* fonctions, ** default_loader_context)
C'est un processeur où la valeur d'entrée est itérée et la première fonction est appliquée à chaque élément. Ensuite, le résultat de ces appels de fonction est concaténé pour créer un nouvel itérable qui est ensuite appliqué à la deuxième fonction et ainsi de suite, jusqu'à la dernière fonction.
Par exemple -
>>> def filter_scrapy(x):
return None if x == 'scrapy' else x
>>> from scrapy.loader.processors import MapCompose
>>> proc = MapCompose(filter_scrapy, unicode.upper)
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy'])
[u'HI, u'IM', u'PYTHONSCRAPY']
classe scrapy.loader.processors.SelectJmes (json_path)
Cette classe interroge la valeur à l'aide du chemin json fourni et renvoie la sortie.
Par exemple -
>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}
Voici le code, qui interroge la valeur en important json -
>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']
La description
Scrapy Shell peut être utilisé pour supprimer les données avec un code sans erreur, sans utiliser d'araignée. L'objectif principal de Scrapy Shell est de tester le code extrait, XPath ou les expressions CSS. Il permet également de spécifier les pages Web à partir desquelles vous récupérez les données.
Configurer le Shell
Le shell peut être configuré en installant la console IPython (utilisée pour le calcul interactif), qui est un puissant shell interactif qui donne la complétion automatique, la sortie colorisée, etc.
Si vous travaillez sur la plate-forme Unix, il est préférable d'installer IPython. Vous pouvez également utiliser bpython , si IPython est inaccessible.
Vous pouvez configurer le shell en définissant la variable d'environnement appelée SCRAPY_PYTHON_SHELL ou en définissant le fichier scrapy.cfg comme suit -
[settings]
shell = bpython
Lancement du Shell
Scrapy Shell peut être lancé à l'aide de la commande suivante -
scrapy shell <url>
L' URL spécifie l'URL pour laquelle les données doivent être récupérées.
Utilisation du shell
Le shell fournit des raccourcis supplémentaires et des objets Scrapy comme décrit dans le tableau suivant -
Raccourcis disponibles
Shell fournit les raccourcis disponibles suivants dans le projet -
Sr.Non | Raccourci et description |
---|---|
1 | shelp() Il fournit les objets et raccourcis disponibles avec l'option d'aide. |
2 | fetch(request_or_url) Il recueille la réponse de la demande ou de l'URL et les objets associés seront mis à jour correctement. |
3 | view(response) Vous pouvez afficher la réponse pour la demande donnée dans le navigateur local pour l'observation et pour afficher correctement le lien externe, il ajoute une balise de base au corps de la réponse. |
Objets Scrapy disponibles
Shell fournit les objets Scrapy disponibles suivants dans le projet -
Sr.Non | Objet et description |
---|---|
1 | crawler Il spécifie l'objet du robot d'exploration actuel. |
2 | spider S'il n'y a pas d'araignée pour l'URL actuelle, alors il gérera l'URL ou l'objet d'araignée en définissant la nouvelle araignée. |
3 | request Il spécifie l'objet de requête pour la dernière page collectée. |
4 | response Il spécifie l'objet de réponse pour la dernière page collectée. |
5 | settings Il fournit les paramètres Scrapy actuels. |
Exemple de session Shell
Essayons de gratter le site scrapy.org, puis commençons à supprimer les données de reddit.com comme décrit.
Avant d'aller de l'avant, nous allons d'abord lancer le shell comme indiqué dans la commande suivante -
scrapy shell 'http://scrapy.org' --nolog
Scrapy affichera les objets disponibles tout en utilisant l'URL ci-dessus -
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
[s] item {}
[s] request <GET http://scrapy.org >
[s] response <200 http://scrapy.org >
[s] settings <scrapy.settings.Settings object at 0x2bfd650>
[s] spider <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s] shelp() Provides available objects and shortcuts with help option
[s] fetch(req_or_url) Collects the response from the request or URL and associated
objects will get update
[s] view(response) View the response for the given request
Ensuite, commencez par le travail des objets, comme suit -
>> response.xpath('//title/text()').extract_first()
u'Scrapy | A Fast and Powerful Scraping and Web Crawling Framework'
>> fetch("http://reddit.com")
[s] Available Scrapy objects:
[s] crawler
[s] item {}
[s] request
[s] response <200 https://www.reddit.com/>
[s] settings
[s] spider
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser
>> response.xpath('//title/text()').extract()
[u'reddit: the front page of the internet']
>> request = request.replace(method="POST")
>> fetch(request)
[s] Available Scrapy objects:
[s] crawler
...
Invocation du shell des araignées pour inspecter les réponses
Vous pouvez inspecter les réponses qui sont traitées à partir de l'araignée, uniquement si vous vous attendez à obtenir cette réponse.
Par exemple -
import scrapy
class SpiderDemo(scrapy.Spider):
name = "spiderdemo"
start_urls = [
"http://mysite.com",
"http://mysite1.org",
"http://mysite2.net",
]
def parse(self, response):
# You can inspect one specific response
if ".net" in response.url:
from scrapy.shell import inspect_response
inspect_response(response, self)
Comme indiqué dans le code ci-dessus, vous pouvez appeler le shell des araignées pour inspecter les réponses à l'aide de la fonction suivante -
scrapy.shell.inspect_response
Maintenant, lancez l'araignée, et vous obtiendrez l'écran suivant -
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
[s] Available Scrapy objects:
[s] crawler
...
>> response.url
'http://mysite2.org'
Vous pouvez examiner si le code extrait fonctionne à l'aide du code suivant -
>> response.xpath('//div[@class = "val"]')
Il affiche la sortie comme
[]
La ligne ci-dessus n'a affiché qu'une sortie vierge. Vous pouvez maintenant appeler le shell pour inspecter la réponse comme suit -
>> view(response)
Il affiche la réponse comme
True
La description
Item Pipelineest une méthode de traitement des articles mis au rebut. Lorsqu'un article est envoyé au pipeline d'articles, il est gratté par une araignée et traité à l'aide de plusieurs composants, qui sont exécutés séquentiellement.
Chaque fois qu'un objet est reçu, il décide de l'une des actions suivantes -
- Continuez à traiter l'article.
- Supprimez-le du pipeline.
- Arrêtez de traiter l'élément.
Les pipelines d'articles sont généralement utilisés aux fins suivantes -
- Stockage des éléments récupérés dans la base de données.
- Si l'élément reçu est répété, il supprimera l'élément répété.
- Il vérifiera si l'élément contient des champs ciblés.
- Effacement des données HTML.
Syntaxe
Vous pouvez écrire le pipeline d'articles en utilisant la méthode suivante -
process_item(self, item, spider)
La méthode ci-dessus contient les paramètres suivants -
- Item (objet d'élément ou dictionnaire) - Il spécifie l'élément gratté.
- spider (objet araignée) - L'araignée qui a gratté l'objet.
Vous pouvez utiliser des méthodes supplémentaires données dans le tableau suivant -
Sr.Non | Méthode et description | Paramètres |
---|---|---|
1 | open_spider(self, spider) Il est sélectionné lorsque l'araignée est ouverte. |
spider (objet araignée) - Il fait référence à l'araignée qui a été ouverte. |
2 | close_spider(self, spider) Il est sélectionné lorsque l'araignée est fermée. |
spider (objet araignée) - Il fait référence à l'araignée qui a été fermée. |
3 | from_crawler(cls, crawler) Avec l'aide du robot d'exploration, le pipeline peut accéder aux composants de base tels que les signaux et les paramètres de Scrapy. |
crawler (objet Crawler) - Il fait référence au robot qui utilise ce pipeline. |
Exemple
Voici les exemples de pipeline d'éléments utilisés dans différents concepts.
Déposer des éléments sans étiquette
Dans le code suivant, le pipeline équilibre l' attribut (price) pour les articles qui n'incluent pas la TVA (attribut excludes_vat) et ignore les articles qui n'ont pas d'étiquette de prix -
from Scrapy.exceptions import DropItem
class PricePipeline(object):
vat = 2.25
def process_item(self, item, spider):
if item['price']:
if item['excludes_vat']:
item['price'] = item['price'] * self.vat
return item
else:
raise DropItem("Missing price in %s" % item)
Ecrire des éléments dans un fichier JSON
Le code suivant stockera tous les éléments récupérés de toutes les araignées dans un seul items.jlfichier, qui contient un élément par ligne sous une forme sérialisée au format JSON. leJsonWriterPipeline La classe est utilisée dans le code pour montrer comment écrire un pipeline d'élément -
import json
class JsonWriterPipeline(object):
def __init__(self):
self.file = open('items.jl', 'wb')
def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
Ecrire des éléments dans MongoDB
Vous pouvez spécifier l'adresse MongoDB et le nom de la base de données dans les paramètres Scrapy et la collection MongoDB peut être nommée d'après la classe d'élément. Le code suivant décrit comment utiliserfrom_crawler() méthode pour collecter correctement les ressources -
import pymongo
class MongoPipeline(object):
collection_name = 'Scrapy_list'
def __init__(self, mongo_uri, mongo_db):
self.mongo_uri = mongo_uri
self.mongo_db = mongo_db
@classmethod
def from_crawler(cls, crawler):
return cls(
mongo_uri = crawler.settings.get('MONGO_URI'),
mongo_db = crawler.settings.get('MONGO_DB', 'lists')
)
def open_spider(self, spider):
self.client = pymongo.MongoClient(self.mongo_uri)
self.db = self.client[self.mongo_db]
def close_spider(self, spider):
self.client.close()
def process_item(self, item, spider):
self.db[self.collection_name].insert(dict(item))
return item
Duplication de filtres
Un filtre vérifiera les éléments répétés et supprimera les éléments déjà traités. Dans le code suivant, nous avons utilisé un identifiant unique pour nos éléments, mais spider renvoie de nombreux éléments avec le même identifiant -
from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
if item['id'] in self.ids_seen:
raise DropItem("Repeated items found: %s" % item)
else:
self.ids_seen.add(item['id'])
return item
Activation d'un pipeline d'articles
Vous pouvez activer un composant Pipeline d'articles en ajoutant sa classe au paramètre ITEM_PIPELINES comme indiqué dans le code suivant. Vous pouvez attribuer des valeurs entières aux classes dans l'ordre dans lequel elles s'exécutent (l'ordre peut être de valeur inférieure à des classes de valeur plus élevée) et les valeurs seront comprises entre 0 et 1000.
ITEM_PIPELINES = {
'myproject.pipelines.PricePipeline': 100,
'myproject.pipelines.JsonWriterPipeline': 600,
}
La description
Les exportations de flux sont une méthode de stockage des données extraites des sites, qui génère un "export file".
Formats de sérialisation
En utilisant plusieurs formats de sérialisation et backends de stockage, les exportations de flux utilisent des exportateurs d'articles et génèrent un flux avec des éléments supprimés.
Le tableau suivant montre les formats pris en charge -
Sr.Non | Format et description |
---|---|
1 | JSON FEED_FORMAT est json L'exportateur utilisé est la classe scrapy.exporters.JsonItemExporter |
2 | JSON lines FEED_FROMAT est jsonlines L'exportateur utilisé est la classe scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT est CSV L'exportateur utilisé est la classe scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT est xml L'exportateur utilisé est la classe scrapy.exporters.XmlItemExporter |
En utilisant FEED_EXPORTERS paramètres, les formats pris en charge peuvent également être étendus -
Sr.Non | Format et description |
---|---|
1 | Pickle FEED_FORMAT est pickel L'exportateur utilisé est la classe scrapy.exporters.PickleItemExporter |
2 | Marshal FEED_FORMAT est maréchal L'exportateur utilisé est la classe scrapy.exporters.MarshalItemExporter |
Backends de stockage
Le backend de stockage définit où stocker le flux à l'aide de l'URI.
Le tableau suivant montre les backends de stockage pris en charge -
Sr.Non | Backend de stockage et description |
---|---|
1 | Local filesystem Le schéma d'URI est un fichier et il est utilisé pour stocker les flux. |
2 | FTP Le schéma d'URI est ftp et il est utilisé pour stocker les flux. |
3 | S3 Le schéma d'URI est S3 et les flux sont stockés sur Amazon S3. Les bibliothèques externes botocore ou boto sont requises. |
4 | Standard output Le schéma d'URI est stdout et les flux sont stockés dans la sortie standard. |
Paramètres d'URI de stockage
Voici les paramètres de l'URL de stockage, qui est remplacée lors de la création du flux -
- % (time) s: ce paramètre est remplacé par un horodatage.
- % (nom) s: ce paramètre est remplacé par le nom de l'araignée.
Réglages
Le tableau suivant montre les paramètres à l'aide desquels les exportations de flux peuvent être configurées -
Sr.Non | Réglage et description |
---|---|
1 | FEED_URI Il s'agit de l'URI du flux d'exportation utilisé pour activer les exportations de flux. |
2 | FEED_FORMAT Il s'agit d'un format de sérialisation utilisé pour le flux. |
3 | FEED_EXPORT_FIELDS Il est utilisé pour définir les champs qui doivent être exportés. |
4 | FEED_STORE_EMPTY Il définit s'il faut exporter les flux sans éléments. |
5 | FEED_STORAGES C'est un dictionnaire avec des backends de stockage de flux supplémentaires. |
6 | FEED_STORAGES_BASE Il s'agit d'un dictionnaire avec des backends de stockage de flux intégrés. |
sept | FEED_EXPORTERS C'est un dictionnaire avec des exportateurs de flux supplémentaires. |
8 | FEED_EXPORTERS_BASE C'est un dictionnaire avec des exportateurs de flux intégrés. |
La description
Scrapy peut explorer des sites Web à l'aide du Request et Responseobjets. Les objets de requête passent sur le système, utilisent les spiders pour exécuter la requête et reviennent à la requête quand il renvoie un objet de réponse.
Objets de demande
L'objet de requête est une requête HTTP qui génère une réponse. Il a la classe suivante -
class scrapy.http.Request(url[, callback, method = 'GET', headers, body, cookies, meta,
encoding = 'utf-8', priority = 0, dont_filter = False, errback])
Le tableau suivant montre les paramètres des objets Request -
Sr.Non | Paramètre et description |
---|---|
1 | url C'est une chaîne qui spécifie la demande d'URL. |
2 | callback C'est une fonction appelable qui utilise la réponse de la requête comme premier paramètre. |
3 | method C'est une chaîne qui spécifie la demande de méthode HTTP. |
4 | headers C'est un dictionnaire avec des en-têtes de requête. |
5 | body C'est une chaîne ou unicode qui a un corps de requête. |
6 | cookies C'est une liste contenant des cookies de demande. |
sept | meta C'est un dictionnaire qui contient les valeurs des métadonnées de la demande. |
8 | encoding C'est une chaîne contenant le codage utf-8 utilisé pour coder l'URL. |
9 | priority Il s'agit d'un entier où le planificateur utilise la priorité pour définir l'ordre de traitement des demandes. |
dix | dont_filter C'est un booléen spécifiant que le planificateur ne doit pas filtrer la requête. |
11 | errback C'est une fonction appelable à appeler lorsqu'une exception lors du traitement d'une requête est déclenchée. |
Transmission de données supplémentaires aux fonctions de rappel
La fonction de rappel d'une requête est appelée lorsque la réponse est téléchargée en tant que premier paramètre.
Par exemple -
def parse_page1(self, response):
return scrapy.Request("http://www.something.com/some_page.html",
callback = self.parse_page2)
def parse_page2(self, response):
self.logger.info("%s page visited", response.url)
Vous pouvez utiliser Request.meta attribut, si vous souhaitez passer des arguments aux fonctions appelables et recevoir ces arguments dans le deuxième rappel, comme indiqué dans l'exemple suivant -
def parse_page1(self, response):
item = DemoItem()
item['foremost_link'] = response.url
request = scrapy.Request("http://www.something.com/some_page.html",
callback = self.parse_page2)
request.meta['item'] = item
return request
def parse_page2(self, response):
item = response.meta['item']
item['other_link'] = response.url
return item
Utilisation des erreurs pour intercepter les exceptions dans le traitement des demandes
L'errback est une fonction appelable à appeler lorsqu'une exception lors du traitement d'une requête est déclenchée.
L'exemple suivant illustre ceci -
import scrapy
from scrapy.spidermiddlewares.httperror import HttpError
from twisted.internet.error import DNSLookupError
from twisted.internet.error import TimeoutError, TCPTimedOutError
class DemoSpider(scrapy.Spider):
name = "demo"
start_urls = [
"http://www.httpbin.org/", # HTTP 200 expected
"http://www.httpbin.org/status/404", # Webpage not found
"http://www.httpbin.org/status/500", # Internal server error
"http://www.httpbin.org:12345/", # timeout expected
"http://www.httphttpbinbin.org/", # DNS error expected
]
def start_requests(self):
for u in self.start_urls:
yield scrapy.Request(u, callback = self.parse_httpbin,
errback = self.errback_httpbin,
dont_filter=True)
def parse_httpbin(self, response):
self.logger.info('Recieved response from {}'.format(response.url))
# ...
def errback_httpbin(self, failure):
# logs failures
self.logger.error(repr(failure))
if failure.check(HttpError):
response = failure.value.response
self.logger.error("HttpError occurred on %s", response.url)
elif failure.check(DNSLookupError):
request = failure.request
self.logger.error("DNSLookupError occurred on %s", request.url)
elif failure.check(TimeoutError, TCPTimedOutError):
request = failure.request
self.logger.error("TimeoutError occurred on %s", request.url)
Request.meta Clés spéciales
Les clés spéciales request.meta sont une liste de clés méta spéciales identifiées par Scrapy.
Le tableau suivant montre certaines des clés de Request.meta -
Sr.Non | Clé et description |
---|---|
1 | dont_redirect C'est une clé lorsqu'elle est définie sur true, ne redirige pas la demande en fonction de l'état de la réponse. |
2 | dont_retry Il s'agit d'une clé lorsqu'elle est définie sur true, ne réessaye pas les demandes ayant échoué et sera ignorée par le middleware. |
3 | handle_httpstatus_list C'est une clé qui définit quels codes de réponse par requête peuvent être autorisés. |
4 | handle_httpstatus_all C'est une clé utilisée pour autoriser n'importe quel code de réponse pour une demande en le définissant sur true . |
5 | dont_merge_cookies C'est une clé utilisée pour éviter de fusionner avec les cookies existants en la définissant sur true . |
6 | cookiejar C'est une clé utilisée pour conserver plusieurs sessions de cookies par araignée. |
sept | dont_cache C'est une clé utilisée pour éviter de mettre en cache les requêtes et réponses HTTP sur chaque stratégie. |
8 | redirect_urls C'est une clé qui contient les URL à travers lesquelles les requêtes passent. |
9 | bindaddress C'est l'adresse IP de l'adresse IP sortante qui peut être utilisée pour exécuter la requête. |
dix | dont_obey_robotstxt C'est une clé lorsqu'elle est définie sur true, ne filtre pas les requêtes interdites par la norme d'exclusion robots.txt, même si ROBOTSTXT_OBEY est activé. |
11 | download_timeout Il est utilisé pour définir le délai d'expiration (en secondes) par spider pendant lequel le téléchargeur attendra avant qu'il expire. |
12 | download_maxsize Il est utilisé pour définir la taille maximale (en octets) par spider, que le téléchargeur téléchargera. |
13 | proxy Le proxy peut être défini pour les objets Request afin de définir le proxy HTTP pour l'utilisation des requêtes. |
Demander des sous-classes
Vous pouvez implémenter votre propre fonctionnalité personnalisée en sous-classant la classe de demande. Les sous-classes de requêtes intégrées sont les suivantes:
Objets FormRequest
La classe FormRequest traite les formulaires HTML en étendant la requête de base. Il a la classe suivante -
class scrapy.http.FormRequest(url[,formdata, callback, method = 'GET', headers, body,
cookies, meta, encoding = 'utf-8', priority = 0, dont_filter = False, errback])
Voici le paramètre -
formdata - Il s'agit d'un dictionnaire contenant des données de formulaire HTML qui sont affectées au corps de la requête.
Note - Les paramètres restants sont les mêmes que la classe de requête et sont expliqués dans Request Objects section.
Les méthodes de classe suivantes sont prises en charge par FormRequest objets en plus des méthodes de requête -
classmethod from_response(response[, formname = None, formnumber = 0, formdata = None,
formxpath = None, formcss = None, clickdata = None, dont_click = False, ...])
Le tableau suivant montre les paramètres de la classe ci-dessus -
Sr.Non | Paramètre et description |
---|---|
1 | response Il s'agit d'un objet utilisé pour pré-remplir les champs du formulaire à l'aide du formulaire de réponse HTML. |
2 | formname C'est une chaîne où la forme ayant l'attribut de nom sera utilisée, si elle est spécifiée. |
3 | formnumber Il s'agit d'un entier de formulaires à utiliser lorsqu'il y a plusieurs formulaires dans la réponse. |
4 | formdata Il s'agit d'un dictionnaire de champs dans les données de formulaire utilisé pour remplacer. |
5 | formxpath C'est une chaîne lorsqu'elle est spécifiée, la forme correspondant à xpath est utilisée. |
6 | formcss C'est une chaîne lorsqu'elle est spécifiée, la forme correspondant au sélecteur css est utilisée. |
sept | clickdata C'est un dictionnaire d'attributs utilisé pour observer le champ cliqué. |
8 | dont_click Les données du formulaire seront soumises sans cliquer sur aucun élément, lorsqu'il est défini sur true. |
Exemples
Voici quelques exemples d'utilisation des requêtes -
Using FormRequest to send data via HTTP POST
Le code suivant montre comment retourner FormRequest objet lorsque vous souhaitez dupliquer le formulaire HTML POST dans votre spider -
return [FormRequest(url = "http://www.something.com/post/action",
formdata = {'firstname': 'John', 'lastname': 'dave'},
callback = self.after_post)]
Using FormRequest.from_response() to simulate a user login
Normalement, les sites Web utilisent des éléments à travers lesquels ils fournissent des champs de formulaire pré-remplis.
le FormRequest.form_response() peut être utilisée lorsque vous souhaitez que ces champs soient automatiquement renseignés lors du scraping.
L'exemple suivant illustre cela.
import scrapy
class DemoSpider(scrapy.Spider):
name = 'demo'
start_urls = ['http://www.something.com/users/login.php']
def parse(self, response):
return scrapy.FormRequest.from_response(
response,
formdata = {'username': 'admin', 'password': 'confidential'},
callback = self.after_login
)
def after_login(self, response):
if "authentication failed" in response.body:
self.logger.error("Login failed")
return
# You can continue scraping here
Objets de réponse
Il s'agit d'un objet indiquant la réponse HTTP qui est transmise aux araignées à traiter. Il a la classe suivante -
class scrapy.http.Response(url[, status = 200, headers, body, flags])
Le tableau suivant présente les paramètres des objets Response -
Sr.Non | Paramètre et description |
---|---|
1 | url C'est une chaîne qui spécifie la réponse URL. |
2 | status C'est un entier qui contient une réponse d'état HTTP. |
3 | headers C'est un dictionnaire contenant des en-têtes de réponse. |
4 | body C'est une chaîne avec un corps de réponse. |
5 | flags C'est une liste contenant des indicateurs de réponse. |
Sous-classes de réponse
Vous pouvez implémenter votre propre fonctionnalité personnalisée en sous-classant la classe de réponse. Les sous-classes de réponse intégrées sont les suivantes:
TextResponse objects
Les objets TextResponse sont utilisés pour des données binaires telles que des images, des sons, etc. qui ont la capacité d'encoder la classe Response de base. Il a la classe suivante -
class scrapy.http.TextResponse(url[, encoding[,status = 200, headers, body, flags]])
Voici le paramètre -
encoding - C'est une chaîne avec encodage qui est utilisée pour encoder une réponse.
Note - Les paramètres restants sont identiques à la classe de réponse et sont expliqués dans Response Objects section.
Le tableau suivant montre les attributs pris en charge par l'objet TextResponse en plus des méthodes de réponse -
Sr.Non | Attribut et description |
---|---|
1 | text Il s'agit d'un corps de réponse, où response.text est accessible plusieurs fois. |
2 | encoding C'est une chaîne contenant le codage de la réponse. |
3 | selector Il s'agit d'un attribut instancié au premier accès et utilise la réponse comme cible. |
Le tableau suivant montre les méthodes prises en charge par les objets TextResponse en plus des méthodes de réponse -
Sr.Non | Méthode et description |
---|---|
1 | xpath (query) C'est un raccourci vers TextResponse.selector.xpath (requête). |
2 | css (query) C'est un raccourci vers TextResponse.selector.css (requête). |
3 | body_as_unicode() Il s'agit d'un corps de réponse disponible en tant que méthode, où response.text est accessible plusieurs fois. |
Objets HtmlResponse
C'est un objet qui prend en charge l'encodage et la découverte automatique en regardant l' attribut meta httpequiv du HTML. Ses paramètres sont les mêmes que ceux de la classe de réponse et sont expliqués dans la section Objets de réponse. Il a la classe suivante -
class scrapy.http.HtmlResponse(url[,status = 200, headers, body, flags])
Objets XmlResponse
C'est un objet qui prend en charge le codage et la détection automatique en regardant la ligne XML. Ses paramètres sont les mêmes que ceux de la classe de réponse et sont expliqués dans la section Objets de réponse. Il a la classe suivante -
class scrapy.http.XmlResponse(url[, status = 200, headers, body, flags])
La description
Comme son nom l'indique, les extracteurs de liens sont les objets utilisés pour extraire des liens de pages Web à l'aide de scrapy.http.Responseobjets. Dans Scrapy, il existe des extracteurs intégrés tels quescrapy.linkextractors importer LinkExtractor. Vous pouvez personnaliser votre propre extracteur de lien en fonction de vos besoins en implémentant une interface simple.
Chaque extracteur de lien a une méthode publique appelée extract_linksqui inclut un objet Response et renvoie une liste d'objets scrapy.link.Link. Vous ne pouvez instancier les extracteurs de liens qu'une seule fois et appeler la méthode extract_links plusieurs fois pour extraire des liens avec des réponses différentes. La CrawlSpiderclass utilise des extracteurs de liens avec un ensemble de règles dont le but principal est d'extraire des liens.
Référence de l'extracteur de lien intégré
Normalement, les extracteurs de liens sont regroupés avec Scrapy et sont fournis dans le module scrapy.linkextractors. Par défaut, l'extracteur de lien sera LinkExtractor qui est égal en fonctionnalité avec LxmlLinkExtractor -
from scrapy.linkextractors import LinkExtractor
LxmlLinkExtractor
class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow = (), deny = (),
allow_domains = (), deny_domains = (), deny_extensions = None, restrict_xpaths = (),
restrict_css = (), tags = ('a', 'area'), attrs = ('href', ),
canonicalize = True, unique = True, process_value = None)
Le LxmlLinkExtractor est un extracteur de lien fortement recommandé, car il a des options de filtrage à portée de main et il est utilisé avec HTMLParser robuste lxml.
Sr.Non | Paramètre et description |
---|---|
1 | allow (une expression régulière (ou une liste de)) Il autorise une seule expression ou un groupe d'expressions qui doit correspondre à l'url à extraire. S'il n'est pas mentionné, il correspondra à tous les liens. |
2 | deny (une expression régulière (ou une liste de)) Il bloque ou exclut une seule expression ou un groupe d'expressions qui doivent correspondre à l'url qui ne doit pas être extraite. S'il n'est pas mentionné ou laissé vide, il n'éliminera pas les liens indésirables. |
3 | allow_domains (chaîne ou liste) Il permet une seule chaîne ou une liste de chaînes qui doivent correspondre aux domaines à partir desquels les liens doivent être extraits. |
4 | deny_domains (chaîne ou liste) Il bloque ou exclut une seule chaîne ou une liste de chaînes qui doivent correspondre aux domaines dont les liens ne doivent pas être extraits. |
5 | deny_extensions (liste) Il bloque la liste des chaînes avec les extensions lors de l'extraction des liens. S'il n'est pas défini, il sera défini par défaut sur IGNORED_EXTENSIONS qui contient une liste prédéfinie dans le package scrapy.linkextractors . |
6 | restrict_xpaths (chaîne ou liste) Il s'agit d'une région de liste XPath à partir de laquelle les liens doivent être extraits de la réponse. S'ils sont donnés, les liens seront extraits uniquement du texte, qui est sélectionné par XPath. |
sept | restrict_css (chaîne ou liste) Il se comporte de manière similaire au paramètre restrict_xpaths qui extraira les liens des régions CSS sélectionnées à l'intérieur de la réponse. |
8 | tags (chaîne ou liste) Une seule balise ou une liste de balises à prendre en compte lors de l'extraction des liens. Par défaut, ce sera ('a', 'area'). |
9 | attrs (liste) Un seul attribut ou une liste d'attributs doit être pris en compte lors de l'extraction des liens. Par défaut, ce sera ('href',). |
dix | canonicalize (booléen) L'URL extraite est mise au format standard en utilisant scrapy.utils.url.canonicalize_url . Par défaut, ce sera True. |
11 | unique (booléen) Il sera utilisé si les liens extraits sont répétés. |
12 | process_value (appelable) C'est une fonction qui reçoit une valeur des balises et attributs scannés. La valeur reçue peut être modifiée et retournée sinon rien ne sera retourné pour rejeter le lien. S'il n'est pas utilisé, il sera par défaut lambda x: x. |
Exemple
Le code suivant est utilisé pour extraire les liens -
<a href = "javascript:goToPage('../other/page.html'); return false">Link text</a>
La fonction de code suivante peut être utilisée dans process_value -
def process_value(val):
m = re.search("javascript:goToPage\('(.*?)'", val)
if m:
return m.group(1)
La description
Le comportement des composants Scrapy peut être modifié à l'aide des paramètres Scrapy. Les paramètres peuvent également sélectionner le projet Scrapy actuellement actif, au cas où vous auriez plusieurs projets Scrapy.
Désignation des paramètres
Vous devez informer Scrapy du paramètre que vous utilisez lorsque vous supprimez un site Web. Pour cela, variable d'environnementSCRAPY_SETTINGS_MODULE doit être utilisé et sa valeur doit être dans la syntaxe de chemin Python.
Remplir les paramètres
Le tableau suivant montre certains des mécanismes par lesquels vous pouvez renseigner les paramètres -
Sr.Non | Mécanisme et description |
---|---|
1 | Command line options Ici, les arguments passés ont la priorité la plus élevée en remplaçant les autres options. Le -s est utilisé pour remplacer un ou plusieurs paramètres. |
2 | Settings per-spider Les araignées peuvent avoir leurs propres paramètres qui remplacent ceux du projet en utilisant l'attribut custom_settings. |
3 | Project settings module Ici, vous pouvez renseigner vos paramètres personnalisés tels que l'ajout ou la modification des paramètres dans le fichier settings.py. |
4 | Default settings per-command Chaque commande de l'outil Scrapy définit ses propres paramètres dans l'attribut default_settings, pour remplacer les paramètres par défaut globaux. |
5 | Default global settings Ces paramètres se trouvent dans le module scrapy.settings.default_settings. |
Paramètres d'accès
Ils sont disponibles via self.settings et définis dans l'araignée de base après son initialisation.
L'exemple suivant illustre cela.
class DemoSpider(scrapy.Spider):
name = 'demo'
start_urls = ['http://example.com']
def parse(self, response):
print("Existing settings: %s" % self.settings.attributes.keys())
Pour utiliser les paramètres avant d'initialiser l'araignée, vous devez remplacer la méthode from_crawler dans la méthode _init_ () de votre spider. Vous pouvez accéder aux paramètres via l'attribut scrapy.crawler.Crawler.settings transmis à la méthode from_crawler .
L'exemple suivant illustre cela.
class MyExtension(object):
def __init__(self, log_is_enabled = False):
if log_is_enabled:
print("Enabled log")
@classmethod
def from_crawler(cls, crawler):
settings = crawler.settings
return cls(settings.getbool('LOG_ENABLED'))
Justification de la définition des noms
Les noms de paramètres sont ajoutés en tant que préfixe au composant qu'ils configurent. Par exemple, pour l'extension robots.txt, les noms des paramètres peuvent être ROBOTSTXT_ENABLED, ROBOTSTXT_OBEY, ROBOTSTXT_CACHEDIR, etc.
Référence des paramètres intégrés
Le tableau suivant montre les paramètres intégrés de Scrapy -
Sr.Non | Réglage et description |
---|---|
1 | AWS_ACCESS_KEY_ID Il est utilisé pour accéder à Amazon Web Services. Valeur par défaut: aucune |
2 | AWS_SECRET_ACCESS_KEY Il est utilisé pour accéder à Amazon Web Services. Valeur par défaut: aucune |
3 | BOT_NAME C'est le nom du bot qui peut être utilisé pour construire User-Agent. Valeur par défaut: 'scrapybot' |
4 | CONCURRENT_ITEMS Nombre maximum d'éléments existants dans le processeur d'éléments utilisés pour traiter en parallèle. Valeur par défaut: 100 |
5 | CONCURRENT_REQUESTS Nombre maximum de requêtes existantes effectuées par le téléchargeur Scrapy. Valeur par défaut: 16 |
6 | CONCURRENT_REQUESTS_PER_DOMAIN Nombre maximum de demandes existantes qui s'exécutent simultanément pour un seul domaine. Valeur par défaut: 8 |
sept | CONCURRENT_REQUESTS_PER_IP Nombre maximum de demandes existantes qui s'exécutent simultanément sur une seule adresse IP. Valeur par défaut: 0 |
8 | DEFAULT_ITEM_CLASS C'est une classe utilisée pour représenter des éléments. Valeur par défaut: 'scrapy.item.Item' |
9 | DEFAULT_REQUEST_HEADERS C'est un en-tête par défaut utilisé pour les requêtes HTTP de Scrapy. Valeur par défaut - |
dix | DEPTH_LIMIT La profondeur maximale pour qu'une araignée explore n'importe quel site. Valeur par défaut: 0 |
11 | DEPTH_PRIORITY C'est un entier utilisé pour modifier la priorité de la requête en fonction de la profondeur. Valeur par défaut: 0 |
12 | DEPTH_STATS Il indique s'il faut collecter des statistiques de profondeur ou non. Valeur par défaut: True |
13 | DEPTH_STATS_VERBOSE Ce paramètre, lorsqu'il est activé, le nombre de requêtes est collecté dans les statistiques pour chaque profondeur détaillée. Valeur par défaut: False |
14 | DNSCACHE_ENABLED Il est utilisé pour activer DNS dans le cache mémoire. Valeur par défaut: True |
15 | DNSCACHE_SIZE Il définit la taille du DNS dans le cache mémoire. Valeur par défaut: 10000 |
16 | DNS_TIMEOUT Il est utilisé pour définir le délai d'expiration du DNS pour traiter les requêtes. Valeur par défaut: 60 |
17 | DOWNLOADER Il s'agit d'un téléchargeur utilisé pour le processus d'exploration. Valeur par défaut: 'scrapy.core.downloader.Downloader' |
18 | DOWNLOADER_MIDDLEWARES Il s'agit d'un dictionnaire contenant les intergiciels de téléchargement et leurs commandes. Valeur par défaut: {} |
19 | DOWNLOADER_MIDDLEWARES_BASE Il s'agit d'un dictionnaire contenant un middleware de téléchargement qui est activé par défaut. Valeur par défaut - |
20 | DOWNLOADER_STATS Ce paramètre est utilisé pour activer les statistiques du téléchargeur. Valeur par défaut: True |
21 | DOWNLOAD_DELAY Il définit la durée totale du téléchargeur avant de télécharger les pages du site. Valeur par défaut: 0 |
22 | DOWNLOAD_HANDLERS C'est un dictionnaire avec des gestionnaires de téléchargement. Valeur par défaut: {} |
23 | DOWNLOAD_HANDLERS_BASE C'est un dictionnaire avec des gestionnaires de téléchargement qui est activé par défaut. Valeur par défaut - |
24 | DOWNLOAD_TIMEOUT C'est le temps total que le téléchargeur doit attendre avant d'expirer. Valeur par défaut: 180 |
25 | DOWNLOAD_MAXSIZE Il s'agit de la taille maximale de réponse à télécharger par le téléchargeur. Valeur par défaut: 1073741824 (1024 Mo) |
26 | DOWNLOAD_WARNSIZE Il définit la taille de la réponse que le téléchargeur doit avertir. Valeur par défaut: 33554432 (32 Mo) |
27 | DUPEFILTER_CLASS Il s'agit d'une classe utilisée pour détecter et filtrer les demandes en double. Valeur par défaut: 'scrapy.dupefilters.RFPDupeFilter' |
28 | DUPEFILTER_DEBUG Ce paramètre enregistre tous les filtres en double lorsqu'il est défini sur true. Valeur par défaut: False |
29 | EDITOR Il est utilisé pour éditer les araignées en utilisant la commande d'édition. Valeur par défaut: dépend de l'environnement |
30 | EXTENSIONS C'est un dictionnaire dont les extensions sont activées dans le projet. Valeur par défaut: {} |
31 | EXTENSIONS_BASE C'est un dictionnaire avec des extensions intégrées. Valeur par défaut: {'scrapy.extensions.corestats.CoreStats': 0,} |
32 | FEED_TEMPDIR Il s'agit d'un répertoire utilisé pour définir le dossier personnalisé dans lequel les fichiers temporaires du robot peuvent être stockés. |
33 | ITEM_PIPELINES C'est un dictionnaire avec des pipelines. Valeur par défaut: {} |
34 | LOG_ENABLED Il définit si la journalisation doit être activée. Valeur par défaut: True |
35 | LOG_ENCODING Il définit le type de codage à utiliser pour la journalisation. Valeur par défaut: 'utf-8' |
36 | LOG_FILE C'est le nom du fichier à utiliser pour la sortie de la journalisation. Valeur par défaut: aucune |
37 | LOG_FORMAT C'est une chaîne à l'aide de laquelle les messages du journal peuvent être formatés. Valeur par défaut: '% (asctime) s [% (name) s]% (levelname) s:% (message) s' |
38 | LOG_DATEFORMAT C'est une chaîne utilisant quelle date / heure peut être formatée. Valeur par défaut: '% Y-% m-% d% H:% M:% S' |
39 | LOG_LEVEL Il définit le niveau de journalisation minimum. Valeur par défaut: 'DEBUG' |
40 | LOG_STDOUT Ce paramètre s'il est défini sur true, toute la sortie de votre processus apparaîtra dans le journal. Valeur par défaut: False |
41 | MEMDEBUG_ENABLED Il définit si le débogage de la mémoire doit être activé. Valeur par défaut: False |
42 | MEMDEBUG_NOTIFY Il définit le rapport de mémoire qui est envoyé à une adresse particulière lorsque le débogage de la mémoire est activé. Valeur par défaut: [] |
43 | MEMUSAGE_ENABLED Il définit si l'utilisation de la mémoire doit être activée lorsqu'un processus Scrapy dépasse une limite de mémoire. Valeur par défaut: False |
44 | MEMUSAGE_LIMIT_MB Il définit la limite maximale de la mémoire (en mégaoctets) à autoriser. Valeur par défaut: 0 |
45 | MEMUSAGE_CHECK_INTERVAL_SECONDS Il est utilisé pour vérifier l'utilisation actuelle de la mémoire en définissant la longueur des intervalles. Valeur par défaut: 60,0 |
46 | MEMUSAGE_NOTIFY_MAIL Il est utilisé pour notifier avec une liste de courriels lorsque la mémoire atteint la limite. Valeur par défaut: False |
47 | MEMUSAGE_REPORT Il définit si le rapport d'utilisation de la mémoire doit être envoyé à la fermeture de chaque spider. Valeur par défaut: False |
48 | MEMUSAGE_WARNING_MB Il définit une mémoire totale à autoriser avant l'envoi d'un avertissement. Valeur par défaut: 0 |
49 | NEWSPIDER_MODULE C'est un module dans lequel un nouveau spider est créé à l'aide de la commande genspider. Valeur par défaut: '' |
50 | RANDOMIZE_DOWNLOAD_DELAY Il définit un laps de temps aléatoire pendant lequel un Scrapy attend pendant le téléchargement des demandes depuis le site. Valeur par défaut: True |
51 | REACTOR_THREADPOOL_MAXSIZE Il définit une taille maximale pour le threadpool du réacteur. Valeur par défaut: 10 |
52 | REDIRECT_MAX_TIMES Il définit combien de fois une demande peut être redirigée. Valeur par défaut: 20 |
53 | REDIRECT_PRIORITY_ADJUST Ce paramètre, lorsqu'il est défini, ajuste la priorité de redirection d'une demande. Valeur par défaut: +2 |
54 | RETRY_PRIORITY_ADJUST Ce paramètre, lorsqu'il est défini, ajuste la priorité de nouvelle tentative d'une demande. Valeur par défaut: -1 |
55 | ROBOTSTXT_OBEY Scrapy obéit aux règles du fichier robots.txt lorsqu'il est défini sur true . Valeur par défaut: False |
56 | SCHEDULER Il définit le planificateur à utiliser à des fins d'analyse. Valeur par défaut: 'scrapy.core.scheduler.Scheduler' |
57 | SPIDER_CONTRACTS C'est un dictionnaire dans le projet ayant des contrats d'araignées pour tester les araignées. Valeur par défaut: {} |
58 | SPIDER_CONTRACTS_BASE C'est un dictionnaire contenant des contrats Scrapy qui est activé par défaut dans Scrapy. Valeur par défaut - |
59 | SPIDER_LOADER_CLASS Il définit une classe qui implémente l' API SpiderLoader pour charger les spiders. Valeur par défaut: 'scrapy.spiderloader.SpiderLoader' |
60 | SPIDER_MIDDLEWARES C'est un dictionnaire contenant des middlewares d'araignée. Valeur par défaut: {} |
61 | SPIDER_MIDDLEWARES_BASE C'est un dictionnaire contenant des middlewares d'araignée qui est activé par défaut dans Scrapy. Valeur par défaut - |
62 | SPIDER_MODULES C'est une liste de modules contenant des araignées que Scrapy recherchera. Valeur par défaut: [] |
63 | STATS_CLASS C'est une classe qui implémente l' API Stats Collector pour collecter des statistiques. Valeur par défaut: 'scrapy.statscollectors.MemoryStatsCollector' |
64 | STATS_DUMP Ce paramètre, lorsqu'il est défini sur true, vide les statistiques dans le journal. Valeur par défaut: True |
65 | STATSMAILER_RCPTS Une fois que les araignées ont fini de gratter, Scrapy utilise ce paramètre pour envoyer les statistiques. Valeur par défaut: [] |
66 | TELNETCONSOLE_ENABLED Il définit s'il faut activer la console telnet. Valeur par défaut: True |
67 | TELNETCONSOLE_PORT Il définit un port pour la console telnet. Valeur par défaut: [6023, 6073] |
68 | TEMPLATES_DIR Il s'agit d'un répertoire contenant des modèles pouvant être utilisés lors de la création de nouveaux projets. Valeur par défaut: répertoire des modèles dans le module scrapy |
69 | URLLENGTH_LIMIT Il définit la limite maximale de la longueur d'URL à autoriser pour les URL explorées. Valeur par défaut: 2083 |
70 | USER_AGENT Il définit l'agent utilisateur à utiliser lors de l'exploration d'un site. Valeur par défaut: "Scrapy / VERSION (+ http: //scrapy.org)" |
Pour les autres paramètres Scrapy, accédez à ce lien .
La description
Les événements irréguliers sont appelés exceptions. Dans Scrapy, des exceptions sont déclenchées pour des raisons telles qu'une configuration manquante, la suppression d'un élément du pipeline d'éléments, etc. Voici la liste des exceptions mentionnées dans Scrapy et leur application.
Lacher un objet
Le pipeline d'articles utilise cette exception pour arrêter le traitement de l'article à tout moment. Il peut s'écrire -
exception (scrapy.exceptions.DropItem)
FermerSpider
Cette exception est utilisée pour arrêter l'araignée à l'aide de la demande de rappel. Il peut s'écrire -
exception (scrapy.exceptions.CloseSpider)(reason = 'cancelled')
Il contient le paramètre appelé reason (str) qui spécifie la raison de la fermeture.
Par exemple, le code suivant montre cette utilisation d'exception -
def parse_page(self, response):
if 'Bandwidth exceeded' in response.body:
raise CloseSpider('bandwidth_exceeded')
IgnorerRequest
Cette exception est utilisée par le programmateur ou le middleware du téléchargeur pour ignorer une requête. Il peut s'écrire -
exception (scrapy.exceptions.IgnoreRequest)
Pas configuré
Il indique une situation de configuration manquante et doit être déclenché dans un constructeur de composant.
exception (scrapy.exceptions.NotConfigured)
Cette exception peut être déclenchée si l'un des composants suivants est désactivé.
- Extensions
- Pipelines d'articles
- Middlewares de téléchargement
- Middlewares d'araignée
Non supporté
Cette exception est déclenchée lorsqu'une fonctionnalité ou une méthode n'est pas prise en charge. Il peut s'écrire -
exception (scrapy.exceptions.NotSupported)
La description
Pour supprimer les données des pages Web, vous devez d'abord créer le projet Scrapy dans lequel vous stockerez le code. Pour créer un nouveau répertoire, exécutez la commande suivante -
scrapy startproject first_scrapy
Le code ci-dessus créera un répertoire avec le nom first_scrapy et il contiendra la structure suivante -
first_scrapy/
scrapy.cfg # deploy configuration file
first_scrapy/ # project's Python module, you'll import your code from here
__init__.py
items.py # project items file
pipelines.py # project pipelines file
settings.py # project settings file
spiders/ # a directory where you'll later put your spiders
__init__.py
La description
Les éléments sont les conteneurs utilisés pour collecter les données supprimées des sites Web. Vous devez démarrer votre araignée en définissant votre objet. Pour définir des éléments, modifiezitems.py fichier trouvé sous le répertoire first_scrapy(répertoire personnalisé). Le items.py ressemble à ce qui suit -
import scrapy
class First_scrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
La classe MyItem hérite de Item contenant un certain nombre d'objets prédéfinis que Scrapy a déjà construits pour nous. Par exemple, si vous souhaitez extraire le nom, l'URL et la description des sites, vous devez définir les champs pour chacun de ces trois attributs.
Par conséquent, ajoutons les éléments que nous voulons collecter -
from scrapy.item import Item, Field
class First_scrapyItem(scrapy.Item):
name = scrapy.Field()
url = scrapy.Field()
desc = scrapy.Field()
La description
Spider est une classe qui définit l'URL initiale à partir de laquelle extraire les données, comment suivre les liens de pagination et comment extraire et analyser les champs définis dans le items.py. Scrapy fournit différents types d'araignées dont chacun donne un but spécifique.
Créez un fichier appelé "first_spider.py"sous le répertoire first_scrapy / spiders, où nous pouvons dire à Scrapy comment trouver les données exactes que nous recherchons. Pour cela, vous devez définir certains attributs -
name - Il définit le nom unique de l'araignée.
allowed_domains - Il contient les URL de base que l'araignée doit explorer.
start-urls - Une liste d'URL à partir desquelles l'araignée commence à explorer.
parse() - C'est une méthode qui extrait et analyse les données grattées.
Le code suivant montre à quoi ressemble un code d'araignée -
import scrapy
class firstSpider(scrapy.Spider):
name = "first"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
La description
Pour exécuter votre spider, exécutez la commande suivante dans votre répertoire first_scrapy -
scrapy crawl first
Où, first est le nom de l'araignée spécifié lors de la création de l'araignée.
Une fois que l'araignée parcourt, vous pouvez voir la sortie suivante -
2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)
Comme vous pouvez le voir dans la sortie, pour chaque URL, il y a une ligne de journal qui (référent: Aucun) indique que les URL sont des URL de démarrage et qu'elles n'ont pas de référents. Ensuite, vous devriez voir deux nouveaux fichiers nommés Books.html et Resources.html sont créés dans votre répertoire first_scrapy .
La description
Pour extraire des données de pages Web, Scrapy utilise une technique appelée sélecteurs basée sur des expressions XPath et CSS . Voici quelques exemples d'expressions XPath -
/html/head/title - Cela sélectionnera l'élément <title>, à l'intérieur de l'élément <head> d'un document HTML.
/html/head/title/text() - Cela sélectionnera le texte dans le même élément <title>.
//td - Cela sélectionnera tous les éléments de <td>.
//div[@class = "slice"]- Cela sélectionnera tous les éléments de div qui contiennent un attribut class = "slice"
Les sélecteurs ont quatre méthodes de base, comme indiqué dans le tableau suivant -
Sr.Non | Méthode et description |
---|---|
1 | extract() Il renvoie une chaîne Unicode avec les données sélectionnées. |
2 | re() Il renvoie une liste de chaînes Unicode, extraites lorsque l'expression régulière a été donnée en argument. |
3 | xpath() Il renvoie une liste de sélecteurs, qui représente les nœuds sélectionnés par l'expression xpath donnée en argument. |
4 | css() Il renvoie une liste de sélecteurs, qui représente les nœuds sélectionnés par l'expression CSS donnée en argument. |
Utilisation de sélecteurs dans le shell
Pour démontrer les sélecteurs avec le shell Scrapy intégré, vous devez avoir IPython installé sur votre système. L'important ici est que les URL doivent être incluses dans les guillemets lors de l'exécution de Scrapy; sinon les URL avec les caractères «&» ne fonctionneront pas. Vous pouvez démarrer un shell en utilisant la commande suivante dans le répertoire de niveau supérieur du projet -
scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"
Un shell ressemblera à ce qui suit -
[ ... Scrapy log here ... ]
2014-01-23 17:11:42-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>(referer: None)
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x3636b50>
[s] item {}
[s] request <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s] response <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s] settings <scrapy.settings.Settings object at 0x3fadc50>
[s] spider <Spider 'default' at 0x3cebf50>
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser
In [1]:
Lors du chargement du shell, vous pouvez accéder au corps ou à l'en-tête en utilisant respectivement response.body et response.header . De même, vous pouvez exécuter des requêtes sur la réponse à l'aide de response.selector.xpath () ou response.selector.css () .
Par exemple -
In [1]: response.xpath('//title')
Out[1]: [<Selector xpath = '//title' data = u'<title>My Book - Scrapy'>]
In [2]: response.xpath('//title').extract()
Out[2]: [u'<title>My Book - Scrapy: Index: Chapters</title>']
In [3]: response.xpath('//title/text()')
Out[3]: [<Selector xpath = '//title/text()' data = u'My Book - Scrapy: Index:'>]
In [4]: response.xpath('//title/text()').extract()
Out[4]: [u'My Book - Scrapy: Index: Chapters']
In [5]: response.xpath('//title/text()').re('(\w+):')
Out[5]: [u'Scrapy', u'Index', u'Chapters']
Extraire les données
Pour extraire des données d'un site HTML normal, nous devons inspecter le code source du site pour obtenir des XPath. Après inspection, vous pouvez voir que les données seront dans leulmarque. Sélectionnez les éléments dansli marque.
Les lignes de code suivantes montrent l'extraction de différents types de données -
Pour sélectionner des données dans la balise li -
response.xpath('//ul/li')
Pour sélectionner les descriptions -
response.xpath('//ul/li/text()').extract()
Pour sélectionner les titres de sites -
response.xpath('//ul/li/a/text()').extract()
Pour sélectionner les liens du site -
response.xpath('//ul/li/a/@href').extract()
Le code suivant illustre l'utilisation des extracteurs ci-dessus -
import scrapy
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
for sel in response.xpath('//ul/li'):
title = sel.xpath('a/text()').extract()
link = sel.xpath('a/@href').extract()
desc = sel.xpath('text()').extract()
print title, link, desc
La description
Itemles objets sont les dictats réguliers de Python. Nous pouvons utiliser la syntaxe suivante pour accéder aux attributs de la classe -
>>> item = DmozItem()
>>> item['title'] = 'sample title'
>>> item['title']
'sample title'
Ajoutez le code ci-dessus à l'exemple suivant -
import scrapy
from tutorial.items import DmozItem
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
for sel in response.xpath('//ul/li'):
item = DmozItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['desc'] = sel.xpath('text()').extract()
yield item
La sortie de l'araignée ci-dessus sera -
[scrapy] DEBUG: Scraped from <200
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
{'desc': [u' - By David Mertz; Addison Wesley. Book in progress, full text,
ASCII format. Asks for feedback. [author website, Gnosis Software, Inc.\n],
'link': [u'http://gnosis.cx/TPiP/'],
'title': [u'Text Processing in Python']}
[scrapy] DEBUG: Scraped from <200
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
{'desc': [u' - By Sean McGrath; Prentice Hall PTR, 2000, ISBN 0130211192,
has CD-ROM. Methods to build XML applications fast, Python tutorial, DOM and
SAX, new Pyxie open source XML processing library. [Prentice Hall PTR]\n'],
'link': [u'http://www.informit.com/store/product.aspx?isbn=0130211192'],
'title': [u'XML Processing with Python']}
La description
Dans ce chapitre, nous allons étudier comment extraire les liens des pages qui nous intéressent, les suivre et extraire les données de cette page. Pour cela, nous devons apporter les modifications suivantes dans notre code précédent illustré comme suit -
import scrapy
from tutorial.items import DmozItem
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/",
]
def parse(self, response):
for href in response.css("ul.directory.dir-col > li > a::attr('href')"):
url = response.urljoin(href.extract())
yield scrapy.Request(url, callback = self.parse_dir_contents)
def parse_dir_contents(self, response):
for sel in response.xpath('//ul/li'):
item = DmozItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['desc'] = sel.xpath('text()').extract()
yield item
Le code ci-dessus contient les méthodes suivantes -
parse() - Il extraira les liens de notre intérêt.
response.urljoin - La méthode parse () utilisera cette méthode pour construire une nouvelle url et fournir une nouvelle requête, qui sera envoyée ultérieurement au callback.
parse_dir_contents() - Ceci est un rappel qui va en fait gratter les données d'intérêt.
Ici, Scrapy utilise un mécanisme de rappel pour suivre les liens. En utilisant ce mécanisme, le plus gros robot peut être conçu et peut suivre des liens d'intérêt pour extraire les données souhaitées de différentes pages. La méthode régulière sera la méthode de rappel, qui extraira les éléments, recherchera des liens pour suivre la page suivante, puis fournira une demande pour le même rappel.
L'exemple suivant produit une boucle, qui suivra les liens vers la page suivante.
def parse_articles_follow_next_page(self, response):
for article in response.xpath("//article"):
item = ArticleItem()
... extract article data here
yield item
next_page = response.css("ul.navigation > li.next-page > a::attr('href')")
if next_page:
url = response.urljoin(next_page[0].extract())
yield scrapy.Request(url, self.parse_articles_follow_next_page)
La description
La meilleure façon de stocker les données récupérées consiste à utiliser les exportations de flux, ce qui garantit que les données sont correctement stockées à l'aide de plusieurs formats de sérialisation. JSON, lignes JSON, CSV, XML sont les formats facilement pris en charge dans les formats de sérialisation. Les données peuvent être stockées avec la commande suivante -
scrapy crawl dmoz -o data.json
Cette commande créera un data.jsonfichier contenant des données récupérées dans JSON. Cette technique est valable pour une petite quantité de données. Si une grande quantité de données doit être gérée, nous pouvons utiliser Item Pipeline. Tout comme le fichier data.json, un fichier réservé est configuré lorsque le projet est créé danstutorial/pipelines.py.
La description
Loggingsignifie le suivi des événements, qui utilise un système de journalisation intégré et définit des fonctions et des classes pour implémenter des applications et des bibliothèques. La journalisation est un matériel prêt à l'emploi, qui peut fonctionner avec les paramètres Scrapy répertoriés dans les paramètres de journalisation.
Scrapy définira certains paramètres par défaut et gérera ces paramètres à l'aide de scrapy.utils.log.configure_logging () lors de l'exécution des commandes.
Niveaux de journal
En Python, il existe cinq niveaux de gravité différents sur un message de journal. La liste suivante montre les messages de journal standard dans un ordre croissant -
logging.DEBUG - pour les messages de débogage (gravité la plus faible)
logging.INFO - pour les messages d'information
logging.WARNING - pour les messages d'avertissement
logging.ERROR - pour les erreurs régulières
logging.CRITICAL - pour les erreurs critiques (gravité la plus élevée)
Comment enregistrer les messages
Le code suivant montre la journalisation d'un message à l'aide de logging.info niveau.
import logging
logging.info("This is an information")
Le message de journalisation ci-dessus peut être passé comme argument en utilisant logging.log montré comme suit -
import logging
logging.log(logging.INFO, "This is an information")
Désormais, vous pouvez également utiliser des enregistreurs pour inclure le message à l'aide de la journalisation des assistants de journalisation pour que le message de journalisation soit clairement affiché comme suit -
import logging
logger = logging.getLogger()
logger.info("This is an information")
Il peut y avoir plusieurs enregistreurs et ceux-ci sont accessibles en obtenant leurs noms à l'aide de logging.getLogger fonction illustrée comme suit.
import logging
logger = logging.getLogger('mycustomlogger')
logger.info("This is an information")
Un enregistreur personnalisé peut être utilisé pour n'importe quel module en utilisant la variable __name__ qui contient le chemin du module indiqué comme suit -
import logging
logger = logging.getLogger(__name__)
logger.info("This is an information")
Journalisation des araignées
Chaque instance d'araignée a un logger à l'intérieur et peut être utilisé comme suit -
import scrapy
class LogSpider(scrapy.Spider):
name = 'logspider'
start_urls = ['http://dmoz.com']
def parse(self, response):
self.logger.info('Parse function called on %s', response.url)
Dans le code ci-dessus, l'enregistreur est créé en utilisant le nom de l'araignée, mais vous pouvez utiliser n'importe quel enregistreur personnalisé fourni par Python comme indiqué dans le code suivant -
import logging
import scrapy
logger = logging.getLogger('customizedlogger')
class LogSpider(scrapy.Spider):
name = 'logspider'
start_urls = ['http://dmoz.com']
def parse(self, response):
logger.info('Parse function called on %s', response.url)
Configuration de la journalisation
Les enregistreurs ne sont pas en mesure d'afficher seuls les messages qu'ils ont envoyés. Ils ont donc besoin de «gestionnaires» pour afficher ces messages et les gestionnaires redirigeront ces messages vers leurs destinations respectives telles que les fichiers, les e-mails et la sortie standard.
En fonction des paramètres suivants, Scrapy configurera le gestionnaire pour l'enregistreur.
Paramètres de journalisation
Les paramètres suivants sont utilisés pour configurer la journalisation -
le LOG_FILE et LOG_ENABLED décider de la destination des messages du journal.
Lorsque vous définissez le LOG_ENCODING à false, il n'affichera pas les messages de sortie du journal.
le LOG_LEVELdéterminera l'ordre de gravité du message; les messages moins sévères seront filtrés.
le LOG_FORMAT et LOG_DATEFORMAT sont utilisés pour spécifier les dispositions de tous les messages.
Lorsque vous définissez le LOG_STDOUT à true, tous les messages d'erreur et de sortie standard de votre processus seront redirigés vers log.
Options de ligne de commande
Les paramètres Scrapy peuvent être remplacés en passant des arguments de ligne de commande comme indiqué dans le tableau suivant -
Sr.Non | Commande et description |
---|---|
1 | --logfile FILE Remplace LOG_FILE |
2 | --loglevel/-L LEVEL Remplace LOG_LEVEL |
3 | --nolog Définit LOG_ENABLED sur False |
module scrapy.utils.log
Cette fonction peut être utilisée pour initialiser les valeurs par défaut de journalisation pour Scrapy.
scrapy.utils.log.configure_logging(settings = None, install_root_handler = True)
Sr.Non | Paramètre et description |
---|---|
1 | settings (dict, None) Il crée et configure le gestionnaire de l'enregistreur racine. Par défaut, c'est Aucun . |
2 | install_root_handler (bool) Il spécifie d'installer le gestionnaire de journalisation racine. Par défaut, c'est True . |
La fonction ci-dessus -
- Achemine les avertissements et les enregistrements déformés via la journalisation standard Python.
- Assigne DEBUG à Scrapy et le niveau ERROR aux enregistreurs Twisted.
- Achemine stdout vers le journal, si le paramètre LOG_STDOUT est vrai.
Les options par défaut peuvent être remplacées à l'aide du settingsargument. Lorsque les paramètres ne sont pas spécifiés, les valeurs par défaut sont utilisées. Le gestionnaire peut être créé pour le journal racine, lorsque install_root_handler est défini sur true. S'il est défini sur false, aucune sortie de journal n'est définie. Lors de l'utilisation des commandes Scrapy, configure_logging sera appelé automatiquement et pourra s'exécuter explicitement, tout en exécutant les scripts personnalisés.
Pour configurer manuellement la sortie de la journalisation, vous pouvez utiliser logging.basicConfig() montré comme suit -
import logging
from scrapy.utils.log import configure_logging
configure_logging(install_root_handler = False)
logging.basicConfig (
filename = 'logging.txt',
format = '%(levelname)s: %(your_message)s',
level = logging.INFO
)
La description
Stats Collector est une fonctionnalité fournie par Scrapy pour collecter les statistiques sous forme de clés / valeurs et il est accessible à l'aide de l'API Crawler (Crawler donne accès à tous les composants principaux de Scrapy). Le collecteur de statistiques fournit une table de statistiques par araignée dans laquelle le collecteur de statistiques s'ouvre automatiquement lorsque l'araignée s'ouvre et ferme le collecteur de statistiques lorsque l'araignée est fermée.
Utilisations courantes du collecteur de statistiques
Le code suivant accède au collecteur de statistiques en utilisant stats attribut.
class ExtensionThatAccessStats(object):
def __init__(self, stats):
self.stats = stats
@classmethod
def from_crawler(cls, crawler):
return cls(crawler.stats)
Le tableau suivant montre diverses options pouvant être utilisées avec le collecteur de statistiques -
Sr.Non | Paramètres | La description |
---|---|---|
1 | |
Il est utilisé pour définir la valeur des statistiques. |
2 | |
Il incrémente la valeur statistique. |
3 | |
Vous pouvez définir la valeur statistique, uniquement si elle est supérieure à la valeur précédente. |
4 | |
Vous pouvez définir la valeur statistique, uniquement si elle est inférieure à la valeur précédente. |
5 | |
Il récupère la valeur statistique. |
6 | |
Il récupère toutes les statistiques |
Collectionneurs de statistiques disponibles
Scrapy fournit différents types de collecteurs de statistiques accessibles à l'aide du STATS_CLASS réglage.
MemoryStatsCollector
C'est le collecteur de statistiques par défaut qui maintient les statistiques de chaque araignée qui a été utilisée pour le scraping et les données seront stockées dans la mémoire.
class scrapy.statscollectors.MemoryStatsCollector
DummyStatsCollecteur
Ce collecteur de statistiques est très efficace et ne fait rien. Cela peut être défini à l'aide du paramètre STATS_CLASS et peut être utilisé pour désactiver la collecte de statistiques afin d'améliorer les performances.
class scrapy.statscollectors.DummyStatsCollector
La description
Scrapy peut envoyer des e-mails en utilisant sa propre fonction appelée E / S non bloquante Twisted qui évite les E / S non bloquantes du robot d'exploration. Vous pouvez configurer les quelques paramètres d'envoi d'e-mails et fournir une API simple pour l'envoi de pièces jointes.
Il existe deux façons d'instancier le MailSender comme indiqué dans le tableau suivant -
Sr.Non | Paramètres | Méthode |
---|---|---|
1 | à partir de scrapy.mail import MailSender mailer = MailSender () | En utilisant un constructeur standard. |
2 | mailer = MailSender.from_settings (paramètres) | En utilisant l'objet de paramètres Scrapy. |
La ligne suivante envoie un e-mail sans pièces jointes -
mailer.send(to = ["[email protected]"], subject = "subject data", body = "body data",
cc = ["[email protected]"])
Référence de classe MailSender
La classe MailSender utilise des E / S non bloquantes Twisted pour envoyer des e-mails depuis Scrapy.
class scrapy.mail.MailSender(smtphost = None, mailfrom = None, smtpuser = None,
smtppass = None, smtpport = None)
Le tableau suivant montre les paramètres utilisés dans la classe MailSender -
Sr.Non | Paramètre et description |
---|---|
1 | smtphost (str) L'hôte SMTP est utilisé pour l'envoi des e-mails. Sinon, le paramètre MAIL_HOST sera utilisé. |
2 | mailfrom (str) L'adresse du destinataire est utilisée pour envoyer les e-mails. Sinon, le paramètre MAIL_FROM sera utilisé. |
3 | smtpuser Il spécifie l'utilisateur SMTP. S'il n'est pas utilisé, le paramètre MAIL_USER sera utilisé et il n'y aura pas de validation SMTP s'il n'est pas mentionné. |
4 | smtppass (str) Il spécifie la passe SMTP pour la validation. |
5 | smtpport (int) Il spécifie le port SMTP pour la connexion. |
6 | smtptls (boolean) Il implémente en utilisant le SMTP STARTTLS. |
sept | smtpssl (boolean) Il administre en utilisant une connexion SSL sécurisée. |
Les deux méthodes suivantes sont présentes dans la référence de classe MailSender comme spécifié. Première méthode,
classmethod from_settings(settings)
Il incorpore en utilisant l'objet de paramètres Scrapy. Il contient le paramètre suivant -
settings (scrapy.settings.Settings object) - Il est traité comme un destinataire de courrier électronique.
Une autre méthode,
send(to, subject, body, cc = None, attachs = (), mimetype = 'text/plain', charset = None)
Le tableau suivant contient les paramètres de la méthode ci-dessus -
Sr.Non | Paramètre et description |
---|---|
1 | to (list) Il fait référence au destinataire de l'e-mail. |
2 | subject (str) Il précise le sujet de l'e-mail. |
3 | cc (list) Il fait référence à la liste des destinataires. |
4 | body (str) Il fait référence aux données du corps de l'e-mail. |
5 | attachs (iterable) Il fait référence à la pièce jointe de l'e-mail, au type MIME de la pièce jointe et au nom de la pièce jointe. |
6 | mimetype (str) Il représente le type MIME de l'e-mail. |
sept | charset (str) Il spécifie le codage de caractères utilisé pour le contenu des e-mails. |
Paramètres de messagerie
Les paramètres suivants garantissent que sans écrire de code, nous pouvons configurer un e-mail à l'aide de la classe MailSender dans le projet.
Sr.Non | Paramètres et description | Valeur par défaut |
---|---|---|
1 | MAIL_FROM Il fait référence à l'e-mail de l'expéditeur pour l'envoi d'e-mails. |
'scrapy @ localhost' |
2 | MAIL_HOST Il fait référence à l'hôte SMTP utilisé pour envoyer des e-mails. |
'localhost' |
3 | MAIL_PORT Il spécifie le port SMTP à utiliser pour l'envoi d'e-mails. |
25 |
4 | MAIL_USER Il fait référence à la validation SMTP. Il n'y aura pas de validation si ce paramètre est défini sur désactivé. |
Aucun |
5 | MAIL_PASS Il fournit le mot de passe utilisé pour la validation SMTP. |
Aucun |
6 | MAIL_TLS Il fournit la méthode de mise à niveau d'une connexion non sécurisée vers une connexion sécurisée à l'aide de SSL / TLS. |
Faux |
sept | MAIL_SSL Il implémente la connexion à l'aide d'une connexion cryptée SSL. |
Faux |
La description
La console Telnet est un shell Python qui s'exécute dans le processus Scrapy et est utilisé pour inspecter et contrôler un processus en cours d'exécution Scrapy.
Accéder à la console Telnet
La console telnet est accessible à l'aide de la commande suivante -
telnet localhost 6023
Fondamentalement, la console telnet est répertoriée dans le port TCP, qui est décrit dans TELNETCONSOLE_PORT réglages.
Variables
Certaines des variables par défaut données dans le tableau suivant sont utilisées comme raccourcis -
Sr.Non | Raccourci et description |
---|---|
1 | crawler Cela fait référence à l'objet Scrapy Crawler (scrapy.crawler.Crawler). |
2 | engine Cela fait référence à l'attribut Crawler.engine. |
3 | spider Cela fait référence à l'araignée qui est active. |
4 | slot Cela fait référence à l'emplacement du moteur. |
5 | extensions Cela fait référence à l'attribut Extension Manager (Crawler.extensions). |
6 | stats Cela fait référence à l'attribut Stats Collector (Crawler.stats). |
sept | setting Cela fait référence à l'attribut de l'objet Scrapy settings (Crawler.settings). |
8 | est Cela fait référence à l'impression d'un rapport sur l'état du moteur. |
9 | prefs Cela fait référence à la mémoire pour le débogage. |
dix | p Cela fait référence à un raccourci vers la fonction pprint.pprint . |
11 | hpy Cela fait référence au débogage de la mémoire. |
Exemples
Voici quelques exemples illustrés à l'aide de la console Telnet.
Mettre en pause, reprendre et arrêter le Scrapy Engine
Pour mettre en pause le moteur Scrapy, utilisez la commande suivante -
telnet localhost 6023
>>> engine.pause()
>>>
Pour reprendre le moteur Scrapy, utilisez la commande suivante -
telnet localhost 6023
>>> engine.unpause()
>>>
Pour arrêter le moteur Scrapy, utilisez la commande suivante -
telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.
Afficher l'état du moteur
La console Telnet utilise est() méthode pour vérifier l'état du moteur Scrapy comme indiqué dans le code suivant -
telnet localhost 6023
>>> est()
Execution engine status
time()-engine.start_time : 8.62972998619
engine.has_capacity() : False
len(engine.downloader.active) : 16
engine.scraper.is_idle() : False
engine.spider.name : followall
engine.spider_is_idle(engine.spider) : False
engine.slot.closing : False
len(engine.slot.inprogress) : 16
len(engine.slot.scheduler.dqs or []) : 0
len(engine.slot.scheduler.mqs) : 92
len(engine.scraper.slot.queue) : 0
len(engine.scraper.slot.active) : 0
engine.scraper.slot.active_size : 0
engine.scraper.slot.itemproc_size : 0
engine.scraper.slot.needs_backout() : False
Signaux de la console Telnet
Vous pouvez utiliser les signaux de la console telnet pour ajouter, mettre à jour ou supprimer les variables dans l'espace de noms local telnet. Pour effectuer cette action, vous devez ajouter le dict telnet_vars dans votre gestionnaire.
scrapy.extensions.telnet.update_telnet_vars(telnet_vars)
Paramètres -
telnet_vars (dict)
Où, dict est un dictionnaire contenant des variables telnet.
Paramètres Telnet
Le tableau suivant montre les paramètres qui contrôlent le comportement de la console Telnet -
Sr.Non | Paramètres et description | Valeur par défaut |
---|---|---|
1 | TELNETCONSOLE_PORT Cela fait référence à la plage de ports pour la console telnet. S'il est défini sur aucun, le port sera attribué dynamiquement. |
[6023, 6073] |
2 | TELNETCONSOLE_HOST Cela fait référence à l'interface sur laquelle la console telnet doit écouter. |
«127.0.0.1» |
La description
Un robot d'exploration Scrapy en cours d'exécution peut être contrôlé via JSON-RPC. Il est activé par le paramètre JSONRPC_ENABLED. Ce service permet d'accéder à l'objet principal du robot d'exploration via le protocole JSON-RPC 2.0 . Le point de terminaison pour accéder à l'objet du robot est -
http://localhost:6080/crawler
Le tableau suivant contient certains des paramètres qui montrent le comportement du service Web -
Sr.Non | Réglage et description | Valeur par défaut |
---|---|---|
1 | JSONRPC_ENABLED Cela fait référence au booléen, qui décide que le service Web avec son extension sera activé ou non. |
Vrai |
2 | JSONRPC_LOGFILE Il s'agit du fichier utilisé pour la journalisation des requêtes HTTP adressées au service Web. S'il n'est pas défini, le journal Scrapy standard sera utilisé. |
Aucun |
3 | JSONRPC_PORT Cela fait référence à la plage de ports du service Web. S'il est défini sur aucun, le port sera attribué dynamiquement. |
[6080, 7030] |
4 | JSONRPC_HOST Cela fait référence à l'interface sur laquelle le service Web doit écouter. |
«127.0.0.1» |