Scrapy - Panduan Cepat

Scrapy adalah kerangka kerja perayapan web sumber terbuka yang cepat yang ditulis dengan Python, digunakan untuk mengekstrak data dari halaman web dengan bantuan penyeleksi berdasarkan XPath.

Scrapy pertama kali dirilis pada 26 Juni 2008 dengan lisensi di bawah BSD, dengan milestone 1.0 dirilis pada Juni 2015.

Mengapa Menggunakan Scrapy?

  • Lebih mudah untuk membangun dan menskalakan proyek perayapan besar.

  • Ini memiliki mekanisme built-in yang disebut Selectors, untuk mengekstraksi data dari situs web.

  • Ini menangani permintaan secara asinkron dan cepat.

  • Secara otomatis menyesuaikan kecepatan perayapan menggunakan mekanisme pelambatan otomatis .

  • Memastikan aksesibilitas pengembang.

Fitur Scrapy

  • Scrapy adalah open source dan gratis untuk menggunakan kerangka web crawling.

  • Scrapy menghasilkan ekspor feed dalam format seperti JSON, CSV, dan XML.

  • Scrapy memiliki dukungan bawaan untuk memilih dan mengekstrak data dari sumber baik dengan ekspresi XPath atau CSS.

  • Scrapy berdasarkan crawler, memungkinkan mengekstrak data dari halaman web secara otomatis.

Keuntungan

  • Scrapy mudah dikembangkan, cepat, dan bertenaga.

  • Ini adalah kerangka aplikasi lintas platform (Windows, Linux, Mac OS dan BSD).

  • Permintaan scrapy dijadwalkan dan diproses secara asinkron.

  • Scrapy hadir dengan layanan built-in bernama Scrapyd yang memungkinkan untuk mengunggah proyek dan mengontrol laba-laba menggunakan layanan web JSON.

  • Dimungkinkan untuk menghapus situs web apa pun, meskipun situs web itu tidak memiliki API untuk akses data mentah.

Kekurangan

  • Scrapy hanya untuk Python 2.7. +

  • Penginstalan berbeda untuk sistem operasi yang berbeda.

Pada bab ini, kita akan membahas cara memasang dan mengatur Scrapy. Scrapy harus diinstal dengan Python.

Scrapy dapat diinstal dengan menggunakan pip. Untuk menginstal, jalankan perintah berikut -

pip install Scrapy

Windows

Note - Python 3 tidak didukung di OS Windows.

Step 1- Instal Python 2.7 dari Python

Tetapkan variabel lingkungan dengan menambahkan jalur berikut ke PATH -

C:\Python27\;C:\Python27\Scripts\;

Anda dapat memeriksa versi Python menggunakan perintah berikut -

python --version

Step 2- Instal OpenSSL .

Tambahkan C: \ OpenSSL-Win32 \ bin di variabel lingkungan Anda.

Note - OpenSSL sudah diinstal sebelumnya di semua sistem operasi kecuali Windows.

Step 3- Instal Visual C ++ 2008 redistributables.

Step 4- Instal pywin32 .

Step 5- Instal pip untuk versi Python yang lebih lama dari 2.7.9.

Anda dapat memeriksa versi pip menggunakan perintah berikut -

pip --version

Step 6 - Untuk menginstal scrapy, jalankan perintah berikut -

pip install Scrapy

Anaconda

Jika Anda memiliki anaconda atau miniconda yang diinstal di komputer Anda, jalankan perintah di bawah ini untuk menginstal Scrapy menggunakan conda -

conda install -c scrapinghub scrapy

Perusahaan Scrapinghub mendukung paket conda resmi untuk Linux, Windows, dan OS X.

Note - Direkomendasikan untuk menginstal Scrapy menggunakan perintah di atas jika Anda mengalami masalah dalam menginstal melalui pip.

Ubuntu 9.10 atau Di Atas

Versi terbaru Python sudah diinstal sebelumnya di OS Ubuntu. Gunakan paket Ubuntu yang disediakan oleh Scrapinghub. Untuk menggunakan paket -

Step 1 - Anda perlu mengimpor kunci GPG yang digunakan untuk menandatangani paket Scrapy ke keyring APT -

sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7

Step 2 - Selanjutnya, gunakan perintah berikut untuk membuat file /etc/apt/sources.list.d/scrapy.list -

echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee 
/etc/apt/sources.list.d/scrapy.list

Step 3 - Perbarui daftar paket dan instal scrapy -

sudo apt-get update && sudo apt-get install scrapy

Archlinux

Anda dapat menginstal Scrapy dari paket AUR Scrapy menggunakan perintah berikut -

yaourt -S scrapy

Mac OS X

Gunakan perintah berikut untuk menginstal alat baris perintah Xcode -

xcode-select --install

Alih-alih menggunakan sistem Python, instal versi baru yang diperbarui yang tidak bertentangan dengan sistem Anda lainnya.

Step 1- Instal homebrew .

Step 2 - Tetapkan variabel PATH lingkungan untuk menentukan bahwa paket homebrew harus digunakan sebelum paket sistem -

echo "export PATH = /usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc

Step 3 - Untuk memastikan perubahan selesai, muat ulang .bashrc menggunakan perintah berikut -

source ~/.bashrc

Step 4 - Selanjutnya, instal Python menggunakan perintah berikut -

brew install python

Step 5 - Instal Scrapy menggunakan perintah berikut -

pip install Scrapy

Deskripsi

Alat baris perintah Scrapy digunakan untuk mengontrol Scrapy, yang sering disebut sebagai 'Scrapy tool'. Ini mencakup perintah untuk berbagai objek dengan sekelompok argumen dan opsi.

Pengaturan konfigurasi

Scrapy akan menemukan pengaturan konfigurasi di scrapy.cfgmengajukan. Berikut adalah beberapa lokasi -

  • C: \ scrapy (folder proyek) \ scrapy.cfg di sistem

  • ~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) dan ~ / .scrapy.cfg ($ HOME) untuk pengaturan global

  • Anda dapat menemukan scrapy.cfg di dalam root proyek.

Scrapy juga dapat dikonfigurasi menggunakan variabel lingkungan berikut -

  • SCRAPY_SETTINGS_MODULE
  • SCRAPY_PROJECT
  • SCRAPY_PYTHON_SHELL

Proyek Scrapy Struktur Default

Struktur berikut menunjukkan struktur file default dari proyek Scrapy.

scrapy.cfg                - Deploy the configuration file
project_name/             - Name of the project
   _init_.py
   items.py               - It is project's items file
   pipelines.py           - It is project's pipelines file
   settings.py            - It is project's settings file
   spiders                - It is the spiders directory
      _init_.py
      spider_name.py
      . . .

Itu scrapy.cfgfile adalah direktori root proyek, yang menyertakan nama proyek dengan pengaturan proyek. Misalnya -

[settings] 
default = [name of the project].settings  

[deploy] 
#url = http://localhost:6800/ 
project = [name of the project]

Menggunakan Alat Scrapy

Alat Scrapy menyediakan beberapa penggunaan dan perintah yang tersedia sebagai berikut -

Scrapy X.Y  - no active project 
Usage: 
   scrapy  [options] [arguments] 
Available commands: 
   crawl      It puts spider (handle the URL) to work for crawling data 
   fetch      It fetches the response from the given URL

Membuat Proyek

Anda dapat menggunakan perintah berikut untuk membuat proyek di Scrapy -

scrapy startproject project_name

Ini akan membuat proyek bernama project_namedirektori. Selanjutnya, buka proyek yang baru dibuat, menggunakan perintah berikut -

cd  project_name

Mengontrol Proyek

Anda dapat mengontrol proyek dan mengelolanya menggunakan alat Scrapy dan juga membuat laba-laba baru, menggunakan perintah berikut -

scrapy genspider mydomain mydomain.com

Perintah seperti crawl, dll. Harus digunakan di dalam proyek Scrapy. Anda akan mengetahui perintah mana yang harus dijalankan di dalam proyek Scrapy di bagian selanjutnya.

Scrapy berisi beberapa perintah bawaan, yang dapat digunakan untuk proyek Anda. Untuk melihat daftar perintah yang tersedia, gunakan perintah berikut -

scrapy -h

Saat Anda menjalankan perintah berikut, Scrapy akan menampilkan daftar perintah yang tersedia seperti yang tercantum -

  • fetch - Ini mengambil URL menggunakan pengunduh Scrapy.

  • runspider - Digunakan untuk menjalankan laba-laba mandiri tanpa membuat proyek.

  • settings - Ini menentukan nilai pengaturan proyek.

  • shell - Ini adalah modul penggosokan interaktif untuk URL yang diberikan.

  • startproject - Ini menciptakan proyek Scrapy baru.

  • version - Ini menampilkan versi Scrapy.

  • view - Ini mengambil URL menggunakan pengunduh Scrapy dan menampilkan konten di browser.

Anda dapat memiliki beberapa perintah terkait proyek seperti yang tercantum -

  • crawl - Digunakan untuk merayapi data menggunakan laba-laba.

  • check - Ini memeriksa item yang dikembalikan oleh perintah yang dirayapi.

  • list - Ini menampilkan daftar laba-laba yang tersedia yang ada dalam proyek.

  • edit - Anda dapat mengedit laba-laba dengan menggunakan editor.

  • parse - Ini mem-parsing URL yang diberikan dengan laba-laba.

  • bench - Digunakan untuk menjalankan tes benchmark cepat (Tolok ukur memberi tahu berapa banyak halaman yang dapat dirayapi per menit oleh Scrapy).

Perintah Proyek Kustom

Anda dapat membuat perintah proyek khusus dengan COMMANDS_MODULEpengaturan dalam proyek Scrapy. Ini termasuk string kosong default dalam pengaturan. Anda dapat menambahkan perintah khusus berikut -

COMMANDS_MODULE = 'mycmd.commands'

Perintah scrapy dapat ditambahkan menggunakan bagian scrapy.commands di file setup.py yang ditunjukkan sebagai berikut -

from setuptools import setup, find_packages  

setup(name = 'scrapy-module_demo', 
   entry_points = { 
      'scrapy.commands': [ 
         'cmd_demo = my_module.commands:CmdDemo', 
      ], 
   }, 
)

Kode di atas menambahkan cmd_demo perintah di setup.py mengajukan.

Deskripsi

Spider adalah kelas yang bertanggung jawab untuk menentukan cara mengikuti tautan melalui situs web dan mengekstrak informasi dari halaman.

Laba-laba default Scrapy adalah sebagai berikut -

scrapy.Spider

Itu adalah laba-laba yang harus diwarisi oleh setiap laba-laba lainnya. Ini memiliki kelas berikut -

class scrapy.spiders.Spider

Tabel berikut menunjukkan bidang kelas scrapy.Spider -

Sr Tidak Bidang & Deskripsi
1

name

Itu adalah nama laba-laba Anda.

2

allowed_domains

Ini adalah daftar domain tempat laba-laba merayap.

3

start_urls

Ini adalah daftar URL, yang akan menjadi akar untuk penjelajahan nanti, tempat laba-laba akan mulai merayapi.

4

custom_settings

Ini adalah pengaturan, saat menjalankan spider, akan diganti dari konfigurasi lebar proyek.

5

crawler

Ini adalah atribut yang tertaut ke objek Crawler yang diikat oleh instance spider.

6

settings

Ini adalah pengaturan untuk menjalankan laba-laba.

7

logger

Ini adalah logger Python yang digunakan untuk mengirim pesan log.

8

from_crawler(crawler,*args,**kwargs)

Ini adalah metode kelas, yang menciptakan laba-laba Anda. Parameternya adalah -

  • crawler - Crawler tempat instance spider akan diikat.

  • args(list)- Argumen ini diteruskan ke metode _init_ () .

  • kwargs(dict)- Argumen kata kunci ini diteruskan ke metode _init_ () .

9

start_requests()

Ketika tidak ada URL tertentu yang ditentukan dan spider dibuka untuk dihapus, Scrapy memanggil metode start_requests () .

10

make_requests_from_url(url)

Ini adalah metode yang digunakan untuk mengubah url menjadi permintaan.

11

parse(response)

Metode ini memproses respons dan mengembalikan data yang dihapus mengikuti lebih banyak URL.

12

log(message[,level,component])

Ini adalah metode yang mengirimkan pesan log melalui spiders logger.

13

closed(reason)

Metode ini dipanggil saat laba-laba menutup.

Argumen Laba-laba

Argumen spider digunakan untuk menentukan URL awal dan diteruskan menggunakan perintah crawl dengan -a opsi, ditampilkan sebagai berikut -

scrapy crawl first_scrapy -a group = accessories

Kode berikut menunjukkan bagaimana laba-laba menerima argumen -

import scrapy 

class FirstSpider(scrapy.Spider): 
   name = "first" 
   
   def __init__(self, group = None, *args, **kwargs): 
      super(FirstSpider, self).__init__(*args, **kwargs) 
      self.start_urls = ["http://www.example.com/group/%s" % group]

Laba-laba Generik

Anda dapat menggunakan laba-laba umum untuk membuat subkelas dari laba-laba Anda. Tujuan mereka adalah mengikuti semua tautan di situs web berdasarkan aturan tertentu untuk mengekstrak data dari semua halaman.

Untuk contoh yang digunakan pada spider berikut, anggaplah kita memiliki proyek dengan bidang berikut -

import scrapy 
from scrapy.item import Item, Field 
  
class First_scrapyItem(scrapy.Item): 
   product_title = Field() 
   product_link = Field() 
   product_description = Field()

CrawlSpider

CrawlSpider mendefinisikan sekumpulan aturan untuk mengikuti link dan menghapus lebih dari satu halaman. Ini memiliki kelas berikut -

class scrapy.spiders.CrawlSpider

Berikut adalah atribut dari kelas CrawlSpider -

aturan

Ini adalah daftar objek aturan yang menentukan bagaimana crawler mengikuti link.

Tabel berikut menunjukkan aturan kelas CrawlSpider -

Sr Tidak Aturan & Deskripsi
1

LinkExtractor

Ini menentukan bagaimana spider mengikuti tautan dan mengekstrak data.

2

callback

Ini akan dipanggil setelah setiap halaman dikikis.

3

follow

Ini menentukan apakah akan melanjutkan tautan berikut atau tidak.

parse_start_url (tanggapan)

Ini mengembalikan item atau objek permintaan dengan memungkinkan untuk mengurai respons awal.

Note - Pastikan Anda mengganti nama fungsi parse selain parse saat menulis aturan karena fungsi parse digunakan oleh CrawlSpider untuk mengimplementasikan logikanya.

Mari kita lihat contoh berikut, di mana spider mulai merayapi beranda demoexample.com, mengumpulkan semua halaman, tautan, dan parsing dengan metode parse_items -

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class DemoSpider(CrawlSpider):
   name = "demo"
   allowed_domains = ["www.demoexample.com"]
   start_urls = ["http://www.demoexample.com"]
      
   rules = ( 
      Rule(LinkExtractor(allow =(), restrict_xpaths = ("//div[@class = 'next']",)),
         callback = "parse_item", follow = True),
   )
   
   def parse_item(self, response):
      item = DemoItem()
      item["product_title"] = response.xpath("a/text()").extract()
      item["product_link"] = response.xpath("a/@href").extract()
      item["product_description"] = response.xpath("div[@class = 'desc']/text()").extract()
      return items

XMLFeedSpider

Ini adalah kelas dasar untuk spider yang mengikis dari umpan XML dan melakukan iterasi pada node. Ini memiliki kelas berikut -

class scrapy.spiders.XMLFeedSpider

Tabel berikut menunjukkan atribut kelas yang digunakan untuk menyetel iterator dan nama tag -

Sr Tidak Atribut & Deskripsi
1

iterator

Ini mendefinisikan iterator yang akan digunakan. Ini bisa berupa iternodes, html atau xml . Default-nya adalah iternode .

2

itertag

Ini adalah string dengan nama node untuk diiterasi.

3

namespaces

Ini ditentukan oleh daftar tupel (awalan, uri) yang secara otomatis mendaftarkan ruang nama menggunakan metode register_namespace () .

4

adapt_response(response)

Ia menerima respon dan memodifikasi tubuh respon segera setelah ia tiba dari middleware laba-laba, sebelum laba-laba mulai menguraikannya.

5

parse_node(response,selector)

Ini menerima respons dan pemilih ketika dipanggil untuk setiap node yang cocok dengan nama tag yang diberikan.

Note - Laba-laba Anda tidak akan berfungsi jika Anda tidak mengganti metode ini.

6

process_results(response,results)

Ini mengembalikan daftar hasil dan respons yang dikembalikan oleh laba-laba.

CSVFeedSpider

Ini melakukan iterasi melalui setiap barisnya, menerima file CSV sebagai respons, dan memanggil metode parse_row () . Ini memiliki kelas berikut -

class scrapy.spiders.CSVFeedSpider

Tabel berikut menunjukkan opsi yang dapat diatur terkait file CSV -

Sr Tidak Opsi & Deskripsi
1

delimiter

Ini adalah string yang berisi pemisah koma (',') untuk setiap bidang.

2

quotechar

Ini adalah string yang berisi tanda kutip ('"') untuk setiap bidang.

3

headers

Ini adalah daftar pernyataan dari mana bidang dapat diekstraksi.

4

parse_row(response,row)

Ini menerima respons dan setiap baris bersama dengan kunci untuk header.

Contoh CSVFeedSpider

from scrapy.spiders import CSVFeedSpider
from demoproject.items import DemoItem  

class DemoSpider(CSVFeedSpider): 
   name = "demo" 
   allowed_domains = ["www.demoexample.com"] 
   start_urls = ["http://www.demoexample.com/feed.csv"] 
   delimiter = ";" 
   quotechar = "'" 
   headers = ["product_title", "product_link", "product_description"]  
   
   def parse_row(self, response, row): 
      self.logger.info("This is row: %r", row)  
      item = DemoItem() 
      item["product_title"] = row["product_title"] 
      item["product_link"] = row["product_link"] 
      item["product_description"] = row["product_description"] 
      return item

SitemapSpider

SitemapSpider dengan bantuan Peta Situs merayapi situs web dengan mencari URL dari robots.txt. Ini memiliki kelas berikut -

class scrapy.spiders.SitemapSpider

Tabel berikut menunjukkan bidang SitemapSpider -

Sr Tidak Bidang & Deskripsi
1

sitemap_urls

Daftar URL yang ingin Anda crawl yang mengarah ke peta situs.

2

sitemap_rules

Ini adalah daftar tupel (regex, callback), di mana regex adalah ekspresi reguler, dan callback digunakan untuk memproses URL yang cocok dengan ekspresi reguler.

3

sitemap_follow

Ini adalah daftar ekspresi reguler peta situs yang harus diikuti.

4

sitemap_alternate_links

Menentukan link alternatif yang akan diikuti untuk satu url.

Contoh SitemapSpider

SitemapSpider berikut memproses semua URL -

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider): 
   urls = ["http://www.demoexample.com/sitemap.xml"]  
   
   def parse(self, response): 
      # You can scrap items here

SitemapSpider berikut memproses beberapa URL dengan callback -

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider): 
   urls = ["http://www.demoexample.com/sitemap.xml"] 
   
   rules = [ 
      ("/item/", "parse_item"), 
      ("/group/", "parse_group"), 
   ]  
   
   def parse_item(self, response): 
      # you can scrap item here  
   
   def parse_group(self, response): 
      # you can scrap group here

Kode berikut menunjukkan peta situs di robots.txt yang memiliki url /sitemap_company -

from scrapy.spiders import SitemapSpider

class DemoSpider(SitemapSpider): 
   urls = ["http://www.demoexample.com/robots.txt"] 
   rules = [ 
      ("/company/", "parse_company"), 
   ] 
   sitemap_follow = ["/sitemap_company"]  
   
   def parse_company(self, response): 
      # you can scrap company here

Anda bahkan dapat menggabungkan SitemapSpider dengan URL lain seperti yang ditunjukkan pada perintah berikut.

from scrapy.spiders import SitemapSpider  

class DemoSpider(SitemapSpider): 
   urls = ["http://www.demoexample.com/robots.txt"] 
   rules = [ 
      ("/company/", "parse_company"), 
   ]  
   
   other_urls = ["http://www.demoexample.com/contact-us"] 
   def start_requests(self): 
      requests = list(super(DemoSpider, self).start_requests()) 
      requests += [scrapy.Request(x, self.parse_other) for x in self.other_urls] 
      return requests 

   def parse_company(self, response): 
      # you can scrap company here... 

   def parse_other(self, response): 
      # you can scrap other here...

Deskripsi

Saat Anda menggores halaman web, Anda perlu mengekstrak bagian tertentu dari sumber HTML dengan menggunakan mekanisme yang disebut selectors, dicapai dengan menggunakan ekspresi XPath atau CSS. Selektor dibangun di ataslxml perpustakaan, yang memproses XML dan HTML dalam bahasa Python.

Gunakan potongan kode berikut untuk menentukan konsep pemilih yang berbeda -

<html>
   <head>
      <title>My Website</title>
   </head>
   
   <body>
      <span>Hello world!!!</span>
      <div class = 'links'>
         <a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
         <a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
         <a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
      </div>
   </body>
</html>

Membangun Selektor

Anda dapat membuat instance kelas pemilih dengan meneruskan text atau TextResponseobyek. Berdasarkan jenis masukan yang diberikan, pemilih memilih aturan berikut -

from scrapy.selector import Selector 
from scrapy.http import HtmlResponse

Menggunakan kode di atas, Anda dapat membuat dari teks sebagai -

Selector(text = body).xpath('//span/text()').extract()

Ini akan menampilkan hasilnya sebagai -

[u'Hello world!!!']

Anda dapat membuat dari respons sebagai -

response = HtmlResponse(url = 'http://mysite.com', body = body) 
Selector(response = response).xpath('//span/text()').extract()

Ini akan menampilkan hasilnya sebagai -

[u'Hello world!!!']

Menggunakan Selectors

Dengan menggunakan potongan kode sederhana di atas, Anda dapat membuat XPath untuk memilih teks yang ditentukan dalam tag judul seperti yang ditunjukkan di bawah ini -

>>response.selector.xpath('//title/text()')

Sekarang, Anda dapat mengekstrak data tekstual menggunakan .extract() metode yang ditunjukkan sebagai berikut -

>>response.xpath('//title/text()').extract()

Ini akan menghasilkan hasil sebagai -

[u'My Website']

Anda dapat menampilkan nama semua elemen yang ditunjukkan sebagai berikut -

>>response.xpath('//div[@class = "links"]/a/text()').extract()

Ini akan menampilkan elemen sebagai -

Link 1
Link 2
Link 3

Jika Anda ingin mengekstrak elemen pertama, gunakan metode .extract_first(), ditampilkan sebagai berikut -

>>response.xpath('//div[@class = "links"]/a/text()').extract_first()

Ini akan menampilkan elemen sebagai -

Link 1

Penyeleksi Bersarang

Menggunakan kode di atas, Anda dapat menumpuk pemilih untuk menampilkan link halaman dan sumber gambar menggunakan .xpath() metode, ditunjukkan sebagai berikut -

links = response.xpath('//a[contains(@href, "image")]') 

for index, link in enumerate(links): 
   args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract()) 
   print 'The link %d pointing to url %s and image %s' % args

Ini akan menampilkan hasilnya sebagai -

Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']

Penyeleksi Menggunakan Ekspresi Reguler

Scrapy memungkinkan untuk mengekstrak data menggunakan ekspresi reguler, yang menggunakan .re()metode. Dari kode HTML di atas, kami akan mengekstrak nama gambar yang ditunjukkan sebagai berikut -

>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')

Baris di atas menampilkan nama gambar sebagai -

[u'Link 1', 
u'Link 2', 
u'Link 3']

Menggunakan Relative XPaths

Saat Anda bekerja dengan XPath, yang dimulai dengan ekstensi /, pemilih bersarang dan XPath terkait dengan jalur absolut dokumen, dan bukan jalur relatif pemilih.

Jika Anda ingin mengekstrak file <p> elemen, lalu dapatkan semua elemen div -

>>mydiv = response.xpath('//div')

Selanjutnya, Anda dapat mengekstrak semua file 'p' elemen di dalamnya, dengan mengawali XPath dengan titik sebagai .//p seperti yang ditunjukkan di bawah ini -

>>for p in mydiv.xpath('.//p').extract()

Menggunakan Ekstensi EXSLT

EXSLT adalah komunitas yang mengeluarkan ekstensi ke XSLT (Extensible Stylesheet Language Transformations) yang mengubah dokumen XML menjadi dokumen XHTML. Anda dapat menggunakan ekstensi EXSLT dengan namespace terdaftar dalam ekspresi XPath seperti yang ditunjukkan pada tabel berikut -

Sr Tidak Awalan & Penggunaan Namespace
1

re

ekspresi reguler

http://exslt.org/regexp/index.html

2

set

mengatur manipulasi

http://exslt.org/set/index.html

Anda dapat memeriksa format kode sederhana untuk mengekstrak data menggunakan ekspresi reguler di bagian sebelumnya.

Ada beberapa tip XPath, yang berguna saat menggunakan XPath dengan penyeleksi Scrapy. Untuk informasi lebih lanjut, klik tautan ini .

Deskripsi

Proses scrapy dapat digunakan untuk mengekstrak data dari sumber seperti halaman web dengan menggunakan spider. Penggunaan ScrapyItem kelas untuk menghasilkan keluaran yang objeknya digunakan untuk mengumpulkan data potongan.

Mendeklarasikan Item

Anda dapat mendeklarasikan item menggunakan sintaks definisi kelas bersama dengan objek bidang yang ditampilkan sebagai berikut -

import scrapy 
class MyProducts(scrapy.Item): 
   productName = Field() 
   productLink = Field() 
   imageURL = Field() 
   price = Field() 
   size = Field()

Bidang Item

Bidang item digunakan untuk menampilkan metadata untuk setiap bidang. Karena tidak ada batasan nilai pada objek bidang, kunci metadata yang dapat diakses tidak menyimpan daftar referensi metadata apa pun. Objek bidang digunakan untuk menentukan semua metadata bidang dan Anda dapat menentukan kunci bidang lainnya sesuai kebutuhan Anda dalam proyek. Objek lapangan dapat diakses menggunakan atribut Item.fields.

Bekerja dengan Item

Ada beberapa fungsi umum yang dapat ditentukan saat Anda bekerja dengan item. Untuk informasi lebih lanjut, klik tautan ini .

Memperluas Item

Item dapat diperpanjang dengan mencantumkan subclass item asli. Misalnya -

class MyProductDetails(Product): 
   original_rate = scrapy.Field(serializer = str) 
   discount_rate = scrapy.Field()

Anda dapat menggunakan metadata bidang yang sudah ada untuk memperluas metadata bidang dengan menambahkan lebih banyak nilai atau mengubah nilai yang sudah ada seperti yang diperlihatkan dalam kode berikut -

class MyProductPackage(Product): 
   name = scrapy.Field(Product.fields['name'], serializer = serializer_demo)

Objek Item

Objek item dapat ditentukan menggunakan kelas berikut yang menyediakan item baru yang diinisialisasi dari argumen yang diberikan -

class scrapy.item.Item([arg])

Item menyediakan salinan konstruktor dan menyediakan atribut tambahan yang diberikan oleh item di bidang.

Objek Lapangan

Objek bidang dapat ditentukan menggunakan kelas berikut di mana kelas Bidang tidak mengeluarkan proses atau atribut tambahan -

class scrapy.item.Field([arg])

Deskripsi

Pemuat barang memberikan cara yang nyaman untuk mengisi barang-barang yang diambil dari situs web.

Mendeklarasikan Pemuat Item

Deklarasi Item Loader seperti Item.

Misalnya -

from scrapy.loader import ItemLoader 
from scrapy.loader.processors import TakeFirst, MapCompose, Join  

class DemoLoader(ItemLoader):  
   default_output_processor = TakeFirst()  
   title_in = MapCompose(unicode.title) 
   title_out = Join()  
   size_in = MapCompose(unicode.strip)  
   # you can continue scraping here

Pada kode di atas, Anda dapat melihat bahwa prosesor input dideklarasikan menggunakan _in sufiks dan prosesor keluaran dideklarasikan menggunakan _out akhiran.

Itu ItemLoader.default_input_processor dan ItemLoader.default_output_processor atribut digunakan untuk mendeklarasikan prosesor input / output default.

Menggunakan Pemuat Item untuk Mengisi Item

Untuk menggunakan Item Loader, pertama-tama buat instance dengan objek seperti dict atau tanpa objek yang menggunakan kelas Item yang ditentukan di ItemLoader.default_item_class atribut.

  • Anda dapat menggunakan pemilih untuk mengumpulkan nilai ke dalam Item Loader.

  • Anda dapat menambahkan lebih banyak nilai di bidang item yang sama, di mana Pemuat Item akan menggunakan penangan yang sesuai untuk menambahkan nilai ini.

Kode berikut menunjukkan bagaimana item diisi menggunakan Item Loader -

from scrapy.loader import ItemLoader 
from demoproject.items import Demo  

def parse(self, response): 
   l = ItemLoader(item = Product(), response = response)
   l.add_xpath("title", "//div[@class = 'product_title']")
   l.add_xpath("title", "//div[@class = 'product_name']")
   l.add_xpath("desc", "//div[@class = 'desc']")
   l.add_css("size", "div#size]")
   l.add_value("last_updated", "yesterday")
   return l.load_item()

Seperti yang ditunjukkan di atas, ada dua XPath berbeda dari mana file title bidang diekstraksi menggunakan add_xpath() metode -

1. //div[@class = "product_title"] 
2. //div[@class = "product_name"]

Setelah itu, permintaan serupa digunakan untuk descbidang. Data ukuran diekstraksi menggunakanadd_css() metode dan last_updated diisi dengan nilai "kemarin" add_value() metode.

Setelah semua data terkumpul, panggil ItemLoader.load_item() metode yang mengembalikan item yang diisi dengan data yang diekstraksi menggunakan add_xpath(), add_css() dan add_value() metode.

Prosesor Input dan Output

Setiap bidang Item Loader berisi satu prosesor masukan dan satu prosesor keluaran.

  • Ketika data diekstraksi, prosesor input memprosesnya dan hasilnya disimpan di ItemLoader.

  • Selanjutnya, setelah mengumpulkan data, panggil metode ItemLoader.load_item () untuk mendapatkan objek Item yang diisi.

  • Akhirnya, Anda dapat menetapkan hasil prosesor keluaran ke item tersebut.

Kode berikut menunjukkan cara memanggil prosesor input dan output untuk bidang tertentu -

l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css)      # [3]
l.add_value("title", "demo") # [4]
return l.load_item()         # [5]

Line 1 - Data judul diekstrak dari xpath1 dan dilewatkan melalui input prosesor dan hasilnya dikumpulkan dan disimpan di ItemLoader.

Line 2 - Demikian pula, judul diekstrak dari xpath2 dan melewati prosesor input yang sama dan hasilnya ditambahkan ke data yang dikumpulkan untuk [1].

Line 3 - Judul diekstrak dari pemilih css dan melewati prosesor input yang sama dan hasilnya ditambahkan ke data yang dikumpulkan untuk [1] dan [2].

Line 4 - Selanjutnya, nilai "demo" ditetapkan dan diteruskan melalui prosesor input.

Line 5 - Akhirnya, data dikumpulkan secara internal dari semua bidang dan diteruskan ke prosesor keluaran dan nilai akhir ditetapkan ke Item.

Mendeklarasikan Prosesor Input dan Output

Prosesor input dan output dideklarasikan dalam definisi ItemLoader. Selain itu, mereka juga dapat ditentukan diItem Field metadata.

Misalnya -

import scrapy 
from scrapy.loader.processors import Join, MapCompose, TakeFirst 
from w3lib.html import remove_tags  

def filter_size(value): 
   if value.isdigit(): 
      return value  

class Item(scrapy.Item): 
   name = scrapy.Field( 
      input_processor = MapCompose(remove_tags), 
      output_processor = Join(), 
   )
   size = scrapy.Field( 
      input_processor = MapCompose(remove_tags, filter_price), 
      output_processor = TakeFirst(), 
   ) 

>>> from scrapy.loader import ItemLoader 
>>> il = ItemLoader(item = Product()) 
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>']) 
>>> il.add_value('size', [u'<span>100 kg</span>']) 
>>> il.load_item()

Ini menampilkan output sebagai -

{'title': u'Hello world', 'size': u'100 kg'}

Konteks Pemuat Item

Konteks Pemuat Item adalah diktekan nilai kunci arbitrer yang dibagikan di antara prosesor input dan output.

Misalnya, anggap Anda memiliki fungsi parse_length -

def parse_length(text, loader_context): 
   unit = loader_context.get('unit', 'cm') 
   
   # You can write parsing code of length here  
   return parsed_length

Dengan menerima argumen loader_context, ia memberi tahu Item Loader bahwa ia dapat menerima konteks Item Loader. Ada beberapa cara untuk mengubah nilai konteks Item Loader -

  • Ubah konteks Item Loader aktif saat ini -

loader = ItemLoader (product)
loader.context ["unit"] = "mm"
  • Pada Instansiasi Item Loader -

loader = ItemLoader(product, unit = "mm")
  • Pada deklarasi Item Loader untuk prosesor input / output yang dibuat dengan konteks Item Loader -

class ProductLoader(ItemLoader):
   length_out = MapCompose(parse_length, unit = "mm")

Objek ItemLoader

Ini adalah objek yang mengembalikan pemuat item baru untuk mengisi item yang diberikan. Ini memiliki kelas berikut -

class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)

Tabel berikut menunjukkan parameter objek ItemLoader -

Sr Tidak Parameter & Deskripsi
1

item

Ini adalah item yang akan diisi dengan memanggil add_xpath (), add_css () atau add_value ().

2

selector

Ini digunakan untuk mengekstrak data dari situs web.

3

response

Ini digunakan untuk membangun selektor menggunakan default_selector_class.

Tabel berikut menunjukkan metode objek ItemLoader -

Sr Tidak Metode & Deskripsi Contoh
1

get_value(value, *processors, **kwargs)

Dengan prosesor dan argumen kata kunci tertentu, nilai diproses dengan metode get_value ().

>>> from scrapy.loader.processors import TakeFirst
>>> loader.get_value(u'title: demoweb', TakeFirst(), 
unicode.upper, re = 'title: (.+)')
'DEMOWEB`
2

add_value(field_name, value, *processors, **kwargs)

Ini memproses nilai dan menambahkan ke bidang tempat pertama kali dilewatkan melalui get_value dengan memberikan pemroses dan argumen kata kunci sebelum melewati pemroses input bidang.

loader.add_value('title', u'DVD')
loader.add_value('colors', [u'black', u'white'])
loader.add_value('length', u'80')
loader.add_value('price', u'2500')
3

replace_value(field_name, value, *processors, **kwargs)

Ini menggantikan data yang dikumpulkan dengan nilai baru.

loader.replace_value('title', u'DVD')
loader.replace_value('colors', [u'black', 
u'white'])
loader.replace_value('length', u'80')
loader.replace_value('price', u'2500')
4

get_xpath(xpath, *processors, **kwargs)

Ini digunakan untuk mengekstrak string unicode dengan memberikan pemroses dan argumen kata kunci dengan menerima XPath .

# HTML code: <div class = "item-name">DVD</div>
loader.get_xpath("//div[@class = 
'item-name']")

# HTML code: <div id = "length">the length is 
45cm</div>
loader.get_xpath("//div[@id = 'length']", TakeFirst(), 
re = "the length is (.*)")
5

add_xpath(field_name, xpath, *processors, **kwargs)

Ia menerima XPath ke bidang yang mengekstrak string unicode.

# HTML code: <div class = "item-name">DVD</div>
loader.add_xpath('name', '//div
[@class = "item-name"]')

# HTML code: <div id = "length">the length is 
45cm</div>
loader.add_xpath('length', '//div[@id = "length"]',
 re = 'the length is (.*)')
6

replace_xpath(field_name, xpath, *processors, **kwargs)

Ini menggantikan data yang dikumpulkan menggunakan XPath dari situs.

# HTML code: <div class = "item-name">DVD</div>
loader.replace_xpath('name', '
//div[@class = "item-name"]')

# HTML code: <div id = "length">the length is
 45cm</div>
loader.replace_xpath('length', '
//div[@id = "length"]', re = 'the length is (.*)')
7

get_css(css, *processors, **kwargs)

Ini menerima pemilih CSS yang digunakan untuk mengekstrak string unicode.

loader.get_css("div.item-name")
loader.get_css("div#length", TakeFirst(), 
re = "the length is (.*)")
8

add_css(field_name, css, *processors, **kwargs)

Ini mirip dengan metode add_value () dengan satu perbedaan yaitu menambahkan pemilih CSS ke bidang.

loader.add_css('name', 'div.item-name')
loader.add_css('length', 'div#length', 
re = 'the length is (.*)')
9

replace_css(field_name, css, *processors, **kwargs)

Ini menggantikan data yang diekstrak menggunakan pemilih CSS.

loader.replace_css('name', 'div.item-name')
loader.replace_css('length', 'div#length',
 re = 'the length is (.*)')
10

load_item()

Saat data dikumpulkan, metode ini mengisi item dengan data yang dikumpulkan dan mengembalikannya.

def parse(self, response):
l = ItemLoader(item = Product(), 
response = response)
l.add_xpath('title', '//
div[@class = "product_title"]')
loader.load_item()
11

nested_xpath(xpath)

Ini digunakan untuk membuat pemuat bersarang dengan pemilih XPath.

loader = ItemLoader(item = Item())
loader.add_xpath('social', '
a[@class = "social"]/@href')
loader.add_xpath('email', '
a[@class = "email"]/@href')
12

nested_css(css)

Ini digunakan untuk membuat pemuat bersarang dengan pemilih CSS.

loader = ItemLoader(item = Item())
loader.add_css('social', 'a[@class = "social"]/@href')
loader.add_css('email', 'a[@class = "email"]/@href')

Tabel berikut menunjukkan atribut objek ItemLoader -

Sr Tidak Atribut & Deskripsi
1

item

Ini adalah objek tempat Item Loader melakukan parsing.

2

context

Ini adalah konteks Item Loader yang aktif.

3

default_item_class

Ini digunakan untuk mewakili item, jika tidak diberikan dalam konstruktor.

4

default_input_processor

Bidang yang tidak menentukan prosesor input adalah satu-satunya yang digunakan default_input_processors.

5

default_output_processor

Bidang yang tidak menentukan prosesor keluaran adalah satu-satunya yang digunakan default_output_processors.

6

default_selector_class

Ini adalah kelas yang digunakan untuk membuat pemilih, jika tidak diberikan dalam konstruktor.

7

selector

Ini adalah objek yang dapat digunakan untuk mengekstrak data dari situs.

Loader Bersarang

Ini digunakan untuk membuat pemuat bersarang sambil mengurai nilai dari sub-bagian dokumen. Jika Anda tidak membuat pemuat bersarang, Anda perlu menentukan XPath atau CSS lengkap untuk setiap nilai yang ingin Anda ekstrak.

Misalnya, asumsikan bahwa data sedang diekstrak dari halaman header -

<header>
   <a class = "social" href = "http://facebook.com/whatever">facebook</a>
   <a class = "social" href = "http://twitter.com/whatever">twitter</a>
   <a class = "email" href = "mailto:[email protected]">send mail</a>
</header>

Selanjutnya, Anda dapat membuat loader bersarang dengan pemilih header dengan menambahkan nilai terkait ke header -

loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()

Menggunakan kembali dan memperluas Pemuat Item

Item Loader dirancang untuk meringankan pemeliharaan yang menjadi masalah mendasar saat proyek Anda mendapatkan lebih banyak laba-laba.

Misalnya, asumsikan bahwa sebuah situs memiliki nama produk yang diapit dalam tiga tanda hubung (misalnya --DVD ---). Anda dapat menghapus tanda hubung tersebut dengan menggunakan kembali Product Item Loader default, jika Anda tidak menginginkannya di nama produk akhir seperti yang ditunjukkan pada kode berikut -

from scrapy.loader.processors import MapCompose 
from demoproject.ItemLoaders import DemoLoader  

def strip_dashes(x): 
   return x.strip('-')  

class SiteSpecificLoader(DemoLoader): 
   title_in = MapCompose(strip_dashes, DemoLoader.title_in)

Tersedia Prosesor Bawaan

Berikut adalah beberapa prosesor built-in yang umum digunakan -

class scrapy.loader.processors.Identity

Ini mengembalikan nilai asli tanpa mengubahnya. Misalnya -

>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']

class scrapy.loader.processors.TakeFirst

Ini mengembalikan nilai pertama yang tidak kosong / tidak kosong dari daftar nilai yang diterima. Misalnya -

>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'

class scrapy.loader.processors.Join (separator = u '')

Ini mengembalikan nilai yang dilampirkan ke pemisah. Pemisah default adalah u '' dan itu setara dengan fungsinyau' '.join. Misalnya -

>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'

class scrapy.loader.processors.Compose (* functions, ** default_loader_context)

Ini ditentukan oleh prosesor di mana setiap nilai masukannya diteruskan ke fungsi pertama, dan hasil dari fungsi itu diteruskan ke fungsi kedua dan seterusnya, sampai fungsi ast mengembalikan nilai akhir sebagai keluaran.

Misalnya -

>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'

class scrapy.loader.processors.MapCompose (* functions, ** default_loader_context)

Ini adalah prosesor di mana nilai input diulang dan fungsi pertama diterapkan ke setiap elemen. Selanjutnya, hasil dari pemanggilan fungsi ini digabungkan untuk membangun iterable baru yang kemudian diterapkan ke fungsi kedua dan seterusnya, hingga fungsi terakhir.

Misalnya -

>>> def filter_scrapy(x): 
   return None if x == 'scrapy' else x  

>>> from scrapy.loader.processors import MapCompose 
>>> proc = MapCompose(filter_scrapy, unicode.upper) 
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy']) 
[u'HI, u'IM', u'PYTHONSCRAPY']

class scrapy.loader.processors.SelectJmes (json_path)

Kelas ini mengkueri nilai menggunakan jalur json yang disediakan dan mengembalikan hasilnya.

Misalnya -

>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}

Berikut adalah kode, yang menanyakan nilai dengan mengimpor json -

>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']

Deskripsi

Scrapy shell dapat digunakan untuk mengikis data dengan kode bebas kesalahan, tanpa menggunakan spider. Tujuan utama dari Scrapy shell adalah untuk menguji kode yang diekstrak, XPath, atau ekspresi CSS. Ini juga membantu menentukan halaman web dari mana Anda mengambil data.

Konfigurasi Shell

Shell dapat dikonfigurasi dengan menginstal konsol IPython (digunakan untuk komputasi interaktif), yang merupakan shell interaktif yang kuat yang memberikan penyelesaian otomatis, keluaran berwarna, dll.

Jika Anda bekerja pada platform Unix, maka lebih baik menginstal IPython. Anda juga dapat menggunakan bpython , jika IPython tidak dapat diakses.

Anda dapat mengkonfigurasi shell dengan mengatur variabel lingkungan yang disebut SCRAPY_PYTHON_SHELL atau dengan menentukan file scrapy.cfg sebagai berikut -

[settings]
shell = bpython

Meluncurkan Shell

Scrapy shell dapat diluncurkan menggunakan perintah berikut -

scrapy shell <url>

The url Menentukan URL yang data perlu tergores.

Menggunakan Shell

Shell menyediakan beberapa pintasan tambahan dan objek Scrapy seperti yang dijelaskan dalam tabel berikut -

Pintasan Tersedia

Shell menyediakan pintasan yang tersedia berikut dalam proyek -

Sr Tidak Pintasan & Deskripsi
1

shelp()

Ini menyediakan objek dan pintasan yang tersedia dengan opsi bantuan.

2

fetch(request_or_url)

Ini mengumpulkan respons dari permintaan atau URL dan objek terkait akan diperbarui dengan benar.

3

view(response)

Anda dapat melihat respon untuk permintaan yang diberikan di browser lokal untuk observasi dan untuk menampilkan link eksternal dengan benar, itu menambahkan tag dasar ke badan respon.

Objek Scrapy yang Tersedia

Shell menyediakan objek Scrapy yang tersedia berikut dalam proyek -

Sr Tidak Objek & Deskripsi
1

crawler

Ini menentukan objek crawler saat ini.

2

spider

Jika tidak ada spider untuk URL saat ini, maka itu akan menangani URL atau objek spider dengan menentukan spider baru.

3

request

Ini menentukan objek permintaan untuk halaman yang dikumpulkan terakhir.

4

response

Ini menentukan objek respons untuk halaman yang terakhir dikumpulkan.

5

settings

Ini memberikan pengaturan Scrapy saat ini.

Contoh Sesi Shell

Mari kita coba menyalin situs scrapy.org dan kemudian mulai menghapus data dari reddit.com seperti yang dijelaskan.

Sebelum melanjutkan, pertama kita akan meluncurkan shell seperti yang ditunjukkan pada perintah berikut -

scrapy shell 'http://scrapy.org' --nolog

Scrapy akan menampilkan objek yang tersedia saat menggunakan URL di atas -

[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1e16b50>
[s]   item       {}
[s]   request    <GET http://scrapy.org >
[s]   response   <200 http://scrapy.org >
[s]   settings   <scrapy.settings.Settings object at 0x2bfd650>
[s]   spider     <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s]   shelp()           Provides available objects and shortcuts with help option
[s]   fetch(req_or_url) Collects the response from the request or URL and associated 
objects will get update
[s]   view(response)    View the response for the given request

Selanjutnya, mulailah dengan mengerjakan objek, yang ditunjukkan sebagai berikut -

>> response.xpath('//title/text()').extract_first() 
u'Scrapy | A Fast and Powerful Scraping and Web Crawling Framework'  
>> fetch("http://reddit.com") 
[s] Available Scrapy objects: 
[s]   crawler     
[s]   item       {} 
[s]   request     
[s]   response   <200 https://www.reddit.com/> 
[s]   settings    
[s]   spider      
[s] Useful shortcuts: 
[s]   shelp()           Shell help (print this help) 
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects 
[s]   view(response)    View response in a browser  
>> response.xpath('//title/text()').extract() 
[u'reddit: the front page of the internet']  
>> request = request.replace(method="POST")  
>> fetch(request) 
[s] Available Scrapy objects: 
[s]   crawler     
...

Memanggil Shell dari Spider untuk Memeriksa Respons

Anda dapat memeriksa respons yang diproses dari laba-laba, hanya jika Anda berharap mendapatkan respons itu.

Misalnya -

import scrapy 

class SpiderDemo(scrapy.Spider): 
   name = "spiderdemo" 
   start_urls = [ 
      "http://mysite.com", 
      "http://mysite1.org", 
      "http://mysite2.net", 
   ]  
   
   def parse(self, response): 
      # You can inspect one specific response 
      if ".net" in response.url: 
         from scrapy.shell import inspect_response 
         inspect_response(response, self)

Seperti yang ditunjukkan pada kode di atas, Anda dapat memanggil shell dari spider untuk memeriksa respons menggunakan fungsi berikut -

scrapy.shell.inspect_response

Sekarang jalankan laba-laba, dan Anda akan mendapatkan layar berikut -

2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None) 
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None) 
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200)  (referer: None) 
[s] Available Scrapy objects: 
[s]   crawler     
...  
>> response.url 
'http://mysite2.org'

Anda dapat memeriksa apakah kode yang diekstrak berfungsi menggunakan kode berikut -

>> response.xpath('//div[@class = "val"]')

Ini menampilkan output sebagai

[]

Baris di atas hanya menampilkan keluaran kosong. Sekarang Anda dapat memanggil shell untuk memeriksa respons sebagai berikut -

>> view(response)

Ini menampilkan respons sebagai

True

Deskripsi

Item Pipelineadalah metode di mana barang bekas diproses. Saat item dikirim ke Item Pipeline, item tersebut dikikis oleh laba-laba dan diproses menggunakan beberapa komponen, yang dijalankan secara berurutan.

Setiap kali item diterima, itu memutuskan salah satu dari tindakan berikut -

  • Terus proses item tersebut.
  • Jatuhkan dari pipa.
  • Berhenti memproses item tersebut.

Pipa item umumnya digunakan untuk tujuan berikut -

  • Menyimpan barang bekas dalam database.
  • Jika item yang diterima diulang, maka item yang diulang akan dibuang.
  • Ini akan memeriksa apakah item tersebut dengan bidang yang ditargetkan.
  • Menghapus data HTML.

Sintaksis

Anda dapat menulis Item Pipeline menggunakan metode berikut -

process_item(self, item, spider)

Metode di atas berisi parameter berikut -

  • Item (objek item atau kamus) - Ini menentukan item yang dikerok.
  • spider (objek laba-laba) - Laba-laba yang mengikis item tersebut.

Anda dapat menggunakan metode tambahan yang diberikan dalam tabel berikut -

Sr Tidak Metode & Deskripsi Parameter
1

open_spider(self, spider)

Itu dipilih ketika laba-laba dibuka.

spider (objek laba-laba) - Ini mengacu pada laba-laba yang telah dibuka.

2

close_spider(self, spider)

Itu dipilih ketika laba-laba ditutup.

spider (objek laba-laba) - Ini mengacu pada laba-laba yang tertutup.

3

from_crawler(cls, crawler)

Dengan bantuan crawler, pipeline dapat mengakses komponen inti seperti sinyal dan pengaturan Scrapy.

crawler (objek Crawler) - Ini merujuk ke crawler yang menggunakan pipeline ini.

Contoh

Berikut adalah contoh pipeline item yang digunakan dalam berbagai konsep.

Menjatuhkan Item Tanpa Tag

Dalam kode berikut, pipeline menyeimbangkan atribut (price) untuk item yang tidak menyertakan PPN (atribut excludes_vat) dan mengabaikan item yang tidak memiliki label harga -

from Scrapy.exceptions import DropItem  
class PricePipeline(object): 
   vat = 2.25 

   def process_item(self, item, spider): 
      if item['price']: 
         if item['excludes_vat']: 
            item['price'] = item['price'] * self.vat 
            return item 
         else: 
            raise DropItem("Missing price in %s" % item)

Menulis Item ke File JSON

Kode berikut akan menyimpan semua item yang dikikis dari semua laba-laba menjadi satu items.jlfile, yang berisi satu item per baris dalam bentuk serial dalam format JSON. ItuJsonWriterPipeline class digunakan dalam kode untuk menunjukkan cara menulis pipeline item -

import json  

class JsonWriterPipeline(object): 
   def __init__(self): 
      self.file = open('items.jl', 'wb') 

   def process_item(self, item, spider): 
      line = json.dumps(dict(item)) + "\n" 
      self.file.write(line) 
      return item

Menulis Item ke MongoDB

Anda dapat menentukan alamat MongoDB dan nama database di pengaturan Scrapy dan koleksi MongoDB bisa diberi nama setelah kelas item. Kode berikut menjelaskan cara menggunakanfrom_crawler() metode untuk mengumpulkan sumber daya dengan benar -

import pymongo  

class MongoPipeline(object):  
   collection_name = 'Scrapy_list' 

   def __init__(self, mongo_uri, mongo_db): 
      self.mongo_uri = mongo_uri 
      self.mongo_db = mongo_db 

   @classmethod 
   def from_crawler(cls, crawler): 
      return cls( 
         mongo_uri = crawler.settings.get('MONGO_URI'), 
         mongo_db = crawler.settings.get('MONGO_DB', 'lists') 
      ) 
  
   def open_spider(self, spider): 
      self.client = pymongo.MongoClient(self.mongo_uri) 
      self.db = self.client[self.mongo_db] 

   def close_spider(self, spider): 
      self.client.close() 

   def process_item(self, item, spider): 
      self.db[self.collection_name].insert(dict(item)) 
      return item

Filter Duplikat

Filter akan memeriksa item yang berulang dan akan menghapus item yang sudah diproses. Dalam kode berikut, kami telah menggunakan id unik untuk item kami, tetapi spider mengembalikan banyak item dengan id yang sama -

from scrapy.exceptions import DropItem  

class DuplicatesPipeline(object):  
   def __init__(self): 
      self.ids_seen = set() 

   def process_item(self, item, spider): 
      if item['id'] in self.ids_seen: 
         raise DropItem("Repeated items found: %s" % item) 
      else: 
         self.ids_seen.add(item['id']) 
         return item

Mengaktifkan Item Pipeline

Anda dapat mengaktifkan komponen Item Pipeline dengan menambahkan kelasnya ke pengaturan ITEM_PIPELINES seperti yang ditunjukkan pada kode berikut. Anda dapat menetapkan nilai integer ke kelas dalam urutan yang mereka jalankan (urutan dapat dinilai lebih rendah ke kelas bernilai lebih tinggi) dan nilai akan berada dalam kisaran 0-1000.

ITEM_PIPELINES = {
   'myproject.pipelines.PricePipeline': 100,
   'myproject.pipelines.JsonWriterPipeline': 600,
}

Deskripsi

Ekspor umpan adalah metode penyimpanan data yang diambil dari situs, yang menghasilkan file "export file".

Format Serialisasi

Menggunakan beberapa format serialisasi dan penyimpanan backend, Ekspor Umpan menggunakan eksportir Item dan menghasilkan umpan dengan item yang dikorek.

Tabel berikut menunjukkan format yang didukung−

Sr Tidak Format & Deskripsi
1

JSON

FEED_FORMAT adalah json

Eksportir yang digunakan adalah class scrapy.exporters.JsonItemExporter

2

JSON lines

FEED_FROMAT adalah jsonlines

Eksportir yang digunakan adalah class scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT adalah CSV

Eksportir yang digunakan adalah class scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT adalah xml

Eksportir yang digunakan adalah class scrapy.exporters.XmlItemExporter

Menggunakan FEED_EXPORTERS pengaturan, format yang didukung juga dapat diperpanjang -

Sr Tidak Format & Deskripsi
1

Pickle

FEED_FORMAT adalah pilihan

Eksportir yang digunakan adalah class scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT adalah marshal

Eksportir yang digunakan adalah class scrapy.exporters.MarshalItemExporter

Backend Penyimpanan

Penyimpanan backend menentukan tempat menyimpan feed menggunakan URI.

Tabel berikut menunjukkan backend penyimpanan yang didukung -

Sr Tidak Deskripsi & Backend Penyimpanan
1

Local filesystem

Skema URI adalah file dan digunakan untuk menyimpan feed.

2

FTP

Skema URI adalah ftp dan digunakan untuk menyimpan feed.

3

S3

Skema URI S3 dan feed disimpan di Amazon S3. Perpustakaan eksternal botocore atau boto diperlukan.

4

Standard output

Skema URI adalah stdout dan feed disimpan ke keluaran standar.

Parameter URI Penyimpanan

Berikut adalah parameter penyimpanan URL, yang akan diganti saat feed dibuat -

  • % (time) s: Parameter ini diganti dengan stempel waktu.
  • % (name) s: Parameter ini diganti dengan nama laba-laba.

Pengaturan

Tabel berikut menunjukkan pengaturan yang menggunakan ekspor Feed yang dapat dikonfigurasi -

Sr Tidak Pengaturan & Deskripsi
1

FEED_URI

Ini adalah URI feed ekspor yang digunakan untuk mengaktifkan ekspor feed.

2

FEED_FORMAT

Ini adalah format serialisasi yang digunakan untuk feed.

3

FEED_EXPORT_FIELDS

Ini digunakan untuk menentukan bidang yang perlu diekspor.

4

FEED_STORE_EMPTY

Ini menentukan apakah akan mengekspor feed tanpa item.

5

FEED_STORAGES

Ini adalah kamus dengan backend penyimpanan feed tambahan.

6

FEED_STORAGES_BASE

Ini adalah kamus dengan backend penyimpanan umpan bawaan.

7

FEED_EXPORTERS

Ini adalah kamus dengan eksportir pakan tambahan.

8

FEED_EXPORTERS_BASE

Ini adalah kamus dengan eksportir umpan bawaan.

Deskripsi

Scrapy dapat merayapi situs web menggunakan Request dan Responsebenda. Objek permintaan melewati sistem, menggunakan spider untuk menjalankan permintaan dan kembali ke permintaan ketika mengembalikan objek respons.

Minta Objek

Objek permintaan adalah permintaan HTTP yang menghasilkan respons. Ini memiliki kelas berikut -

class scrapy.http.Request(url[, callback, method = 'GET', headers, body, cookies, meta,
   encoding = 'utf-8', priority = 0, dont_filter = False, errback])

Tabel berikut menunjukkan parameter objek Permintaan -

Sr Tidak Parameter & Deskripsi
1

url

Ini adalah string yang menentukan permintaan URL.

2

callback

Ini adalah fungsi yang dapat dipanggil yang menggunakan respons permintaan sebagai parameter pertama.

3

method

Ini adalah string yang menentukan permintaan metode HTTP.

4

headers

Ini adalah kamus dengan header permintaan.

5

body

Ini adalah string atau unicode yang memiliki isi permintaan.

6

cookies

Ini adalah daftar yang berisi cookie permintaan.

7

meta

Ini adalah kamus yang berisi nilai untuk metadata permintaan.

8

encoding

Ini adalah string yang berisi pengkodean utf-8 yang digunakan untuk menyandikan URL.

9

priority

Ini adalah bilangan bulat di mana penjadwal menggunakan prioritas untuk menentukan urutan untuk memproses permintaan.

10

dont_filter

Ini adalah boolean yang menentukan bahwa penjadwal tidak boleh memfilter permintaan.

11

errback

Ini adalah fungsi yang dapat dipanggil untuk dipanggil ketika pengecualian saat memproses permintaan dimunculkan.

Meneruskan Data Tambahan ke Fungsi Callback

Fungsi panggilan balik dari sebuah permintaan dipanggil ketika respon diunduh sebagai parameter pertamanya.

Misalnya -

def parse_page1(self, response): 
   return scrapy.Request("http://www.something.com/some_page.html", 
      callback = self.parse_page2)  

def parse_page2(self, response): 
   self.logger.info("%s page visited", response.url)

Kamu dapat memakai Request.meta atribut, jika Anda ingin meneruskan argumen ke fungsi yang dapat dipanggil dan menerima argumen tersebut di callback kedua seperti yang ditunjukkan dalam contoh berikut -

def parse_page1(self, response): 
   item = DemoItem() 
   item['foremost_link'] = response.url 
   request = scrapy.Request("http://www.something.com/some_page.html", 
      callback = self.parse_page2) 
   request.meta['item'] = item 
   return request  

def parse_page2(self, response): 
   item = response.meta['item'] 
   item['other_link'] = response.url 
   return item

Menggunakan errbacks untuk Menangkap Pengecualian dalam Pemrosesan Permintaan

Errback adalah fungsi yang dapat dipanggil untuk dipanggil saat pengecualian saat memproses permintaan dimunculkan.

Contoh berikut menunjukkan ini -

import scrapy  

from scrapy.spidermiddlewares.httperror import HttpError 
from twisted.internet.error import DNSLookupError 
from twisted.internet.error import TimeoutError, TCPTimedOutError  

class DemoSpider(scrapy.Spider): 
   name = "demo" 
   start_urls = [ 
      "http://www.httpbin.org/",              # HTTP 200 expected 
      "http://www.httpbin.org/status/404",    # Webpage not found  
      "http://www.httpbin.org/status/500",    # Internal server error 
      "http://www.httpbin.org:12345/",        # timeout expected 
      "http://www.httphttpbinbin.org/",       # DNS error expected 
   ]  
   
   def start_requests(self): 
      for u in self.start_urls: 
         yield scrapy.Request(u, callback = self.parse_httpbin, 
         errback = self.errback_httpbin, 
         dont_filter=True)  
   
   def parse_httpbin(self, response): 
      self.logger.info('Recieved response from {}'.format(response.url)) 
      # ...  
   
   def errback_httpbin(self, failure): 
      # logs failures 
      self.logger.error(repr(failure))  
      
      if failure.check(HttpError): 
         response = failure.value.response 
         self.logger.error("HttpError occurred on %s", response.url)  
      
      elif failure.check(DNSLookupError): 
         request = failure.request 
         self.logger.error("DNSLookupError occurred on %s", request.url) 

      elif failure.check(TimeoutError, TCPTimedOutError): 
         request = failure.request 
         self.logger.error("TimeoutError occurred on %s", request.url)

Request.meta Tombol Khusus

Kunci khusus request.meta adalah daftar kunci meta khusus yang diidentifikasi oleh Scrapy.

Tabel berikut menunjukkan beberapa kunci Request.meta -

Sr Tidak Kunci & Deskripsi
1

dont_redirect

Ini adalah kunci jika disetel ke true, tidak mengalihkan permintaan berdasarkan status respons.

2

dont_retry

Ini adalah kunci jika disetel ke true, tidak mencoba lagi permintaan yang gagal dan akan diabaikan oleh middleware.

3

handle_httpstatus_list

Ini adalah kunci yang menentukan kode respons per permintaan mana yang dapat diizinkan.

4

handle_httpstatus_all

Ini adalah kunci yang digunakan untuk mengizinkan kode respons apa pun untuk permintaan dengan menyetelnya ke true .

5

dont_merge_cookies

Ini adalah kunci yang digunakan untuk menghindari penggabungan dengan cookie yang ada dengan menyetelnya ke true .

6

cookiejar

Ini adalah kunci yang digunakan untuk menyimpan beberapa sesi kue per laba-laba.

7

dont_cache

Ini adalah kunci yang digunakan untuk menghindari caching permintaan HTTP dan respon pada setiap kebijakan.

8

redirect_urls

Ini adalah kunci yang berisi URL yang dilalui permintaan.

9

bindaddress

Ini adalah IP dari alamat IP keluar yang dapat digunakan untuk melakukan permintaan.

10

dont_obey_robotstxt

Ini adalah kunci jika disetel ke true, tidak memfilter permintaan yang dilarang oleh standar pengecualian robots.txt, meskipun ROBOTSTXT_OBEY diaktifkan.

11

download_timeout

Ini digunakan untuk mengatur waktu tunggu (dalam detik) per laba-laba yang pengunduh akan menunggu sebelum waktu habis.

12

download_maxsize

Ini digunakan untuk mengatur ukuran maksimum (dalam byte) per spider, yang akan diunduh oleh pengunduh.

13

proxy

Proksi dapat diatur untuk objek Permintaan untuk mengatur proxy HTTP untuk penggunaan permintaan.

Minta Subkelas

Anda dapat mengimplementasikan fungsionalitas kustom Anda sendiri dengan membuat subclass kelas permintaan. Subkelas permintaan bawaan adalah sebagai berikut -

Objek FormRequest

Kelas FormRequest menangani formulir HTML dengan memperluas permintaan dasar. Ini memiliki kelas berikut -

class scrapy.http.FormRequest(url[,formdata, callback, method = 'GET', headers, body, 
   cookies, meta, encoding = 'utf-8', priority = 0, dont_filter = False, errback])

Berikut adalah parameternya -

formdata - Ini adalah kamus yang memiliki data bentuk HTML yang ditugaskan ke tubuh permintaan.

Note - Parameter yang tersisa sama dengan kelas permintaan dan dijelaskan di Request Objects section.

The following class methods are supported by FormRequest objects in addition to request methods −

classmethod from_response(response[, formname = None, formnumber = 0, formdata = None, 
   formxpath = None, formcss = None, clickdata = None, dont_click = False, ...])

The following table shows the parameters of the above class −

Sr.No Parameter & Description
1

response

It is an object used to pre-populate the form fields using HTML form of response.

2

formname

It is a string where the form having name attribute will be used, if specified.

3

formnumber

It is an integer of forms to be used when there are multiple forms in the response.

4

formdata

It is a dictionary of fields in the form data used to override.

5

formxpath

It is a string when specified, the form matching the xpath is used.

6

formcss

It is a string when specified, the form matching the css selector is used.

7

clickdata

It is a dictionary of attributes used to observe the clicked control.

8

dont_click

The data from the form will be submitted without clicking any element, when set to true.

Examples

Following are some of the request usage examples −

Using FormRequest to send data via HTTP POST

The following code demonstrates how to return FormRequest object when you want to duplicate HTML form POST in your spider −

return [FormRequest(url = "http://www.something.com/post/action", 
   formdata = {'firstname': 'John', 'lastname': 'dave'}, 
   callback = self.after_post)]

Using FormRequest.from_response() to simulate a user login

Normally, websites use elements through which it provides pre-populated form fields.

The FormRequest.form_response() method can be used when you want these fields to be automatically populate while scraping.

The following example demonstrates this.

import scrapy  
class DemoSpider(scrapy.Spider): 
   name = 'demo' 
   start_urls = ['http://www.something.com/users/login.php']  
   def parse(self, response): 
      return scrapy.FormRequest.from_response( 
         response, 
         formdata = {'username': 'admin', 'password': 'confidential'}, 
         callback = self.after_login 
      )  
   
   def after_login(self, response): 
      if "authentication failed" in response.body: 
         self.logger.error("Login failed") 
         return  
      # You can continue scraping here

Response Objects

It is an object indicating HTTP response that is fed to the spiders to process. It has the following class −

class scrapy.http.Response(url[, status = 200, headers, body, flags])

The following table shows the parameters of Response objects −

Sr.No Parameter & Description
1

url

It is a string that specifies the URL response.

2

status

It is an integer that contains HTTP status response.

3

headers

It is a dictionary containing response headers.

4

body

It is a string with response body.

5

flags

It is a list containing flags of response.

Response Subclasses

You can implement your own custom functionality by subclassing the response class. The built-in response subclasses are as follows −

TextResponse objects

TextResponse objects are used for binary data such as images, sounds, etc. which has the ability to encode the base Response class. It has the following class −

class scrapy.http.TextResponse(url[, encoding[,status = 200, headers, body, flags]])

Following is the parameter −

encoding − It is a string with encoding that is used to encode a response.

Note − Remaining parameters are same as response class and is explained in Response Objects section.

The following table shows the attributes supported by TextResponse object in addition to response methods −

Sr.No Attribute & Description
1

text

It is a response body, where response.text can be accessed multiple times.

2

encoding

It is a string containing encoding for response.

3

selector

It is an attribute instantiated on first access and uses response as target.

The following table shows the methods supported by TextResponse objects in addition to response methods −

Sr.No Method & Description
1

xpath (query)

It is a shortcut to TextResponse.selector.xpath(query).

2

css (query)

It is a shortcut to TextResponse.selector.css(query).

3

body_as_unicode()

It is a response body available as a method, where response.text can be accessed multiple times.

HtmlResponse Objects

It is an object that supports encoding and auto-discovering by looking at the meta httpequiv attribute of HTML. Its parameters are the same as response class and is explained in Response objects section. It has the following class −

class scrapy.http.HtmlResponse(url[,status = 200, headers, body, flags])

XmlResponse Objects

It is an object that supports encoding and auto-discovering by looking at the XML line. Its parameters are the same as response class and is explained in Response objects section. It has the following class −

class scrapy.http.XmlResponse(url[, status = 200, headers, body, flags])

Description

As the name itself indicates, Link Extractors are the objects that are used to extract links from web pages using scrapy.http.Response objects. In Scrapy, there are built-in extractors such as scrapy.linkextractors import LinkExtractor. You can customize your own link extractor according to your needs by implementing a simple interface.

Every link extractor has a public method called extract_links which includes a Response object and returns a list of scrapy.link.Link objects. You can instantiate the link extractors only once and call the extract_links method various times to extract links with different responses. The CrawlSpiderclass uses link extractors with a set of rules whose main purpose is to extract links.

Built-in Link Extractor's Reference

Normally link extractors are grouped with Scrapy and are provided in scrapy.linkextractors module. By default, the link extractor will be LinkExtractor which is equal in functionality with LxmlLinkExtractor −

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow = (), deny = (), 
   allow_domains = (), deny_domains = (), deny_extensions = None, restrict_xpaths = (), 
   restrict_css = (), tags = ('a', 'area'), attrs = ('href', ), 
   canonicalize = True, unique = True, process_value = None)

The LxmlLinkExtractor is a highly recommended link extractor, because it has handy filtering options and it is used with lxml’s robust HTMLParser.

Sr.No Parameter & Description
1

allow (a regular expression (or list of))

It allows a single expression or group of expressions that should match the url which is to be extracted. If it is not mentioned, it will match all the links.

2

deny (a regular expression (or list of))

It blocks or excludes a single expression or group of expressions that should match the url which is not to be extracted. If it is not mentioned or left empty, then it will not eliminate the undesired links.

3

allow_domains (str or list)

It allows a single string or list of strings that should match the domains from which the links are to be extracted.

4

deny_domains (str or list)

It blocks or excludes a single string or list of strings that should match the domains from which the links are not to be extracted.

5

deny_extensions (list)

It blocks the list of strings with the extensions when extracting the links. If it is not set, then by default it will be set to IGNORED_EXTENSIONS which contains predefined list in scrapy.linkextractors package.

6

restrict_xpaths (str or list)

It is an XPath list region from where the links are to be extracted from the response. If given, the links will be extracted only from the text, which is selected by XPath.

7

restrict_css (str or list)

It behaves similar to restrict_xpaths parameter which will extract the links from the CSS selected regions inside the response.

8

tags (str or list)

A single tag or a list of tags that should be considered when extracting the links. By default, it will be (’a’, ’area’).

9

attrs (list)

A single attribute or list of attributes should be considered while extracting links. By default, it will be (’href’,).

10

canonicalize (boolean)

The extracted url is brought to standard form using scrapy.utils.url.canonicalize_url. By default, it will be True.

11

unique (boolean)

It will be used if the extracted links are repeated.

12

process_value (callable)

It is a function which receives a value from scanned tags and attributes. The value received may be altered and returned or else nothing will be returned to reject the link. If not used, by default it will be lambda x: x.

Example

The following code is used to extract the links −

<a href = "javascript:goToPage('../other/page.html'); return false">Link text</a>

The following code function can be used in process_value −

def process_value(val): 
   m = re.search("javascript:goToPage\('(.*?)'", val) 
   if m: 
      return m.group(1)

Description

The behavior of Scrapy components can be modified using Scrapy settings. The settings can also select the Scrapy project that is currently active, in case you have multiple Scrapy projects.

Designating the Settings

You must notify Scrapy which setting you are using when you scrap a website. For this, environment variable SCRAPY_SETTINGS_MODULE should be used and its value should be in Python path syntax.

Populating the Settings

The following table shows some of the mechanisms by which you can populate the settings −

Sr.No Mechanism & Description
1

Command line options

Here, the arguments that are passed takes highest precedence by overriding other options. The -s is used to override one or more settings.

scrapy crawl myspider -s LOG_FILE = scrapy.log
2

Settings per-spider

Spiders can have their own settings that overrides the project ones by using attribute custom_settings.

class DemoSpider(scrapy.Spider): 
   name = 'demo'  
   custom_settings = { 
      'SOME_SETTING': 'some value', 
   }
3

Project settings module

Here, you can populate your custom settings such as adding or modifying the settings in the settings.py file.

4

Default settings per-command

Each Scrapy tool command defines its own settings in the default_settings attribute, to override the global default settings.

5

Default global settings

These settings are found in the scrapy.settings.default_settings module.

Access Settings

They are available through self.settings and set in the base spider after it is initialized.

The following example demonstrates this.

class DemoSpider(scrapy.Spider): 
   name = 'demo' 
   start_urls = ['http://example.com']  
   def parse(self, response): 
      print("Existing settings: %s" % self.settings.attributes.keys())

To use settings before initializing the spider, you must override from_crawler method in the _init_() method of your spider. You can access settings through attribute scrapy.crawler.Crawler.settings passed to from_crawler method.

The following example demonstrates this.

class MyExtension(object): 
   def __init__(self, log_is_enabled = False): 
      if log_is_enabled: 
         print("Enabled log") 
         @classmethod 
   def from_crawler(cls, crawler): 
      settings = crawler.settings 
      return cls(settings.getbool('LOG_ENABLED'))

Rationale for Setting Names

Setting names are added as a prefix to the component they configure. For example, for robots.txt extension, the setting names can be ROBOTSTXT_ENABLED, ROBOTSTXT_OBEY, ROBOTSTXT_CACHEDIR, etc.

Built-in Settings Reference

The following table shows the built-in settings of Scrapy −

Sr.No Setting & Description
1

AWS_ACCESS_KEY_ID

It is used to access Amazon Web Services.

Default value: None

2

AWS_SECRET_ACCESS_KEY

It is used to access Amazon Web Services.

Default value: None

3

BOT_NAME

It is the name of bot that can be used for constructing User-Agent.

Default value: 'scrapybot'

4

CONCURRENT_ITEMS

Maximum number of existing items in the Item Processor used to process parallely.

Default value: 100

5

CONCURRENT_REQUESTS

Maximum number of existing requests which Scrapy downloader performs.

Default value: 16

6

CONCURRENT_REQUESTS_PER_DOMAIN

Maximum number of existing requests that perform simultaneously for any single domain.

Default value: 8

7

CONCURRENT_REQUESTS_PER_IP

Maximum number of existing requests that performs simultaneously to any single IP.

Default value: 0

8

DEFAULT_ITEM_CLASS

It is a class used to represent items.

Default value: 'scrapy.item.Item'

9

DEFAULT_REQUEST_HEADERS

It is a default header used for HTTP requests of Scrapy.

Default value −

{  
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,
	*/*;q=0.8', 'Accept-Language': 'en',  
}
10

DEPTH_LIMIT

The maximum depth for a spider to crawl any site.

Default value: 0

11

DEPTH_PRIORITY

It is an integer used to alter the priority of request according to the depth.

Default value: 0

12

DEPTH_STATS

It states whether to collect depth stats or not.

Default value: True

13

DEPTH_STATS_VERBOSE

This setting when enabled, the number of requests is collected in stats for each verbose depth.

Default value: False

14

DNSCACHE_ENABLED

It is used to enable DNS in memory cache.

Default value: True

15

DNSCACHE_SIZE

It defines the size of DNS in memory cache.

Default value: 10000

16

DNS_TIMEOUT

It is used to set timeout for DNS to process the queries.

Default value: 60

17

DOWNLOADER

It is a downloader used for the crawling process.

Default value: 'scrapy.core.downloader.Downloader'

18

DOWNLOADER_MIDDLEWARES

It is a dictionary holding downloader middleware and their orders.

Default value: {}

19

DOWNLOADER_MIDDLEWARES_BASE

It is a dictionary holding downloader middleware that is enabled by default.

Default value −

{ 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, }
20

DOWNLOADER_STATS

This setting is used to enable the downloader stats.

Default value: True

21

DOWNLOAD_DELAY

It defines the total time for downloader before it downloads the pages from the site.

Default value: 0

22

DOWNLOAD_HANDLERS

It is a dictionary with download handlers.

Default value: {}

23

DOWNLOAD_HANDLERS_BASE

It is a dictionary with download handlers that is enabled by default.

Default value −

{ 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler', }
24

DOWNLOAD_TIMEOUT

It is the total time for downloader to wait before it times out.

Default value: 180

25

DOWNLOAD_MAXSIZE

It is the maximum size of response for the downloader to download.

Default value: 1073741824 (1024MB)

26

DOWNLOAD_WARNSIZE

It defines the size of response for downloader to warn.

Default value: 33554432 (32MB)

27

DUPEFILTER_CLASS

It is a class used for detecting and filtering of requests that are duplicate.

Default value: 'scrapy.dupefilters.RFPDupeFilter'

28

DUPEFILTER_DEBUG

This setting logs all duplicate filters when set to true.

Default value: False

29

EDITOR

It is used to edit spiders using the edit command.

Default value: Depends on the environment

30

EXTENSIONS

It is a dictionary having extensions that are enabled in the project.

Default value: {}

31

EXTENSIONS_BASE

It is a dictionary having built-in extensions.

Default value: { 'scrapy.extensions.corestats.CoreStats': 0, }

32

FEED_TEMPDIR

It is a directory used to set the custom folder where crawler temporary files can be stored.

33

ITEM_PIPELINES

It is a dictionary having pipelines.

Default value: {}

34

LOG_ENABLED

It defines if the logging is to be enabled.

Default value: True

35

LOG_ENCODING

It defines the type of encoding to be used for logging.

Default value: 'utf-8'

36

LOG_FILE

It is the name of the file to be used for the output of logging.

Default value: None

37

LOG_FORMAT

It is a string using which the log messages can be formatted.

Default value: '%(asctime)s [%(name)s] %(levelname)s: %(message)s'

38

LOG_DATEFORMAT

It is a string using which date/time can be formatted.

Default value: '%Y-%m-%d %H:%M:%S'

39

LOG_LEVEL

It defines minimum log level.

Default value: 'DEBUG'

40

LOG_STDOUT

This setting if set to true, all your process output will appear in the log.

Default value: False

41

MEMDEBUG_ENABLED

It defines if the memory debugging is to be enabled.

Default Value: False

42

MEMDEBUG_NOTIFY

It defines the memory report that is sent to a particular address when memory debugging is enabled.

Default value: []

43

MEMUSAGE_ENABLED

It defines if the memory usage is to be enabled when a Scrapy process exceeds a memory limit.

Default value: False

44

MEMUSAGE_LIMIT_MB

It defines the maximum limit for the memory (in megabytes) to be allowed.

Default value: 0

45

MEMUSAGE_CHECK_INTERVAL_SECONDS

It is used to check the present memory usage by setting the length of the intervals.

Default value: 60.0

46

MEMUSAGE_NOTIFY_MAIL

It is used to notify with a list of emails when the memory reaches the limit.

Default value: False

47

MEMUSAGE_REPORT

It defines if the memory usage report is to be sent on closing each spider.

Default value: False

48

MEMUSAGE_WARNING_MB

It defines a total memory to be allowed before a warning is sent.

Default value: 0

49

NEWSPIDER_MODULE

It is a module where a new spider is created using genspider command.

Default value: ''

50

RANDOMIZE_DOWNLOAD_DELAY

It defines a random amount of time for a Scrapy to wait while downloading the requests from the site.

Default value: True

51

REACTOR_THREADPOOL_MAXSIZE

It defines a maximum size for the reactor threadpool.

Default value: 10

52

REDIRECT_MAX_TIMES

It defines how many times a request can be redirected.

Default value: 20

53

REDIRECT_PRIORITY_ADJUST

This setting when set, adjusts the redirect priority of a request.

Default value: +2

54

RETRY_PRIORITY_ADJUST

This setting when set, adjusts the retry priority of a request.

Default value: -1

55

ROBOTSTXT_OBEY

Scrapy obeys robots.txt policies when set to true.

Default value: False

56

SCHEDULER

It defines the scheduler to be used for crawl purpose.

Default value: 'scrapy.core.scheduler.Scheduler'

57

SPIDER_CONTRACTS

It is a dictionary in the project having spider contracts to test the spiders.

Default value: {}

58

SPIDER_CONTRACTS_BASE

It is a dictionary holding Scrapy contracts which is enabled in Scrapy by default.

Default value −

{ 
   'scrapy.contracts.default.UrlContract' : 1, 
   'scrapy.contracts.default.ReturnsContract': 2, 
}
59

SPIDER_LOADER_CLASS

It defines a class which implements SpiderLoader API to load spiders.

Default value: 'scrapy.spiderloader.SpiderLoader'

60

SPIDER_MIDDLEWARES

It is a dictionary holding spider middlewares.

Default value: {}

61

SPIDER_MIDDLEWARES_BASE

It is a dictionary holding spider middlewares that is enabled in Scrapy by default.

Default value −

{ 
   'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, 
}
62

SPIDER_MODULES

It is a list of modules containing spiders which Scrapy will look for.

Default value: []

63

STATS_CLASS

It is a class which implements Stats Collector API to collect stats.

Default value: 'scrapy.statscollectors.MemoryStatsCollector'

64

STATS_DUMP

This setting when set to true, dumps the stats to the log.

Default value: True

65

STATSMAILER_RCPTS

Once the spiders finish scraping, Scrapy uses this setting to send the stats.

Default value: []

66

TELNETCONSOLE_ENABLED

It defines whether to enable the telnetconsole.

Default value: True

67

TELNETCONSOLE_PORT

It defines a port for telnet console.

Default value: [6023, 6073]

68

TEMPLATES_DIR

It is a directory containing templates that can be used while creating new projects.

Default value: templates directory inside scrapy module

69

URLLENGTH_LIMIT

It defines the maximum limit of the length for URL to be allowed for crawled URLs.

Default value: 2083

70

USER_AGENT

It defines the user agent to be used while crawling a site.

Default value: "Scrapy/VERSION (+http://scrapy.org)"

For other Scrapy settings, go to this link.

Description

The irregular events are referred to as exceptions. In Scrapy, exceptions are raised due to reasons such as missing configuration, dropping item from the item pipeline, etc. Following is the list of exceptions mentioned in Scrapy and their application.

DropItem

Item Pipeline utilizes this exception to stop processing of the item at any stage. It can be written as −

exception (scrapy.exceptions.DropItem)

CloseSpider

This exception is used to stop the spider using the callback request. It can be written as −

exception (scrapy.exceptions.CloseSpider)(reason = 'cancelled')

It contains parameter called reason (str) which specifies the reason for closing.

For instance, the following code shows this exception usage −

def parse_page(self, response): 
   if 'Bandwidth exceeded' in response.body: 
      raise CloseSpider('bandwidth_exceeded')

IgnoreRequest

This exception is used by scheduler or downloader middleware to ignore a request. It can be written as −

exception (scrapy.exceptions.IgnoreRequest)

NotConfigured

It indicates a missing configuration situation and should be raised in a component constructor.

exception (scrapy.exceptions.NotConfigured)

Pengecualian ini dapat dimunculkan, jika salah satu dari komponen berikut ini dinonaktifkan.

  • Extensions
  • Pipa item
  • Middlewares pengunduh
  • Middlewares laba-laba

Tidak didukung

Pengecualian ini dimunculkan ketika fitur atau metode apa pun tidak didukung. Itu dapat ditulis sebagai -

exception (scrapy.exceptions.NotSupported)

Deskripsi

Untuk menghapus data dari halaman web, pertama-tama Anda perlu membuat proyek Scrapy tempat Anda akan menyimpan kodenya. Untuk membuat direktori baru, jalankan perintah berikut -

scrapy startproject first_scrapy

Kode di atas akan membuat direktori dengan nama first_scrapy dan akan berisi struktur berikut -

first_scrapy/
scrapy.cfg            # deploy configuration file
first_scrapy/         # project's Python module, you'll import your code from here
__init__.py
items.py              # project items file
pipelines.py          # project pipelines file
settings.py           # project settings file
spiders/              # a directory where you'll later put your spiders
__init__.py

Deskripsi

Item adalah wadah yang digunakan untuk mengumpulkan data yang dihapus dari situs web. Anda harus memulai laba-laba Anda dengan menentukan Item Anda. Untuk menentukan item, edititems.py file ditemukan di bawah direktori first_scrapy(direktori kustom). The items.py terlihat seperti berikut ini -

import scrapy  

class First_scrapyItem(scrapy.Item): 
   # define the fields for your item here like: 
      # name = scrapy.Field()

Kelas MyItem mewarisi dari Item yang berisi sejumlah objek yang telah ditentukan sebelumnya yang telah dibuat oleh Scrapy untuk kita. Misalnya, jika Anda ingin mengekstrak nama, URL, dan deskripsi dari situs, Anda perlu menentukan bidang untuk masing-masing dari ketiga atribut ini.

Karenanya, mari tambahkan barang-barang yang ingin kita kumpulkan -

from scrapy.item import Item, Field  

class First_scrapyItem(scrapy.Item): 
   name = scrapy.Field() 
   url = scrapy.Field() 
   desc = scrapy.Field()

Deskripsi

Spider adalah kelas yang mendefinisikan URL awal untuk mengekstrak datanya, cara mengikuti tautan pagination dan cara mengekstrak dan mengurai bidang yang ditentukan di items.py. Scrapy menyediakan berbagai jenis laba-laba yang masing-masing memberikan tujuan tertentu.

Buat file bernama "first_spider.py"di bawah direktori first_scrapy / spiders, tempat kita dapat memberi tahu Scrapy cara menemukan data persis yang kita cari. Untuk ini, Anda harus menentukan beberapa atribut -

  • name - Ini mendefinisikan nama unik untuk laba-laba.

  • allowed_domains - Berisi URL dasar untuk dirayapi laba-laba.

  • start-urls - Daftar URL tempat laba-laba mulai merayapi.

  • parse() - Ini adalah metode yang mengekstrak dan mem-parsing data yang dikikis.

Kode berikut menunjukkan bagaimana kode laba-laba terlihat -

import scrapy  

class firstSpider(scrapy.Spider): 
   name = "first" 
   allowed_domains = ["dmoz.org"] 
   
   start_urls = [ 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
   ]  
   def parse(self, response): 
      filename = response.url.split("/")[-2] + '.html' 
      with open(filename, 'wb') as f: 
         f.write(response.body)

Deskripsi

Untuk mengeksekusi spider Anda, jalankan perintah berikut dalam direktori first_scrapy Anda -

scrapy crawl first

Dimana, first adalah nama laba-laba yang ditentukan saat membuat laba-laba.

Setelah laba-laba merayap, Anda dapat melihat keluaran berikut -

2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)

Seperti yang Anda lihat di output, untuk setiap URL ada baris log yang (referer: None) menyatakan bahwa URL tersebut adalah URL awal dan tidak memiliki perujuk. Selanjutnya, Anda akan melihat dua file baru bernama Books.html dan Resources.html dibuat di direktori first_scrapy Anda .

Deskripsi

Untuk mengekstraksi data dari halaman web, Scrapy menggunakan teknik yang disebut penyeleksi berdasarkan ekspresi XPath dan CSS . Berikut adalah beberapa contoh ekspresi XPath -

  • /html/head/title - Ini akan memilih elemen <title>, di dalam elemen <head> dari dokumen HTML.

  • /html/head/title/text() - Ini akan memilih teks dalam elemen <title> yang sama.

  • //td - Ini akan memilih semua elemen dari <td>.

  • //div[@class = "slice"]- Ini akan memilih semua elemen dari div yang berisi atribut class = "slice"

Penyeleksi memiliki empat metode dasar seperti yang ditunjukkan pada tabel berikut -

Sr Tidak Metode & Deskripsi
1

extract()

Ini mengembalikan string unicode bersama dengan data yang dipilih.

2

re()

Ini mengembalikan daftar string unicode, diekstraksi ketika ekspresi reguler diberikan sebagai argumen.

3

xpath()

Ini mengembalikan daftar pemilih, yang mewakili node yang dipilih oleh ekspresi xpath yang diberikan sebagai argumen.

4

css()

Ini mengembalikan daftar pemilih, yang mewakili node yang dipilih oleh ekspresi CSS yang diberikan sebagai argumen.

Menggunakan Selectors di Shell

Untuk mendemonstrasikan pemilih dengan shell Scrapy built-in, Anda harus menginstal IPython di sistem Anda. Yang penting di sini adalah, URL harus disertakan di dalam tanda kutip saat menjalankan Scrapy; jika tidak, URL dengan karakter '&' tidak akan berfungsi. Anda dapat memulai shell dengan menggunakan perintah berikut di direktori level teratas proyek -

scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"

Sebuah shell akan terlihat seperti berikut -

[ ... Scrapy log here ... ]

2014-01-23 17:11:42-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>(referer: None)
[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x3636b50>
[s]   item       {}
[s]   request    <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s]   response   <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s]   settings   <scrapy.settings.Settings object at 0x3fadc50>
[s]   spider     <Spider 'default' at 0x3cebf50>
[s] Useful shortcuts:
[s]   shelp()           Shell help (print this help)
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects
[s]   view(response)    View response in a browser

In [1]:

Saat shell dimuat, Anda dapat mengakses body atau header dengan masing-masing menggunakan response.body dan response.header . Demikian pula, Anda bisa menjalankan kueri pada respons menggunakan response.selector.xpath () atau response.selector.css () .

Misalnya -

In [1]: response.xpath('//title')
Out[1]: [<Selector xpath = '//title' data = u'<title>My Book - Scrapy'>]

In [2]: response.xpath('//title').extract()
Out[2]: [u'<title>My Book - Scrapy: Index: Chapters</title>']

In [3]: response.xpath('//title/text()')
Out[3]: [<Selector xpath = '//title/text()' data = u'My Book - Scrapy: Index:'>]

In [4]: response.xpath('//title/text()').extract()
Out[4]: [u'My Book - Scrapy: Index: Chapters']

In [5]: response.xpath('//title/text()').re('(\w+):')
Out[5]: [u'Scrapy', u'Index', u'Chapters']

Mengekstrak Data

Untuk mengekstrak data dari situs HTML biasa, kita harus memeriksa kode sumber situs tersebut untuk mendapatkan XPath. Setelah memeriksa, Anda dapat melihat bahwa data akan ada di fileulmenandai. Pilih elemen di dalamnyali menandai.

Baris kode berikut menunjukkan ekstraksi berbagai jenis data -

Untuk memilih data dalam li tag -

response.xpath('//ul/li')

Untuk memilih deskripsi -

response.xpath('//ul/li/text()').extract()

Untuk memilih judul situs -

response.xpath('//ul/li/a/text()').extract()

Untuk memilih tautan situs -

response.xpath('//ul/li/a/@href').extract()

Kode berikut menunjukkan penggunaan ekstraktor di atas -

import scrapy

class MyprojectSpider(scrapy.Spider):
   name = "project"
   allowed_domains = ["dmoz.org"]
   
   start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
      for sel in response.xpath('//ul/li'):
         title = sel.xpath('a/text()').extract()
         link = sel.xpath('a/@href').extract()
         desc = sel.xpath('text()').extract()
         print title, link, desc

Deskripsi

Itemobjek adalah dicts reguler Python. Kita dapat menggunakan sintaks berikut untuk mengakses atribut kelas -

>>> item = DmozItem()
>>> item['title'] = 'sample title'
>>> item['title']
'sample title'

Tambahkan kode di atas ke contoh berikut -

import scrapy

from tutorial.items import DmozItem

class MyprojectSpider(scrapy.Spider):
   name = "project"
   allowed_domains = ["dmoz.org"]
   
   start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
      for sel in response.xpath('//ul/li'):
         item = DmozItem()
         item['title'] = sel.xpath('a/text()').extract()
         item['link'] = sel.xpath('a/@href').extract()
         item['desc'] = sel.xpath('text()').extract()
         yield item

Output dari laba-laba di atas adalah -

[scrapy] DEBUG: Scraped from <200 
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
   {'desc': [u' - By David Mertz; Addison Wesley. Book in progress, full text, 
      ASCII format. Asks for feedback. [author website, Gnosis Software, Inc.\n],
   'link': [u'http://gnosis.cx/TPiP/'],
   'title': [u'Text Processing in Python']}
[scrapy] DEBUG: Scraped from <200 
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
   {'desc': [u' - By Sean McGrath; Prentice Hall PTR, 2000, ISBN 0130211192, 
      has CD-ROM. Methods to build XML applications fast, Python tutorial, DOM and 
      SAX, new Pyxie open source XML processing library. [Prentice Hall PTR]\n'],
   'link': [u'http://www.informit.com/store/product.aspx?isbn=0130211192'],
   'title': [u'XML Processing with Python']}

Deskripsi

Dalam bab ini, kita akan mempelajari cara mengekstrak link dari halaman yang kita minati, mengikuti dan mengekstrak data dari halaman tersebut. Untuk ini, kita perlu melakukan perubahan berikut pada kode sebelumnya yang ditunjukkan sebagai berikut -

import scrapy
from tutorial.items import DmozItem

class MyprojectSpider(scrapy.Spider):
   name = "project"
   allowed_domains = ["dmoz.org"]
   
   start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/",
   ]
   def parse(self, response):
      for href in response.css("ul.directory.dir-col > li > a::attr('href')"):
         url = response.urljoin(href.extract())
            yield scrapy.Request(url, callback = self.parse_dir_contents)

   def parse_dir_contents(self, response):
      for sel in response.xpath('//ul/li'):
         item = DmozItem()
         item['title'] = sel.xpath('a/text()').extract()
         item['link'] = sel.xpath('a/@href').extract()
         item['desc'] = sel.xpath('text()').extract()
         yield item

Kode di atas berisi metode berikut -

  • parse() - Ini akan mengekstrak tautan yang kami minati.

  • response.urljoin - Metode parse () akan menggunakan metode ini untuk membuat url baru dan memberikan permintaan baru, yang akan dikirim nanti ke callback.

  • parse_dir_contents() - Ini adalah panggilan balik yang sebenarnya akan mengikis data yang diinginkan.

Di sini, Scrapy menggunakan mekanisme panggilan balik untuk mengikuti tautan. Dengan menggunakan mekanisme ini, crawler yang lebih besar dapat dirancang dan dapat mengikuti link yang diminati untuk mengambil data yang diinginkan dari halaman yang berbeda. Metode biasa adalah metode panggilan balik, yang akan mengekstrak item, mencari tautan untuk mengikuti halaman berikutnya, dan kemudian memberikan permintaan untuk panggilan balik yang sama.

Contoh berikut menghasilkan loop, yang akan mengikuti link ke halaman berikutnya.

def parse_articles_follow_next_page(self, response):
   for article in response.xpath("//article"):
      item = ArticleItem()
    
      ... extract article data here

      yield item

   next_page = response.css("ul.navigation > li.next-page > a::attr('href')")
   if next_page:
      url = response.urljoin(next_page[0].extract())
      yield scrapy.Request(url, self.parse_articles_follow_next_page)

Deskripsi

Cara terbaik untuk menyimpan data potongan adalah dengan menggunakan ekspor Umpan, yang memastikan bahwa data disimpan dengan benar menggunakan beberapa format serialisasi. JSON, JSON lines, CSV, XML adalah format yang didukung dengan mudah dalam format serialisasi. Data dapat disimpan dengan perintah berikut -

scrapy crawl dmoz -o data.json

Perintah ini akan membuat file data.jsonfile yang berisi data salinan di JSON. Teknik ini berlaku untuk sejumlah kecil data. Jika harus menangani data dalam jumlah besar, maka kita dapat menggunakan Item Pipeline. Sama seperti file data.json, file yang dicadangkan disiapkan saat proyek dibuattutorial/pipelines.py.

Deskripsi

Loggingberarti pelacakan kejadian, yang menggunakan sistem pencatatan bawaan dan menentukan fungsi dan kelas untuk mengimplementasikan aplikasi dan pustaka. Logging adalah materi yang siap digunakan, yang dapat bekerja dengan pengaturan Scrapy yang terdaftar di pengaturan Logging.

Scrapy akan menetapkan beberapa pengaturan default dan menangani pengaturan tersebut dengan bantuan scrapy.utils.log.configure_logging () saat menjalankan perintah.

Tingkat log

Di Python, ada lima tingkat keparahan yang berbeda pada pesan log. Daftar berikut menunjukkan pesan log standar dalam urutan menaik -

  • logging.DEBUG - untuk men-debug pesan (tingkat keparahan terendah)

  • logging.INFO - untuk pesan informasional

  • logging.WARNING - untuk pesan peringatan

  • logging.ERROR - untuk kesalahan biasa

  • logging.CRITICAL - untuk kesalahan kritis (tingkat keparahan tertinggi)

Cara Masuk Pesan

Kode berikut menunjukkan logging pesan menggunakan logging.info tingkat.

import logging 
logging.info("This is an information")

Pesan logging di atas bisa dilewatkan sebagai argumen menggunakan logging.log ditampilkan sebagai berikut -

import logging 
logging.log(logging.INFO, "This is an information")

Sekarang, Anda juga dapat menggunakan logger untuk menyertakan pesan menggunakan pembantu logging logging untuk mendapatkan pesan logging dengan jelas ditampilkan sebagai berikut -

import logging
logger = logging.getLogger()
logger.info("This is an information")

Bisa ada beberapa penebang dan itu bisa diakses dengan mendapatkan nama mereka dengan menggunakan logging.getLogger fungsi ditampilkan sebagai berikut.

import logging
logger = logging.getLogger('mycustomlogger')
logger.info("This is an information")

Logger yang disesuaikan dapat digunakan untuk modul apa pun menggunakan variabel __name__ yang berisi jalur modul yang ditunjukkan sebagai berikut -

import logging
logger = logging.getLogger(__name__)
logger.info("This is an information")

Menebang dari Spider

Setiap contoh laba-laba memiliki file logger di dalamnya dan dapat digunakan sebagai berikut -

import scrapy 

class LogSpider(scrapy.Spider):  
   name = 'logspider' 
   start_urls = ['http://dmoz.com']  
   def parse(self, response): 
      self.logger.info('Parse function called on %s', response.url)

Dalam kode di atas, logger dibuat menggunakan nama Spider, tetapi Anda dapat menggunakan logger khusus yang disediakan oleh Python seperti yang ditunjukkan pada kode berikut -

import logging
import scrapy

logger = logging.getLogger('customizedlogger')
class LogSpider(scrapy.Spider):
   name = 'logspider'
   start_urls = ['http://dmoz.com']

   def parse(self, response):
      logger.info('Parse function called on %s', response.url)

Konfigurasi Logging

Logger tidak dapat menampilkan pesan yang dikirim oleh mereka sendiri. Jadi mereka membutuhkan "penangan" untuk menampilkan pesan tersebut dan penangan akan mengarahkan pesan-pesan ini ke tujuan masing-masing seperti file, email, dan keluaran standar.

Bergantung pada pengaturan berikut, Scrapy akan mengkonfigurasi penangan untuk logger.

Pengaturan Logging

Pengaturan berikut digunakan untuk mengkonfigurasi logging -

  • Itu LOG_FILE dan LOG_ENABLED putuskan tujuan untuk pesan log.

  • Saat Anda menyetel LOG_ENCODING menjadi false, ini tidak akan menampilkan pesan keluaran log.

  • Itu LOG_LEVELakan menentukan urutan tingkat keparahan pesan; pesan-pesan dengan tingkat keparahan yang lebih rendah akan disaring.

  • Itu LOG_FORMAT dan LOG_DATEFORMAT digunakan untuk menentukan tata letak untuk semua pesan.

  • Saat Anda menyetel LOG_STDOUT true, semua output standar dan pesan error dari proses Anda akan diarahkan ke log.

Opsi baris perintah

Pengaturan scrapy dapat diganti dengan meneruskan argumen baris perintah seperti yang ditunjukkan pada tabel berikut -

Sr Tidak Perintah & Deskripsi
1

--logfile FILE

Mengganti LOG_FILE

2

--loglevel/-L LEVEL

Mengganti LOG_LEVEL

3

--nolog

Setel LOG_ENABLED menjadi False

modul scrapy.utils.log

Fungsi ini dapat digunakan untuk menginisialisasi logging default untuk Scrapy.

scrapy.utils.log.configure_logging(settings = None, install_root_handler = True)

Sr Tidak Parameter & Deskripsi
1

settings (dict, None)

Ini membuat dan mengkonfigurasi handler untuk root logger. Secara default, tidak ada .

2

install_root_handler (bool)

Ini menentukan untuk menginstal penangan root logging. Secara default, ini Benar .

Fungsi di atas -

  • Merutekan peringatan dan pembalakan bengkok melalui logging standar Python.
  • Menetapkan DEBUG ke Scrapy dan tingkat ERROR ke Logger Twisted
  • Merutekan stdout ke log, jika pengaturan LOG_STDOUT benar.

Opsi default dapat diganti menggunakan settingsargumen. Jika pengaturan tidak ditentukan, maka default digunakan. Handler dapat dibuat untuk root logger, ketika install_root_handler disetel ke true. Jika disetel ke false, maka tidak akan ada keluaran log yang disetel. Saat menggunakan perintah Scrapy, konfigurasi_logging akan dipanggil secara otomatis dan dapat dijalankan secara eksplisit, saat menjalankan skrip kustom.

Untuk mengkonfigurasi keluaran logging secara manual, Anda dapat menggunakan logging.basicConfig() ditampilkan sebagai berikut -

import logging 
from scrapy.utils.log import configure_logging  

configure_logging(install_root_handler = False) 
logging.basicConfig ( 
   filename = 'logging.txt', 
   format = '%(levelname)s: %(your_message)s', 
   level = logging.INFO 
)

Deskripsi

Stats Collector adalah fasilitas yang disediakan oleh Scrapy untuk mengumpulkan stats berupa key / values ​​dan diakses menggunakan Crawler API (Crawler menyediakan akses ke semua komponen core Scrapy). Pengumpul statistik menyediakan satu tabel statistik per laba-laba di mana pengumpul statistik terbuka secara otomatis saat laba-laba membuka dan menutup pengumpul statistik saat laba-laba ditutup.

Penggunaan Kolektor Statistik Umum

Kode berikut mengakses pengumpul statistik menggunakan stats atribut.

class ExtensionThatAccessStats(object): 
   def __init__(self, stats): 
      self.stats = stats  
   
   @classmethod 
   def from_crawler(cls, crawler): 
      return cls(crawler.stats)

Tabel berikut menunjukkan berbagai opsi yang dapat digunakan dengan pengumpul statistik -

Sr Tidak Parameter Deskripsi
1
stats.set_value('hostname', socket.gethostname())
Ini digunakan untuk mengatur nilai statistik.
2
stats.inc_value('customized_count')
Ini menambah nilai stat.
3
stats.max_value('max_items_scraped', value)
Anda dapat mengatur nilai stat, hanya jika lebih besar dari nilai sebelumnya.
4
stats.min_value('min_free_memory_percent', value)
Anda dapat mengatur nilai stat, hanya jika lebih rendah dari nilai sebelumnya.
5
stats.get_value('customized_count')
Ini mengambil nilai stat.
6
stats.get_stats() {'custom_count': 1, 'start_time': 
datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)}
Itu mengambil semua statistik

Kolektor Statistik yang Tersedia

Scrapy menyediakan berbagai jenis pengumpul statistik yang dapat diakses menggunakan STATS_CLASS pengaturan.

MemoryStatsCollector

Ini adalah pengumpul Statistik default yang mempertahankan statistik setiap laba-laba yang digunakan untuk mengorek dan datanya akan disimpan di memori.

class scrapy.statscollectors.MemoryStatsCollector

DummyStatsCollector

Pengumpul statistik ini sangat efisien yang tidak melakukan apa-apa. Ini dapat disetel menggunakan setelan STATS_CLASS dan dapat digunakan untuk menonaktifkan pengumpulan statistik untuk meningkatkan kinerja.

class scrapy.statscollectors.DummyStatsCollector

Deskripsi

Scrapy dapat mengirim email menggunakan fasilitasnya sendiri yang disebut sebagai IO non-pemblokiran Twisted yang menjauhkan dari IO non-pemblokiran crawler. Anda dapat mengkonfigurasi beberapa pengaturan pengiriman email dan menyediakan API sederhana untuk mengirim lampiran.

Ada dua cara untuk membuat instance MailSender seperti yang diperlihatkan dalam tabel berikut -

Sr Tidak Parameter metode
1 dari scrapy.mail impor MailSender mailer = MailSender () Dengan menggunakan konstruktor standar.
2 mailer = MailSender.from_settings (pengaturan) Dengan menggunakan objek pengaturan Scrapy.

Baris berikut mengirimkan email tanpa lampiran -

mailer.send(to = ["[email protected]"], subject = "subject data", body = "body data", 
   cc = ["[email protected]"])

Referensi Kelas MailSender

Kelas MailSender menggunakan Twisted non-blocking IO untuk mengirim email dari Scrapy.

class scrapy.mail.MailSender(smtphost = None, mailfrom = None, smtpuser = None, 
   smtppass = None, smtpport = None)

Tabel berikut menunjukkan parameter yang digunakan di kelas MailSender -

Sr Tidak Parameter & Deskripsi
1

smtphost (str)

Host SMTP digunakan untuk mengirim email. Jika tidak, maka setelan MAIL_HOST akan digunakan.

2

mailfrom (str)

Alamat penerima digunakan untuk mengirim email. Jika tidak, maka pengaturan MAIL_FROM akan digunakan.

3

smtpuser

Ini menentukan pengguna SMTP. Jika tidak digunakan, maka pengaturan MAIL_USER akan digunakan dan tidak akan ada validasi SMTP jika tidak disebutkan.

4

smtppass (str)

Ini menentukan lulus SMTP untuk validasi.

5

smtpport (int)

Ini menentukan port SMTP untuk koneksi.

6

smtptls (boolean)

Ini mengimplementasikan menggunakan SMTP STARTTLS.

7

smtpssl (boolean)

Ini mengelola menggunakan koneksi SSL yang aman.

Berikut dua metode yang ada di referensi kelas MailSender seperti yang ditentukan. Metode pertama,

classmethod from_settings(settings)

Ini digabungkan dengan menggunakan objek pengaturan Scrapy. Ini berisi parameter berikut -

settings (scrapy.settings.Settings object) - Ini diperlakukan sebagai penerima email.

Metode lain,

send(to, subject, body, cc = None, attachs = (), mimetype = 'text/plain', charset = None)

Tabel berikut berisi parameter dari metode di atas -

Sr Tidak Parameter & Deskripsi
1

to (list)

Ini mengacu pada penerima email.

2

subject (str)

Ini menentukan subjek email.

3

cc (list)

Ini mengacu pada daftar penerima.

4

body (str)

Ini mengacu pada data badan email.

5

attachs (iterable)

Ini mengacu pada lampiran email, mimetype dari lampiran dan nama lampiran.

6

mimetype (str)

Ini mewakili tipe MIME dari email.

7

charset (str)

Ini menentukan pengkodean karakter yang digunakan untuk konten email.

Pengaturan Mail

Pengaturan berikut memastikan bahwa tanpa menulis kode apa pun, kita dapat mengkonfigurasi email menggunakan kelas MailSender dalam proyek tersebut.

Sr Tidak Pengaturan & Deskripsi Nilai Default
1

MAIL_FROM

Ini mengacu pada email pengirim untuk mengirim email.

'scrapy @ localhost'
2

MAIL_HOST

Ini mengacu pada host SMTP yang digunakan untuk mengirim email.

'localhost'
3

MAIL_PORT

Ini menentukan port SMTP yang akan digunakan untuk mengirim email.

25
4

MAIL_USER

Ini mengacu pada validasi SMTP. Tidak akan ada validasi, jika setelan ini disetel ke nonaktif.

Tidak ada
5

MAIL_PASS

Ini memberikan kata sandi yang digunakan untuk validasi SMTP.

Tidak ada
6

MAIL_TLS

Ini menyediakan metode untuk meningkatkan koneksi yang tidak aman ke koneksi aman menggunakan SSL / TLS.

Salah
7

MAIL_SSL

Ini mengimplementasikan koneksi menggunakan koneksi terenkripsi SSL.

Salah

Deskripsi

Konsol Telnet adalah shell Python yang berjalan di dalam proses Scrapy dan digunakan untuk memeriksa dan mengendalikan proses yang berjalan Scrapy.

Akses Konsol Telnet

Konsol telnet dapat diakses menggunakan perintah berikut -

telnet localhost 6023

Pada dasarnya, konsol telnet terdaftar di port TCP, yang dijelaskan di TELNETCONSOLE_PORT pengaturan.

Variabel

Beberapa variabel default yang diberikan dalam tabel berikut digunakan sebagai pintasan -

Sr Tidak Pintasan & Deskripsi
1

crawler

Ini mengacu pada objek Scrapy Crawler (scrapy.crawler.Crawler).

2

engine

Ini mengacu pada atribut Crawler.engine.

3

spider

Ini mengacu pada laba-laba yang aktif.

4

slot

Ini mengacu pada slot mesin.

5

extensions

Ini mengacu pada atribut Extension Manager (Crawler.extensions).

6

stats

Ini mengacu pada atribut Stats Collector (Crawler.stats).

7

setting

Ini mengacu pada atribut objek setelan Scrapy (Crawler.settings).

8

est

Ini mengacu pada mencetak laporan status mesin.

9

prefs

Ini mengacu pada memori untuk debugging.

10

p

Ini mengacu pada jalan pintas ke fungsi pprint.pprint .

11

hpy

Ini mengacu pada debugging memori.

Contoh

Berikut adalah beberapa contoh yang diilustrasikan menggunakan Telnet Console.

Jeda, Lanjutkan, dan Hentikan Mesin Scrapy

Untuk menjeda mesin Scrapy, gunakan perintah berikut -

telnet localhost 6023
>>> engine.pause()
>>>

Untuk melanjutkan mesin Scrapy, gunakan perintah berikut -

telnet localhost 6023
>>> engine.unpause()
>>>

Untuk menghentikan mesin Scrapy, gunakan perintah berikut -

telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.

Lihat Status Mesin

Konsol Telnet menggunakan est() metode untuk memeriksa status mesin Scrapy seperti yang ditunjukkan pada kode berikut -

telnet localhost 6023
>>> est()
Execution engine status

time()-engine.start_time                        : 8.62972998619
engine.has_capacity()                           : False
len(engine.downloader.active)                   : 16
engine.scraper.is_idle()                        : False
engine.spider.name                              : followall
engine.spider_is_idle(engine.spider)            : False
engine.slot.closing                             : False
len(engine.slot.inprogress)                     : 16
len(engine.slot.scheduler.dqs or [])            : 0
len(engine.slot.scheduler.mqs)                  : 92
len(engine.scraper.slot.queue)                  : 0
len(engine.scraper.slot.active)                 : 0
engine.scraper.slot.active_size                 : 0
engine.scraper.slot.itemproc_size               : 0
engine.scraper.slot.needs_backout()             : False

Sinyal Konsol Telnet

Anda dapat menggunakan sinyal konsol telnet untuk menambah, memperbarui, atau menghapus variabel di namespace lokal telnet. Untuk melakukan tindakan ini, Anda perlu menambahkan dikt telnet_vars di penangan Anda.

scrapy.extensions.telnet.update_telnet_vars(telnet_vars)

Parameter -

telnet_vars (dict)

Di mana, dict adalah kamus yang berisi variabel telnet.

Pengaturan Telnet

Tabel berikut menunjukkan pengaturan yang mengontrol perilaku Telnet Console -

Sr Tidak Pengaturan & Deskripsi Nilai Default
1

TELNETCONSOLE_PORT

Ini mengacu pada jangkauan port untuk konsol telnet. Jika disetel ke none, maka port akan ditetapkan secara dinamis.

[6023, 6073]
2

TELNETCONSOLE_HOST

Ini mengacu pada antarmuka tempat konsol telnet harus mendengarkan.

'127.0.0.1'

Deskripsi

Perayap web Scrapy yang sedang berjalan dapat dikontrol melalui JSON-RPC. Ini diaktifkan oleh setelan JSONRPC_ENABLED. Layanan ini menyediakan akses ke objek crawler utama melalui protokol JSON-RPC 2.0 . Titik akhir untuk mengakses objek crawler adalah -

http://localhost:6080/crawler

Tabel berikut berisi beberapa pengaturan yang menunjukkan perilaku layanan web -

Sr Tidak Pengaturan & Deskripsi Nilai Default
1

JSONRPC_ENABLED

Ini mengacu pada boolean, yang memutuskan layanan web beserta ekstensinya akan diaktifkan atau tidak.

Benar
2

JSONRPC_LOGFILE

Ini mengacu pada file yang digunakan untuk mencatat permintaan HTTP yang dibuat ke layanan web. Jika tidak disetel, log Scrapy standar akan digunakan.

Tidak ada
3

JSONRPC_PORT

Ini mengacu pada jangkauan port untuk layanan web. Jika disetel ke none, maka port akan ditetapkan secara dinamis.

[6080, 7030]
4

JSONRPC_HOST

Ini mengacu pada antarmuka yang harus didengarkan oleh layanan web.

'127.0.0.1'