Scrapy - Panduan Cepat
Scrapy adalah kerangka kerja perayapan web sumber terbuka yang cepat yang ditulis dengan Python, digunakan untuk mengekstrak data dari halaman web dengan bantuan penyeleksi berdasarkan XPath.
Scrapy pertama kali dirilis pada 26 Juni 2008 dengan lisensi di bawah BSD, dengan milestone 1.0 dirilis pada Juni 2015.
Mengapa Menggunakan Scrapy?
Lebih mudah untuk membangun dan menskalakan proyek perayapan besar.
Ini memiliki mekanisme built-in yang disebut Selectors, untuk mengekstraksi data dari situs web.
Ini menangani permintaan secara asinkron dan cepat.
Secara otomatis menyesuaikan kecepatan perayapan menggunakan mekanisme pelambatan otomatis .
Memastikan aksesibilitas pengembang.
Fitur Scrapy
Scrapy adalah open source dan gratis untuk menggunakan kerangka web crawling.
Scrapy menghasilkan ekspor feed dalam format seperti JSON, CSV, dan XML.
Scrapy memiliki dukungan bawaan untuk memilih dan mengekstrak data dari sumber baik dengan ekspresi XPath atau CSS.
Scrapy berdasarkan crawler, memungkinkan mengekstrak data dari halaman web secara otomatis.
Keuntungan
Scrapy mudah dikembangkan, cepat, dan bertenaga.
Ini adalah kerangka aplikasi lintas platform (Windows, Linux, Mac OS dan BSD).
Permintaan scrapy dijadwalkan dan diproses secara asinkron.
Scrapy hadir dengan layanan built-in bernama Scrapyd yang memungkinkan untuk mengunggah proyek dan mengontrol laba-laba menggunakan layanan web JSON.
Dimungkinkan untuk menghapus situs web apa pun, meskipun situs web itu tidak memiliki API untuk akses data mentah.
Kekurangan
Scrapy hanya untuk Python 2.7. +
Penginstalan berbeda untuk sistem operasi yang berbeda.
Pada bab ini, kita akan membahas cara memasang dan mengatur Scrapy. Scrapy harus diinstal dengan Python.
Scrapy dapat diinstal dengan menggunakan pip. Untuk menginstal, jalankan perintah berikut -
pip install Scrapy
Windows
Note - Python 3 tidak didukung di OS Windows.
Step 1- Instal Python 2.7 dari Python
Tetapkan variabel lingkungan dengan menambahkan jalur berikut ke PATH -
C:\Python27\;C:\Python27\Scripts\;
Anda dapat memeriksa versi Python menggunakan perintah berikut -
python --version
Step 2- Instal OpenSSL .
Tambahkan C: \ OpenSSL-Win32 \ bin di variabel lingkungan Anda.
Note - OpenSSL sudah diinstal sebelumnya di semua sistem operasi kecuali Windows.
Step 3- Instal Visual C ++ 2008 redistributables.
Step 4- Instal pywin32 .
Step 5- Instal pip untuk versi Python yang lebih lama dari 2.7.9.
Anda dapat memeriksa versi pip menggunakan perintah berikut -
pip --version
Step 6 - Untuk menginstal scrapy, jalankan perintah berikut -
pip install Scrapy
Anaconda
Jika Anda memiliki anaconda atau miniconda yang diinstal di komputer Anda, jalankan perintah di bawah ini untuk menginstal Scrapy menggunakan conda -
conda install -c scrapinghub scrapy
Perusahaan Scrapinghub mendukung paket conda resmi untuk Linux, Windows, dan OS X.
Note - Direkomendasikan untuk menginstal Scrapy menggunakan perintah di atas jika Anda mengalami masalah dalam menginstal melalui pip.
Ubuntu 9.10 atau Di Atas
Versi terbaru Python sudah diinstal sebelumnya di OS Ubuntu. Gunakan paket Ubuntu yang disediakan oleh Scrapinghub. Untuk menggunakan paket -
Step 1 - Anda perlu mengimpor kunci GPG yang digunakan untuk menandatangani paket Scrapy ke keyring APT -
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7
Step 2 - Selanjutnya, gunakan perintah berikut untuk membuat file /etc/apt/sources.list.d/scrapy.list -
echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee
/etc/apt/sources.list.d/scrapy.list
Step 3 - Perbarui daftar paket dan instal scrapy -
sudo apt-get update && sudo apt-get install scrapy
Archlinux
Anda dapat menginstal Scrapy dari paket AUR Scrapy menggunakan perintah berikut -
yaourt -S scrapy
Mac OS X
Gunakan perintah berikut untuk menginstal alat baris perintah Xcode -
xcode-select --install
Alih-alih menggunakan sistem Python, instal versi baru yang diperbarui yang tidak bertentangan dengan sistem Anda lainnya.
Step 1- Instal homebrew .
Step 2 - Tetapkan variabel PATH lingkungan untuk menentukan bahwa paket homebrew harus digunakan sebelum paket sistem -
echo "export PATH = /usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
Step 3 - Untuk memastikan perubahan selesai, muat ulang .bashrc menggunakan perintah berikut -
source ~/.bashrc
Step 4 - Selanjutnya, instal Python menggunakan perintah berikut -
brew install python
Step 5 - Instal Scrapy menggunakan perintah berikut -
pip install Scrapy
Deskripsi
Alat baris perintah Scrapy digunakan untuk mengontrol Scrapy, yang sering disebut sebagai 'Scrapy tool'. Ini mencakup perintah untuk berbagai objek dengan sekelompok argumen dan opsi.
Pengaturan konfigurasi
Scrapy akan menemukan pengaturan konfigurasi di scrapy.cfgmengajukan. Berikut adalah beberapa lokasi -
C: \ scrapy (folder proyek) \ scrapy.cfg di sistem
~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) dan ~ / .scrapy.cfg ($ HOME) untuk pengaturan global
Anda dapat menemukan scrapy.cfg di dalam root proyek.
Scrapy juga dapat dikonfigurasi menggunakan variabel lingkungan berikut -
- SCRAPY_SETTINGS_MODULE
- SCRAPY_PROJECT
- SCRAPY_PYTHON_SHELL
Proyek Scrapy Struktur Default
Struktur berikut menunjukkan struktur file default dari proyek Scrapy.
scrapy.cfg - Deploy the configuration file
project_name/ - Name of the project
_init_.py
items.py - It is project's items file
pipelines.py - It is project's pipelines file
settings.py - It is project's settings file
spiders - It is the spiders directory
_init_.py
spider_name.py
. . .
Itu scrapy.cfgfile adalah direktori root proyek, yang menyertakan nama proyek dengan pengaturan proyek. Misalnya -
[settings]
default = [name of the project].settings
[deploy]
#url = http://localhost:6800/
project = [name of the project]
Menggunakan Alat Scrapy
Alat Scrapy menyediakan beberapa penggunaan dan perintah yang tersedia sebagai berikut -
Scrapy X.Y - no active project
Usage:
scrapy [options] [arguments]
Available commands:
crawl It puts spider (handle the URL) to work for crawling data
fetch It fetches the response from the given URL
Membuat Proyek
Anda dapat menggunakan perintah berikut untuk membuat proyek di Scrapy -
scrapy startproject project_name
Ini akan membuat proyek bernama project_namedirektori. Selanjutnya, buka proyek yang baru dibuat, menggunakan perintah berikut -
cd project_name
Mengontrol Proyek
Anda dapat mengontrol proyek dan mengelolanya menggunakan alat Scrapy dan juga membuat laba-laba baru, menggunakan perintah berikut -
scrapy genspider mydomain mydomain.com
Perintah seperti crawl, dll. Harus digunakan di dalam proyek Scrapy. Anda akan mengetahui perintah mana yang harus dijalankan di dalam proyek Scrapy di bagian selanjutnya.
Scrapy berisi beberapa perintah bawaan, yang dapat digunakan untuk proyek Anda. Untuk melihat daftar perintah yang tersedia, gunakan perintah berikut -
scrapy -h
Saat Anda menjalankan perintah berikut, Scrapy akan menampilkan daftar perintah yang tersedia seperti yang tercantum -
fetch - Ini mengambil URL menggunakan pengunduh Scrapy.
runspider - Digunakan untuk menjalankan laba-laba mandiri tanpa membuat proyek.
settings - Ini menentukan nilai pengaturan proyek.
shell - Ini adalah modul penggosokan interaktif untuk URL yang diberikan.
startproject - Ini menciptakan proyek Scrapy baru.
version - Ini menampilkan versi Scrapy.
view - Ini mengambil URL menggunakan pengunduh Scrapy dan menampilkan konten di browser.
Anda dapat memiliki beberapa perintah terkait proyek seperti yang tercantum -
crawl - Digunakan untuk merayapi data menggunakan laba-laba.
check - Ini memeriksa item yang dikembalikan oleh perintah yang dirayapi.
list - Ini menampilkan daftar laba-laba yang tersedia yang ada dalam proyek.
edit - Anda dapat mengedit laba-laba dengan menggunakan editor.
parse - Ini mem-parsing URL yang diberikan dengan laba-laba.
bench - Digunakan untuk menjalankan tes benchmark cepat (Tolok ukur memberi tahu berapa banyak halaman yang dapat dirayapi per menit oleh Scrapy).
Perintah Proyek Kustom
Anda dapat membuat perintah proyek khusus dengan COMMANDS_MODULEpengaturan dalam proyek Scrapy. Ini termasuk string kosong default dalam pengaturan. Anda dapat menambahkan perintah khusus berikut -
COMMANDS_MODULE = 'mycmd.commands'
Perintah scrapy dapat ditambahkan menggunakan bagian scrapy.commands di file setup.py yang ditunjukkan sebagai berikut -
from setuptools import setup, find_packages
setup(name = 'scrapy-module_demo',
entry_points = {
'scrapy.commands': [
'cmd_demo = my_module.commands:CmdDemo',
],
},
)
Kode di atas menambahkan cmd_demo perintah di setup.py mengajukan.
Deskripsi
Spider adalah kelas yang bertanggung jawab untuk menentukan cara mengikuti tautan melalui situs web dan mengekstrak informasi dari halaman.
Laba-laba default Scrapy adalah sebagai berikut -
scrapy.Spider
Itu adalah laba-laba yang harus diwarisi oleh setiap laba-laba lainnya. Ini memiliki kelas berikut -
class scrapy.spiders.Spider
Tabel berikut menunjukkan bidang kelas scrapy.Spider -
Sr Tidak | Bidang & Deskripsi |
---|---|
1 | name Itu adalah nama laba-laba Anda. |
2 | allowed_domains Ini adalah daftar domain tempat laba-laba merayap. |
3 | start_urls Ini adalah daftar URL, yang akan menjadi akar untuk penjelajahan nanti, tempat laba-laba akan mulai merayapi. |
4 | custom_settings Ini adalah pengaturan, saat menjalankan spider, akan diganti dari konfigurasi lebar proyek. |
5 | crawler Ini adalah atribut yang tertaut ke objek Crawler yang diikat oleh instance spider. |
6 | settings Ini adalah pengaturan untuk menjalankan laba-laba. |
7 | logger Ini adalah logger Python yang digunakan untuk mengirim pesan log. |
8 | from_crawler(crawler,*args,**kwargs) Ini adalah metode kelas, yang menciptakan laba-laba Anda. Parameternya adalah -
|
9 | start_requests() Ketika tidak ada URL tertentu yang ditentukan dan spider dibuka untuk dihapus, Scrapy memanggil metode start_requests () . |
10 | make_requests_from_url(url) Ini adalah metode yang digunakan untuk mengubah url menjadi permintaan. |
11 | parse(response) Metode ini memproses respons dan mengembalikan data yang dihapus mengikuti lebih banyak URL. |
12 | log(message[,level,component]) Ini adalah metode yang mengirimkan pesan log melalui spiders logger. |
13 | closed(reason) Metode ini dipanggil saat laba-laba menutup. |
Argumen Laba-laba
Argumen spider digunakan untuk menentukan URL awal dan diteruskan menggunakan perintah crawl dengan -a opsi, ditampilkan sebagai berikut -
scrapy crawl first_scrapy -a group = accessories
Kode berikut menunjukkan bagaimana laba-laba menerima argumen -
import scrapy
class FirstSpider(scrapy.Spider):
name = "first"
def __init__(self, group = None, *args, **kwargs):
super(FirstSpider, self).__init__(*args, **kwargs)
self.start_urls = ["http://www.example.com/group/%s" % group]
Laba-laba Generik
Anda dapat menggunakan laba-laba umum untuk membuat subkelas dari laba-laba Anda. Tujuan mereka adalah mengikuti semua tautan di situs web berdasarkan aturan tertentu untuk mengekstrak data dari semua halaman.
Untuk contoh yang digunakan pada spider berikut, anggaplah kita memiliki proyek dengan bidang berikut -
import scrapy
from scrapy.item import Item, Field
class First_scrapyItem(scrapy.Item):
product_title = Field()
product_link = Field()
product_description = Field()
CrawlSpider
CrawlSpider mendefinisikan sekumpulan aturan untuk mengikuti link dan menghapus lebih dari satu halaman. Ini memiliki kelas berikut -
class scrapy.spiders.CrawlSpider
Berikut adalah atribut dari kelas CrawlSpider -
aturan
Ini adalah daftar objek aturan yang menentukan bagaimana crawler mengikuti link.
Tabel berikut menunjukkan aturan kelas CrawlSpider -
Sr Tidak | Aturan & Deskripsi |
---|---|
1 | LinkExtractor Ini menentukan bagaimana spider mengikuti tautan dan mengekstrak data. |
2 | callback Ini akan dipanggil setelah setiap halaman dikikis. |
3 | follow Ini menentukan apakah akan melanjutkan tautan berikut atau tidak. |
parse_start_url (tanggapan)
Ini mengembalikan item atau objek permintaan dengan memungkinkan untuk mengurai respons awal.
Note - Pastikan Anda mengganti nama fungsi parse selain parse saat menulis aturan karena fungsi parse digunakan oleh CrawlSpider untuk mengimplementasikan logikanya.
Mari kita lihat contoh berikut, di mana spider mulai merayapi beranda demoexample.com, mengumpulkan semua halaman, tautan, dan parsing dengan metode parse_items -
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class DemoSpider(CrawlSpider):
name = "demo"
allowed_domains = ["www.demoexample.com"]
start_urls = ["http://www.demoexample.com"]
rules = (
Rule(LinkExtractor(allow =(), restrict_xpaths = ("//div[@class = 'next']",)),
callback = "parse_item", follow = True),
)
def parse_item(self, response):
item = DemoItem()
item["product_title"] = response.xpath("a/text()").extract()
item["product_link"] = response.xpath("a/@href").extract()
item["product_description"] = response.xpath("div[@class = 'desc']/text()").extract()
return items
XMLFeedSpider
Ini adalah kelas dasar untuk spider yang mengikis dari umpan XML dan melakukan iterasi pada node. Ini memiliki kelas berikut -
class scrapy.spiders.XMLFeedSpider
Tabel berikut menunjukkan atribut kelas yang digunakan untuk menyetel iterator dan nama tag -
Sr Tidak | Atribut & Deskripsi |
---|---|
1 | iterator Ini mendefinisikan iterator yang akan digunakan. Ini bisa berupa iternodes, html atau xml . Default-nya adalah iternode . |
2 | itertag Ini adalah string dengan nama node untuk diiterasi. |
3 | namespaces Ini ditentukan oleh daftar tupel (awalan, uri) yang secara otomatis mendaftarkan ruang nama menggunakan metode register_namespace () . |
4 | adapt_response(response) Ia menerima respon dan memodifikasi tubuh respon segera setelah ia tiba dari middleware laba-laba, sebelum laba-laba mulai menguraikannya. |
5 | parse_node(response,selector) Ini menerima respons dan pemilih ketika dipanggil untuk setiap node yang cocok dengan nama tag yang diberikan. Note - Laba-laba Anda tidak akan berfungsi jika Anda tidak mengganti metode ini. |
6 | process_results(response,results) Ini mengembalikan daftar hasil dan respons yang dikembalikan oleh laba-laba. |
CSVFeedSpider
Ini melakukan iterasi melalui setiap barisnya, menerima file CSV sebagai respons, dan memanggil metode parse_row () . Ini memiliki kelas berikut -
class scrapy.spiders.CSVFeedSpider
Tabel berikut menunjukkan opsi yang dapat diatur terkait file CSV -
Sr Tidak | Opsi & Deskripsi |
---|---|
1 | delimiter Ini adalah string yang berisi pemisah koma (',') untuk setiap bidang. |
2 | quotechar Ini adalah string yang berisi tanda kutip ('"') untuk setiap bidang. |
3 | headers Ini adalah daftar pernyataan dari mana bidang dapat diekstraksi. |
4 | parse_row(response,row) Ini menerima respons dan setiap baris bersama dengan kunci untuk header. |
Contoh CSVFeedSpider
from scrapy.spiders import CSVFeedSpider
from demoproject.items import DemoItem
class DemoSpider(CSVFeedSpider):
name = "demo"
allowed_domains = ["www.demoexample.com"]
start_urls = ["http://www.demoexample.com/feed.csv"]
delimiter = ";"
quotechar = "'"
headers = ["product_title", "product_link", "product_description"]
def parse_row(self, response, row):
self.logger.info("This is row: %r", row)
item = DemoItem()
item["product_title"] = row["product_title"]
item["product_link"] = row["product_link"]
item["product_description"] = row["product_description"]
return item
SitemapSpider
SitemapSpider dengan bantuan Peta Situs merayapi situs web dengan mencari URL dari robots.txt. Ini memiliki kelas berikut -
class scrapy.spiders.SitemapSpider
Tabel berikut menunjukkan bidang SitemapSpider -
Sr Tidak | Bidang & Deskripsi |
---|---|
1 | sitemap_urls Daftar URL yang ingin Anda crawl yang mengarah ke peta situs. |
2 | sitemap_rules Ini adalah daftar tupel (regex, callback), di mana regex adalah ekspresi reguler, dan callback digunakan untuk memproses URL yang cocok dengan ekspresi reguler. |
3 | sitemap_follow Ini adalah daftar ekspresi reguler peta situs yang harus diikuti. |
4 | sitemap_alternate_links Menentukan link alternatif yang akan diikuti untuk satu url. |
Contoh SitemapSpider
SitemapSpider berikut memproses semua URL -
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/sitemap.xml"]
def parse(self, response):
# You can scrap items here
SitemapSpider berikut memproses beberapa URL dengan callback -
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/sitemap.xml"]
rules = [
("/item/", "parse_item"),
("/group/", "parse_group"),
]
def parse_item(self, response):
# you can scrap item here
def parse_group(self, response):
# you can scrap group here
Kode berikut menunjukkan peta situs di robots.txt yang memiliki url /sitemap_company -
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/robots.txt"]
rules = [
("/company/", "parse_company"),
]
sitemap_follow = ["/sitemap_company"]
def parse_company(self, response):
# you can scrap company here
Anda bahkan dapat menggabungkan SitemapSpider dengan URL lain seperti yang ditunjukkan pada perintah berikut.
from scrapy.spiders import SitemapSpider
class DemoSpider(SitemapSpider):
urls = ["http://www.demoexample.com/robots.txt"]
rules = [
("/company/", "parse_company"),
]
other_urls = ["http://www.demoexample.com/contact-us"]
def start_requests(self):
requests = list(super(DemoSpider, self).start_requests())
requests += [scrapy.Request(x, self.parse_other) for x in self.other_urls]
return requests
def parse_company(self, response):
# you can scrap company here...
def parse_other(self, response):
# you can scrap other here...
Deskripsi
Saat Anda menggores halaman web, Anda perlu mengekstrak bagian tertentu dari sumber HTML dengan menggunakan mekanisme yang disebut selectors, dicapai dengan menggunakan ekspresi XPath atau CSS. Selektor dibangun di ataslxml perpustakaan, yang memproses XML dan HTML dalam bahasa Python.
Gunakan potongan kode berikut untuk menentukan konsep pemilih yang berbeda -
<html>
<head>
<title>My Website</title>
</head>
<body>
<span>Hello world!!!</span>
<div class = 'links'>
<a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
<a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
<a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
</div>
</body>
</html>
Membangun Selektor
Anda dapat membuat instance kelas pemilih dengan meneruskan text atau TextResponseobyek. Berdasarkan jenis masukan yang diberikan, pemilih memilih aturan berikut -
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
Menggunakan kode di atas, Anda dapat membuat dari teks sebagai -
Selector(text = body).xpath('//span/text()').extract()
Ini akan menampilkan hasilnya sebagai -
[u'Hello world!!!']
Anda dapat membuat dari respons sebagai -
response = HtmlResponse(url = 'http://mysite.com', body = body)
Selector(response = response).xpath('//span/text()').extract()
Ini akan menampilkan hasilnya sebagai -
[u'Hello world!!!']
Menggunakan Selectors
Dengan menggunakan potongan kode sederhana di atas, Anda dapat membuat XPath untuk memilih teks yang ditentukan dalam tag judul seperti yang ditunjukkan di bawah ini -
>>response.selector.xpath('//title/text()')
Sekarang, Anda dapat mengekstrak data tekstual menggunakan .extract() metode yang ditunjukkan sebagai berikut -
>>response.xpath('//title/text()').extract()
Ini akan menghasilkan hasil sebagai -
[u'My Website']
Anda dapat menampilkan nama semua elemen yang ditunjukkan sebagai berikut -
>>response.xpath('//div[@class = "links"]/a/text()').extract()
Ini akan menampilkan elemen sebagai -
Link 1
Link 2
Link 3
Jika Anda ingin mengekstrak elemen pertama, gunakan metode .extract_first(), ditampilkan sebagai berikut -
>>response.xpath('//div[@class = "links"]/a/text()').extract_first()
Ini akan menampilkan elemen sebagai -
Link 1
Penyeleksi Bersarang
Menggunakan kode di atas, Anda dapat menumpuk pemilih untuk menampilkan link halaman dan sumber gambar menggunakan .xpath() metode, ditunjukkan sebagai berikut -
links = response.xpath('//a[contains(@href, "image")]')
for index, link in enumerate(links):
args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract())
print 'The link %d pointing to url %s and image %s' % args
Ini akan menampilkan hasilnya sebagai -
Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']
Penyeleksi Menggunakan Ekspresi Reguler
Scrapy memungkinkan untuk mengekstrak data menggunakan ekspresi reguler, yang menggunakan .re()metode. Dari kode HTML di atas, kami akan mengekstrak nama gambar yang ditunjukkan sebagai berikut -
>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
Baris di atas menampilkan nama gambar sebagai -
[u'Link 1',
u'Link 2',
u'Link 3']
Menggunakan Relative XPaths
Saat Anda bekerja dengan XPath, yang dimulai dengan ekstensi /, pemilih bersarang dan XPath terkait dengan jalur absolut dokumen, dan bukan jalur relatif pemilih.
Jika Anda ingin mengekstrak file <p> elemen, lalu dapatkan semua elemen div -
>>mydiv = response.xpath('//div')
Selanjutnya, Anda dapat mengekstrak semua file 'p' elemen di dalamnya, dengan mengawali XPath dengan titik sebagai .//p seperti yang ditunjukkan di bawah ini -
>>for p in mydiv.xpath('.//p').extract()
Menggunakan Ekstensi EXSLT
EXSLT adalah komunitas yang mengeluarkan ekstensi ke XSLT (Extensible Stylesheet Language Transformations) yang mengubah dokumen XML menjadi dokumen XHTML. Anda dapat menggunakan ekstensi EXSLT dengan namespace terdaftar dalam ekspresi XPath seperti yang ditunjukkan pada tabel berikut -
Sr Tidak | Awalan & Penggunaan | Namespace |
---|---|---|
1 | re ekspresi reguler |
http://exslt.org/regexp/index.html |
2 | set mengatur manipulasi |
http://exslt.org/set/index.html |
Anda dapat memeriksa format kode sederhana untuk mengekstrak data menggunakan ekspresi reguler di bagian sebelumnya.
Ada beberapa tip XPath, yang berguna saat menggunakan XPath dengan penyeleksi Scrapy. Untuk informasi lebih lanjut, klik tautan ini .
Deskripsi
Proses scrapy dapat digunakan untuk mengekstrak data dari sumber seperti halaman web dengan menggunakan spider. Penggunaan ScrapyItem kelas untuk menghasilkan keluaran yang objeknya digunakan untuk mengumpulkan data potongan.
Mendeklarasikan Item
Anda dapat mendeklarasikan item menggunakan sintaks definisi kelas bersama dengan objek bidang yang ditampilkan sebagai berikut -
import scrapy
class MyProducts(scrapy.Item):
productName = Field()
productLink = Field()
imageURL = Field()
price = Field()
size = Field()
Bidang Item
Bidang item digunakan untuk menampilkan metadata untuk setiap bidang. Karena tidak ada batasan nilai pada objek bidang, kunci metadata yang dapat diakses tidak menyimpan daftar referensi metadata apa pun. Objek bidang digunakan untuk menentukan semua metadata bidang dan Anda dapat menentukan kunci bidang lainnya sesuai kebutuhan Anda dalam proyek. Objek lapangan dapat diakses menggunakan atribut Item.fields.
Bekerja dengan Item
Ada beberapa fungsi umum yang dapat ditentukan saat Anda bekerja dengan item. Untuk informasi lebih lanjut, klik tautan ini .
Memperluas Item
Item dapat diperpanjang dengan mencantumkan subclass item asli. Misalnya -
class MyProductDetails(Product):
original_rate = scrapy.Field(serializer = str)
discount_rate = scrapy.Field()
Anda dapat menggunakan metadata bidang yang sudah ada untuk memperluas metadata bidang dengan menambahkan lebih banyak nilai atau mengubah nilai yang sudah ada seperti yang diperlihatkan dalam kode berikut -
class MyProductPackage(Product):
name = scrapy.Field(Product.fields['name'], serializer = serializer_demo)
Objek Item
Objek item dapat ditentukan menggunakan kelas berikut yang menyediakan item baru yang diinisialisasi dari argumen yang diberikan -
class scrapy.item.Item([arg])
Item menyediakan salinan konstruktor dan menyediakan atribut tambahan yang diberikan oleh item di bidang.
Objek Lapangan
Objek bidang dapat ditentukan menggunakan kelas berikut di mana kelas Bidang tidak mengeluarkan proses atau atribut tambahan -
class scrapy.item.Field([arg])
Deskripsi
Pemuat barang memberikan cara yang nyaman untuk mengisi barang-barang yang diambil dari situs web.
Mendeklarasikan Pemuat Item
Deklarasi Item Loader seperti Item.
Misalnya -
from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join
class DemoLoader(ItemLoader):
default_output_processor = TakeFirst()
title_in = MapCompose(unicode.title)
title_out = Join()
size_in = MapCompose(unicode.strip)
# you can continue scraping here
Pada kode di atas, Anda dapat melihat bahwa prosesor input dideklarasikan menggunakan _in sufiks dan prosesor keluaran dideklarasikan menggunakan _out akhiran.
Itu ItemLoader.default_input_processor dan ItemLoader.default_output_processor atribut digunakan untuk mendeklarasikan prosesor input / output default.
Menggunakan Pemuat Item untuk Mengisi Item
Untuk menggunakan Item Loader, pertama-tama buat instance dengan objek seperti dict atau tanpa objek yang menggunakan kelas Item yang ditentukan di ItemLoader.default_item_class atribut.
Anda dapat menggunakan pemilih untuk mengumpulkan nilai ke dalam Item Loader.
Anda dapat menambahkan lebih banyak nilai di bidang item yang sama, di mana Pemuat Item akan menggunakan penangan yang sesuai untuk menambahkan nilai ini.
Kode berikut menunjukkan bagaimana item diisi menggunakan Item Loader -
from scrapy.loader import ItemLoader
from demoproject.items import Demo
def parse(self, response):
l = ItemLoader(item = Product(), response = response)
l.add_xpath("title", "//div[@class = 'product_title']")
l.add_xpath("title", "//div[@class = 'product_name']")
l.add_xpath("desc", "//div[@class = 'desc']")
l.add_css("size", "div#size]")
l.add_value("last_updated", "yesterday")
return l.load_item()
Seperti yang ditunjukkan di atas, ada dua XPath berbeda dari mana file title bidang diekstraksi menggunakan add_xpath() metode -
1. //div[@class = "product_title"]
2. //div[@class = "product_name"]
Setelah itu, permintaan serupa digunakan untuk descbidang. Data ukuran diekstraksi menggunakanadd_css() metode dan last_updated diisi dengan nilai "kemarin" add_value() metode.
Setelah semua data terkumpul, panggil ItemLoader.load_item() metode yang mengembalikan item yang diisi dengan data yang diekstraksi menggunakan add_xpath(), add_css() dan add_value() metode.
Prosesor Input dan Output
Setiap bidang Item Loader berisi satu prosesor masukan dan satu prosesor keluaran.
Ketika data diekstraksi, prosesor input memprosesnya dan hasilnya disimpan di ItemLoader.
Selanjutnya, setelah mengumpulkan data, panggil metode ItemLoader.load_item () untuk mendapatkan objek Item yang diisi.
Akhirnya, Anda dapat menetapkan hasil prosesor keluaran ke item tersebut.
Kode berikut menunjukkan cara memanggil prosesor input dan output untuk bidang tertentu -
l = ItemLoader(Product(), some_selector)
l.add_xpath("title", xpath1) # [1]
l.add_xpath("title", xpath2) # [2]
l.add_css("title", css) # [3]
l.add_value("title", "demo") # [4]
return l.load_item() # [5]
Line 1 - Data judul diekstrak dari xpath1 dan dilewatkan melalui input prosesor dan hasilnya dikumpulkan dan disimpan di ItemLoader.
Line 2 - Demikian pula, judul diekstrak dari xpath2 dan melewati prosesor input yang sama dan hasilnya ditambahkan ke data yang dikumpulkan untuk [1].
Line 3 - Judul diekstrak dari pemilih css dan melewati prosesor input yang sama dan hasilnya ditambahkan ke data yang dikumpulkan untuk [1] dan [2].
Line 4 - Selanjutnya, nilai "demo" ditetapkan dan diteruskan melalui prosesor input.
Line 5 - Akhirnya, data dikumpulkan secara internal dari semua bidang dan diteruskan ke prosesor keluaran dan nilai akhir ditetapkan ke Item.
Mendeklarasikan Prosesor Input dan Output
Prosesor input dan output dideklarasikan dalam definisi ItemLoader. Selain itu, mereka juga dapat ditentukan diItem Field metadata.
Misalnya -
import scrapy
from scrapy.loader.processors import Join, MapCompose, TakeFirst
from w3lib.html import remove_tags
def filter_size(value):
if value.isdigit():
return value
class Item(scrapy.Item):
name = scrapy.Field(
input_processor = MapCompose(remove_tags),
output_processor = Join(),
)
size = scrapy.Field(
input_processor = MapCompose(remove_tags, filter_price),
output_processor = TakeFirst(),
)
>>> from scrapy.loader import ItemLoader
>>> il = ItemLoader(item = Product())
>>> il.add_value('title', [u'Hello', u'<strong>world</strong>'])
>>> il.add_value('size', [u'<span>100 kg</span>'])
>>> il.load_item()
Ini menampilkan output sebagai -
{'title': u'Hello world', 'size': u'100 kg'}
Konteks Pemuat Item
Konteks Pemuat Item adalah diktekan nilai kunci arbitrer yang dibagikan di antara prosesor input dan output.
Misalnya, anggap Anda memiliki fungsi parse_length -
def parse_length(text, loader_context):
unit = loader_context.get('unit', 'cm')
# You can write parsing code of length here
return parsed_length
Dengan menerima argumen loader_context, ia memberi tahu Item Loader bahwa ia dapat menerima konteks Item Loader. Ada beberapa cara untuk mengubah nilai konteks Item Loader -
Ubah konteks Item Loader aktif saat ini -
loader = ItemLoader (product)
loader.context ["unit"] = "mm"
Pada Instansiasi Item Loader -
loader = ItemLoader(product, unit = "mm")
Pada deklarasi Item Loader untuk prosesor input / output yang dibuat dengan konteks Item Loader -
class ProductLoader(ItemLoader):
length_out = MapCompose(parse_length, unit = "mm")
Objek ItemLoader
Ini adalah objek yang mengembalikan pemuat item baru untuk mengisi item yang diberikan. Ini memiliki kelas berikut -
class scrapy.loader.ItemLoader([item, selector, response, ]**kwargs)
Tabel berikut menunjukkan parameter objek ItemLoader -
Sr Tidak | Parameter & Deskripsi |
---|---|
1 | item Ini adalah item yang akan diisi dengan memanggil add_xpath (), add_css () atau add_value (). |
2 | selector Ini digunakan untuk mengekstrak data dari situs web. |
3 | response Ini digunakan untuk membangun selektor menggunakan default_selector_class. |
Tabel berikut menunjukkan metode objek ItemLoader -
Sr Tidak | Metode & Deskripsi | Contoh |
---|---|---|
1 | get_value(value, *processors, **kwargs) Dengan prosesor dan argumen kata kunci tertentu, nilai diproses dengan metode get_value (). |
|
2 | add_value(field_name, value, *processors, **kwargs) Ini memproses nilai dan menambahkan ke bidang tempat pertama kali dilewatkan melalui get_value dengan memberikan pemroses dan argumen kata kunci sebelum melewati pemroses input bidang. |
|
3 | replace_value(field_name, value, *processors, **kwargs) Ini menggantikan data yang dikumpulkan dengan nilai baru. |
|
4 | get_xpath(xpath, *processors, **kwargs) Ini digunakan untuk mengekstrak string unicode dengan memberikan pemroses dan argumen kata kunci dengan menerima XPath . |
|
5 | add_xpath(field_name, xpath, *processors, **kwargs) Ia menerima XPath ke bidang yang mengekstrak string unicode. |
|
6 | replace_xpath(field_name, xpath, *processors, **kwargs) Ini menggantikan data yang dikumpulkan menggunakan XPath dari situs. |
|
7 | get_css(css, *processors, **kwargs) Ini menerima pemilih CSS yang digunakan untuk mengekstrak string unicode. |
|
8 | add_css(field_name, css, *processors, **kwargs) Ini mirip dengan metode add_value () dengan satu perbedaan yaitu menambahkan pemilih CSS ke bidang. |
|
9 | replace_css(field_name, css, *processors, **kwargs) Ini menggantikan data yang diekstrak menggunakan pemilih CSS. |
|
10 | load_item() Saat data dikumpulkan, metode ini mengisi item dengan data yang dikumpulkan dan mengembalikannya. |
|
11 | nested_xpath(xpath) Ini digunakan untuk membuat pemuat bersarang dengan pemilih XPath. |
|
12 | nested_css(css) Ini digunakan untuk membuat pemuat bersarang dengan pemilih CSS. |
|
Tabel berikut menunjukkan atribut objek ItemLoader -
Sr Tidak | Atribut & Deskripsi |
---|---|
1 | item Ini adalah objek tempat Item Loader melakukan parsing. |
2 | context Ini adalah konteks Item Loader yang aktif. |
3 | default_item_class Ini digunakan untuk mewakili item, jika tidak diberikan dalam konstruktor. |
4 | default_input_processor Bidang yang tidak menentukan prosesor input adalah satu-satunya yang digunakan default_input_processors. |
5 | default_output_processor Bidang yang tidak menentukan prosesor keluaran adalah satu-satunya yang digunakan default_output_processors. |
6 | default_selector_class Ini adalah kelas yang digunakan untuk membuat pemilih, jika tidak diberikan dalam konstruktor. |
7 | selector Ini adalah objek yang dapat digunakan untuk mengekstrak data dari situs. |
Loader Bersarang
Ini digunakan untuk membuat pemuat bersarang sambil mengurai nilai dari sub-bagian dokumen. Jika Anda tidak membuat pemuat bersarang, Anda perlu menentukan XPath atau CSS lengkap untuk setiap nilai yang ingin Anda ekstrak.
Misalnya, asumsikan bahwa data sedang diekstrak dari halaman header -
<header>
<a class = "social" href = "http://facebook.com/whatever">facebook</a>
<a class = "social" href = "http://twitter.com/whatever">twitter</a>
<a class = "email" href = "mailto:[email protected]">send mail</a>
</header>
Selanjutnya, Anda dapat membuat loader bersarang dengan pemilih header dengan menambahkan nilai terkait ke header -
loader = ItemLoader(item = Item())
header_loader = loader.nested_xpath('//header')
header_loader.add_xpath('social', 'a[@class = "social"]/@href')
header_loader.add_xpath('email', 'a[@class = "email"]/@href')
loader.load_item()
Menggunakan kembali dan memperluas Pemuat Item
Item Loader dirancang untuk meringankan pemeliharaan yang menjadi masalah mendasar saat proyek Anda mendapatkan lebih banyak laba-laba.
Misalnya, asumsikan bahwa sebuah situs memiliki nama produk yang diapit dalam tiga tanda hubung (misalnya --DVD ---). Anda dapat menghapus tanda hubung tersebut dengan menggunakan kembali Product Item Loader default, jika Anda tidak menginginkannya di nama produk akhir seperti yang ditunjukkan pada kode berikut -
from scrapy.loader.processors import MapCompose
from demoproject.ItemLoaders import DemoLoader
def strip_dashes(x):
return x.strip('-')
class SiteSpecificLoader(DemoLoader):
title_in = MapCompose(strip_dashes, DemoLoader.title_in)
Tersedia Prosesor Bawaan
Berikut adalah beberapa prosesor built-in yang umum digunakan -
class scrapy.loader.processors.Identity
Ini mengembalikan nilai asli tanpa mengubahnya. Misalnya -
>>> from scrapy.loader.processors import Identity
>>> proc = Identity()
>>> proc(['a', 'b', 'c'])
['a', 'b', 'c']
class scrapy.loader.processors.TakeFirst
Ini mengembalikan nilai pertama yang tidak kosong / tidak kosong dari daftar nilai yang diterima. Misalnya -
>>> from scrapy.loader.processors import TakeFirst
>>> proc = TakeFirst()
>>> proc(['', 'a', 'b', 'c'])
'a'
class scrapy.loader.processors.Join (separator = u '')
Ini mengembalikan nilai yang dilampirkan ke pemisah. Pemisah default adalah u '' dan itu setara dengan fungsinyau' '.join. Misalnya -
>>> from scrapy.loader.processors import Join
>>> proc = Join()
>>> proc(['a', 'b', 'c'])
u'a b c'
>>> proc = Join('<br>')
>>> proc(['a', 'b', 'c'])
u'a<br>b<br>c'
class scrapy.loader.processors.Compose (* functions, ** default_loader_context)
Ini ditentukan oleh prosesor di mana setiap nilai masukannya diteruskan ke fungsi pertama, dan hasil dari fungsi itu diteruskan ke fungsi kedua dan seterusnya, sampai fungsi ast mengembalikan nilai akhir sebagai keluaran.
Misalnya -
>>> from scrapy.loader.processors import Compose
>>> proc = Compose(lambda v: v[0], str.upper)
>>> proc(['python', 'scrapy'])
'PYTHON'
class scrapy.loader.processors.MapCompose (* functions, ** default_loader_context)
Ini adalah prosesor di mana nilai input diulang dan fungsi pertama diterapkan ke setiap elemen. Selanjutnya, hasil dari pemanggilan fungsi ini digabungkan untuk membangun iterable baru yang kemudian diterapkan ke fungsi kedua dan seterusnya, hingga fungsi terakhir.
Misalnya -
>>> def filter_scrapy(x):
return None if x == 'scrapy' else x
>>> from scrapy.loader.processors import MapCompose
>>> proc = MapCompose(filter_scrapy, unicode.upper)
>>> proc([u'hi', u'everyone', u'im', u'pythonscrapy'])
[u'HI, u'IM', u'PYTHONSCRAPY']
class scrapy.loader.processors.SelectJmes (json_path)
Kelas ini mengkueri nilai menggunakan jalur json yang disediakan dan mengembalikan hasilnya.
Misalnya -
>>> from scrapy.loader.processors import SelectJmes, Compose, MapCompose
>>> proc = SelectJmes("hello")
>>> proc({'hello': 'scrapy'})
'scrapy'
>>> proc({'hello': {'scrapy': 'world'}})
{'scrapy': 'world'}
Berikut adalah kode, yang menanyakan nilai dengan mengimpor json -
>>> import json
>>> proc_single_json_str = Compose(json.loads, SelectJmes("hello"))
>>> proc_single_json_str('{"hello": "scrapy"}')
u'scrapy'
>>> proc_json_list = Compose(json.loads, MapCompose(SelectJmes('hello')))
>>> proc_json_list('[{"hello":"scrapy"}, {"world":"env"}]')
[u'scrapy']
Deskripsi
Scrapy shell dapat digunakan untuk mengikis data dengan kode bebas kesalahan, tanpa menggunakan spider. Tujuan utama dari Scrapy shell adalah untuk menguji kode yang diekstrak, XPath, atau ekspresi CSS. Ini juga membantu menentukan halaman web dari mana Anda mengambil data.
Konfigurasi Shell
Shell dapat dikonfigurasi dengan menginstal konsol IPython (digunakan untuk komputasi interaktif), yang merupakan shell interaktif yang kuat yang memberikan penyelesaian otomatis, keluaran berwarna, dll.
Jika Anda bekerja pada platform Unix, maka lebih baik menginstal IPython. Anda juga dapat menggunakan bpython , jika IPython tidak dapat diakses.
Anda dapat mengkonfigurasi shell dengan mengatur variabel lingkungan yang disebut SCRAPY_PYTHON_SHELL atau dengan menentukan file scrapy.cfg sebagai berikut -
[settings]
shell = bpython
Meluncurkan Shell
Scrapy shell dapat diluncurkan menggunakan perintah berikut -
scrapy shell <url>
The url Menentukan URL yang data perlu tergores.
Menggunakan Shell
Shell menyediakan beberapa pintasan tambahan dan objek Scrapy seperti yang dijelaskan dalam tabel berikut -
Pintasan Tersedia
Shell menyediakan pintasan yang tersedia berikut dalam proyek -
Sr Tidak | Pintasan & Deskripsi |
---|---|
1 | shelp() Ini menyediakan objek dan pintasan yang tersedia dengan opsi bantuan. |
2 | fetch(request_or_url) Ini mengumpulkan respons dari permintaan atau URL dan objek terkait akan diperbarui dengan benar. |
3 | view(response) Anda dapat melihat respon untuk permintaan yang diberikan di browser lokal untuk observasi dan untuk menampilkan link eksternal dengan benar, itu menambahkan tag dasar ke badan respon. |
Objek Scrapy yang Tersedia
Shell menyediakan objek Scrapy yang tersedia berikut dalam proyek -
Sr Tidak | Objek & Deskripsi |
---|---|
1 | crawler Ini menentukan objek crawler saat ini. |
2 | spider Jika tidak ada spider untuk URL saat ini, maka itu akan menangani URL atau objek spider dengan menentukan spider baru. |
3 | request Ini menentukan objek permintaan untuk halaman yang dikumpulkan terakhir. |
4 | response Ini menentukan objek respons untuk halaman yang terakhir dikumpulkan. |
5 | settings Ini memberikan pengaturan Scrapy saat ini. |
Contoh Sesi Shell
Mari kita coba menyalin situs scrapy.org dan kemudian mulai menghapus data dari reddit.com seperti yang dijelaskan.
Sebelum melanjutkan, pertama kita akan meluncurkan shell seperti yang ditunjukkan pada perintah berikut -
scrapy shell 'http://scrapy.org' --nolog
Scrapy akan menampilkan objek yang tersedia saat menggunakan URL di atas -
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
[s] item {}
[s] request <GET http://scrapy.org >
[s] response <200 http://scrapy.org >
[s] settings <scrapy.settings.Settings object at 0x2bfd650>
[s] spider <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s] shelp() Provides available objects and shortcuts with help option
[s] fetch(req_or_url) Collects the response from the request or URL and associated
objects will get update
[s] view(response) View the response for the given request
Selanjutnya, mulailah dengan mengerjakan objek, yang ditunjukkan sebagai berikut -
>> response.xpath('//title/text()').extract_first()
u'Scrapy | A Fast and Powerful Scraping and Web Crawling Framework'
>> fetch("http://reddit.com")
[s] Available Scrapy objects:
[s] crawler
[s] item {}
[s] request
[s] response <200 https://www.reddit.com/>
[s] settings
[s] spider
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser
>> response.xpath('//title/text()').extract()
[u'reddit: the front page of the internet']
>> request = request.replace(method="POST")
>> fetch(request)
[s] Available Scrapy objects:
[s] crawler
...
Memanggil Shell dari Spider untuk Memeriksa Respons
Anda dapat memeriksa respons yang diproses dari laba-laba, hanya jika Anda berharap mendapatkan respons itu.
Misalnya -
import scrapy
class SpiderDemo(scrapy.Spider):
name = "spiderdemo"
start_urls = [
"http://mysite.com",
"http://mysite1.org",
"http://mysite2.net",
]
def parse(self, response):
# You can inspect one specific response
if ".net" in response.url:
from scrapy.shell import inspect_response
inspect_response(response, self)
Seperti yang ditunjukkan pada kode di atas, Anda dapat memanggil shell dari spider untuk memeriksa respons menggunakan fungsi berikut -
scrapy.shell.inspect_response
Sekarang jalankan laba-laba, dan Anda akan mendapatkan layar berikut -
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
[s] Available Scrapy objects:
[s] crawler
...
>> response.url
'http://mysite2.org'
Anda dapat memeriksa apakah kode yang diekstrak berfungsi menggunakan kode berikut -
>> response.xpath('//div[@class = "val"]')
Ini menampilkan output sebagai
[]
Baris di atas hanya menampilkan keluaran kosong. Sekarang Anda dapat memanggil shell untuk memeriksa respons sebagai berikut -
>> view(response)
Ini menampilkan respons sebagai
True
Deskripsi
Item Pipelineadalah metode di mana barang bekas diproses. Saat item dikirim ke Item Pipeline, item tersebut dikikis oleh laba-laba dan diproses menggunakan beberapa komponen, yang dijalankan secara berurutan.
Setiap kali item diterima, itu memutuskan salah satu dari tindakan berikut -
- Terus proses item tersebut.
- Jatuhkan dari pipa.
- Berhenti memproses item tersebut.
Pipa item umumnya digunakan untuk tujuan berikut -
- Menyimpan barang bekas dalam database.
- Jika item yang diterima diulang, maka item yang diulang akan dibuang.
- Ini akan memeriksa apakah item tersebut dengan bidang yang ditargetkan.
- Menghapus data HTML.
Sintaksis
Anda dapat menulis Item Pipeline menggunakan metode berikut -
process_item(self, item, spider)
Metode di atas berisi parameter berikut -
- Item (objek item atau kamus) - Ini menentukan item yang dikerok.
- spider (objek laba-laba) - Laba-laba yang mengikis item tersebut.
Anda dapat menggunakan metode tambahan yang diberikan dalam tabel berikut -
Sr Tidak | Metode & Deskripsi | Parameter |
---|---|---|
1 | open_spider(self, spider) Itu dipilih ketika laba-laba dibuka. |
spider (objek laba-laba) - Ini mengacu pada laba-laba yang telah dibuka. |
2 | close_spider(self, spider) Itu dipilih ketika laba-laba ditutup. |
spider (objek laba-laba) - Ini mengacu pada laba-laba yang tertutup. |
3 | from_crawler(cls, crawler) Dengan bantuan crawler, pipeline dapat mengakses komponen inti seperti sinyal dan pengaturan Scrapy. |
crawler (objek Crawler) - Ini merujuk ke crawler yang menggunakan pipeline ini. |
Contoh
Berikut adalah contoh pipeline item yang digunakan dalam berbagai konsep.
Menjatuhkan Item Tanpa Tag
Dalam kode berikut, pipeline menyeimbangkan atribut (price) untuk item yang tidak menyertakan PPN (atribut excludes_vat) dan mengabaikan item yang tidak memiliki label harga -
from Scrapy.exceptions import DropItem
class PricePipeline(object):
vat = 2.25
def process_item(self, item, spider):
if item['price']:
if item['excludes_vat']:
item['price'] = item['price'] * self.vat
return item
else:
raise DropItem("Missing price in %s" % item)
Menulis Item ke File JSON
Kode berikut akan menyimpan semua item yang dikikis dari semua laba-laba menjadi satu items.jlfile, yang berisi satu item per baris dalam bentuk serial dalam format JSON. ItuJsonWriterPipeline class digunakan dalam kode untuk menunjukkan cara menulis pipeline item -
import json
class JsonWriterPipeline(object):
def __init__(self):
self.file = open('items.jl', 'wb')
def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.file.write(line)
return item
Menulis Item ke MongoDB
Anda dapat menentukan alamat MongoDB dan nama database di pengaturan Scrapy dan koleksi MongoDB bisa diberi nama setelah kelas item. Kode berikut menjelaskan cara menggunakanfrom_crawler() metode untuk mengumpulkan sumber daya dengan benar -
import pymongo
class MongoPipeline(object):
collection_name = 'Scrapy_list'
def __init__(self, mongo_uri, mongo_db):
self.mongo_uri = mongo_uri
self.mongo_db = mongo_db
@classmethod
def from_crawler(cls, crawler):
return cls(
mongo_uri = crawler.settings.get('MONGO_URI'),
mongo_db = crawler.settings.get('MONGO_DB', 'lists')
)
def open_spider(self, spider):
self.client = pymongo.MongoClient(self.mongo_uri)
self.db = self.client[self.mongo_db]
def close_spider(self, spider):
self.client.close()
def process_item(self, item, spider):
self.db[self.collection_name].insert(dict(item))
return item
Filter Duplikat
Filter akan memeriksa item yang berulang dan akan menghapus item yang sudah diproses. Dalam kode berikut, kami telah menggunakan id unik untuk item kami, tetapi spider mengembalikan banyak item dengan id yang sama -
from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
if item['id'] in self.ids_seen:
raise DropItem("Repeated items found: %s" % item)
else:
self.ids_seen.add(item['id'])
return item
Mengaktifkan Item Pipeline
Anda dapat mengaktifkan komponen Item Pipeline dengan menambahkan kelasnya ke pengaturan ITEM_PIPELINES seperti yang ditunjukkan pada kode berikut. Anda dapat menetapkan nilai integer ke kelas dalam urutan yang mereka jalankan (urutan dapat dinilai lebih rendah ke kelas bernilai lebih tinggi) dan nilai akan berada dalam kisaran 0-1000.
ITEM_PIPELINES = {
'myproject.pipelines.PricePipeline': 100,
'myproject.pipelines.JsonWriterPipeline': 600,
}
Deskripsi
Ekspor umpan adalah metode penyimpanan data yang diambil dari situs, yang menghasilkan file "export file".
Format Serialisasi
Menggunakan beberapa format serialisasi dan penyimpanan backend, Ekspor Umpan menggunakan eksportir Item dan menghasilkan umpan dengan item yang dikorek.
Tabel berikut menunjukkan format yang didukung−
Sr Tidak | Format & Deskripsi |
---|---|
1 | JSON FEED_FORMAT adalah json Eksportir yang digunakan adalah class scrapy.exporters.JsonItemExporter |
2 | JSON lines FEED_FROMAT adalah jsonlines Eksportir yang digunakan adalah class scrapy.exporters.JsonLinesItemExporter |
3 | CSV FEED_FORMAT adalah CSV Eksportir yang digunakan adalah class scrapy.exporters.CsvItemExporter |
4 | XML FEED_FORMAT adalah xml Eksportir yang digunakan adalah class scrapy.exporters.XmlItemExporter |
Menggunakan FEED_EXPORTERS pengaturan, format yang didukung juga dapat diperpanjang -
Sr Tidak | Format & Deskripsi |
---|---|
1 | Pickle FEED_FORMAT adalah pilihan Eksportir yang digunakan adalah class scrapy.exporters.PickleItemExporter |
2 | Marshal FEED_FORMAT adalah marshal Eksportir yang digunakan adalah class scrapy.exporters.MarshalItemExporter |
Backend Penyimpanan
Penyimpanan backend menentukan tempat menyimpan feed menggunakan URI.
Tabel berikut menunjukkan backend penyimpanan yang didukung -
Sr Tidak | Deskripsi & Backend Penyimpanan |
---|---|
1 | Local filesystem Skema URI adalah file dan digunakan untuk menyimpan feed. |
2 | FTP Skema URI adalah ftp dan digunakan untuk menyimpan feed. |
3 | S3 Skema URI S3 dan feed disimpan di Amazon S3. Perpustakaan eksternal botocore atau boto diperlukan. |
4 | Standard output Skema URI adalah stdout dan feed disimpan ke keluaran standar. |
Parameter URI Penyimpanan
Berikut adalah parameter penyimpanan URL, yang akan diganti saat feed dibuat -
- % (time) s: Parameter ini diganti dengan stempel waktu.
- % (name) s: Parameter ini diganti dengan nama laba-laba.
Pengaturan
Tabel berikut menunjukkan pengaturan yang menggunakan ekspor Feed yang dapat dikonfigurasi -
Sr Tidak | Pengaturan & Deskripsi |
---|---|
1 | FEED_URI Ini adalah URI feed ekspor yang digunakan untuk mengaktifkan ekspor feed. |
2 | FEED_FORMAT Ini adalah format serialisasi yang digunakan untuk feed. |
3 | FEED_EXPORT_FIELDS Ini digunakan untuk menentukan bidang yang perlu diekspor. |
4 | FEED_STORE_EMPTY Ini menentukan apakah akan mengekspor feed tanpa item. |
5 | FEED_STORAGES Ini adalah kamus dengan backend penyimpanan feed tambahan. |
6 | FEED_STORAGES_BASE Ini adalah kamus dengan backend penyimpanan umpan bawaan. |
7 | FEED_EXPORTERS Ini adalah kamus dengan eksportir pakan tambahan. |
8 | FEED_EXPORTERS_BASE Ini adalah kamus dengan eksportir umpan bawaan. |
Deskripsi
Scrapy dapat merayapi situs web menggunakan Request dan Responsebenda. Objek permintaan melewati sistem, menggunakan spider untuk menjalankan permintaan dan kembali ke permintaan ketika mengembalikan objek respons.
Minta Objek
Objek permintaan adalah permintaan HTTP yang menghasilkan respons. Ini memiliki kelas berikut -
class scrapy.http.Request(url[, callback, method = 'GET', headers, body, cookies, meta,
encoding = 'utf-8', priority = 0, dont_filter = False, errback])
Tabel berikut menunjukkan parameter objek Permintaan -
Sr Tidak | Parameter & Deskripsi |
---|---|
1 | url Ini adalah string yang menentukan permintaan URL. |
2 | callback Ini adalah fungsi yang dapat dipanggil yang menggunakan respons permintaan sebagai parameter pertama. |
3 | method Ini adalah string yang menentukan permintaan metode HTTP. |
4 | headers Ini adalah kamus dengan header permintaan. |
5 | body Ini adalah string atau unicode yang memiliki isi permintaan. |
6 | cookies Ini adalah daftar yang berisi cookie permintaan. |
7 | meta Ini adalah kamus yang berisi nilai untuk metadata permintaan. |
8 | encoding Ini adalah string yang berisi pengkodean utf-8 yang digunakan untuk menyandikan URL. |
9 | priority Ini adalah bilangan bulat di mana penjadwal menggunakan prioritas untuk menentukan urutan untuk memproses permintaan. |
10 | dont_filter Ini adalah boolean yang menentukan bahwa penjadwal tidak boleh memfilter permintaan. |
11 | errback Ini adalah fungsi yang dapat dipanggil untuk dipanggil ketika pengecualian saat memproses permintaan dimunculkan. |
Meneruskan Data Tambahan ke Fungsi Callback
Fungsi panggilan balik dari sebuah permintaan dipanggil ketika respon diunduh sebagai parameter pertamanya.
Misalnya -
def parse_page1(self, response):
return scrapy.Request("http://www.something.com/some_page.html",
callback = self.parse_page2)
def parse_page2(self, response):
self.logger.info("%s page visited", response.url)
Kamu dapat memakai Request.meta atribut, jika Anda ingin meneruskan argumen ke fungsi yang dapat dipanggil dan menerima argumen tersebut di callback kedua seperti yang ditunjukkan dalam contoh berikut -
def parse_page1(self, response):
item = DemoItem()
item['foremost_link'] = response.url
request = scrapy.Request("http://www.something.com/some_page.html",
callback = self.parse_page2)
request.meta['item'] = item
return request
def parse_page2(self, response):
item = response.meta['item']
item['other_link'] = response.url
return item
Menggunakan errbacks untuk Menangkap Pengecualian dalam Pemrosesan Permintaan
Errback adalah fungsi yang dapat dipanggil untuk dipanggil saat pengecualian saat memproses permintaan dimunculkan.
Contoh berikut menunjukkan ini -
import scrapy
from scrapy.spidermiddlewares.httperror import HttpError
from twisted.internet.error import DNSLookupError
from twisted.internet.error import TimeoutError, TCPTimedOutError
class DemoSpider(scrapy.Spider):
name = "demo"
start_urls = [
"http://www.httpbin.org/", # HTTP 200 expected
"http://www.httpbin.org/status/404", # Webpage not found
"http://www.httpbin.org/status/500", # Internal server error
"http://www.httpbin.org:12345/", # timeout expected
"http://www.httphttpbinbin.org/", # DNS error expected
]
def start_requests(self):
for u in self.start_urls:
yield scrapy.Request(u, callback = self.parse_httpbin,
errback = self.errback_httpbin,
dont_filter=True)
def parse_httpbin(self, response):
self.logger.info('Recieved response from {}'.format(response.url))
# ...
def errback_httpbin(self, failure):
# logs failures
self.logger.error(repr(failure))
if failure.check(HttpError):
response = failure.value.response
self.logger.error("HttpError occurred on %s", response.url)
elif failure.check(DNSLookupError):
request = failure.request
self.logger.error("DNSLookupError occurred on %s", request.url)
elif failure.check(TimeoutError, TCPTimedOutError):
request = failure.request
self.logger.error("TimeoutError occurred on %s", request.url)
Request.meta Tombol Khusus
Kunci khusus request.meta adalah daftar kunci meta khusus yang diidentifikasi oleh Scrapy.
Tabel berikut menunjukkan beberapa kunci Request.meta -
Sr Tidak | Kunci & Deskripsi |
---|---|
1 | dont_redirect Ini adalah kunci jika disetel ke true, tidak mengalihkan permintaan berdasarkan status respons. |
2 | dont_retry Ini adalah kunci jika disetel ke true, tidak mencoba lagi permintaan yang gagal dan akan diabaikan oleh middleware. |
3 | handle_httpstatus_list Ini adalah kunci yang menentukan kode respons per permintaan mana yang dapat diizinkan. |
4 | handle_httpstatus_all Ini adalah kunci yang digunakan untuk mengizinkan kode respons apa pun untuk permintaan dengan menyetelnya ke true . |
5 | dont_merge_cookies Ini adalah kunci yang digunakan untuk menghindari penggabungan dengan cookie yang ada dengan menyetelnya ke true . |
6 | cookiejar Ini adalah kunci yang digunakan untuk menyimpan beberapa sesi kue per laba-laba. |
7 | dont_cache Ini adalah kunci yang digunakan untuk menghindari caching permintaan HTTP dan respon pada setiap kebijakan. |
8 | redirect_urls Ini adalah kunci yang berisi URL yang dilalui permintaan. |
9 | bindaddress Ini adalah IP dari alamat IP keluar yang dapat digunakan untuk melakukan permintaan. |
10 | dont_obey_robotstxt Ini adalah kunci jika disetel ke true, tidak memfilter permintaan yang dilarang oleh standar pengecualian robots.txt, meskipun ROBOTSTXT_OBEY diaktifkan. |
11 | download_timeout Ini digunakan untuk mengatur waktu tunggu (dalam detik) per laba-laba yang pengunduh akan menunggu sebelum waktu habis. |
12 | download_maxsize Ini digunakan untuk mengatur ukuran maksimum (dalam byte) per spider, yang akan diunduh oleh pengunduh. |
13 | proxy Proksi dapat diatur untuk objek Permintaan untuk mengatur proxy HTTP untuk penggunaan permintaan. |
Minta Subkelas
Anda dapat mengimplementasikan fungsionalitas kustom Anda sendiri dengan membuat subclass kelas permintaan. Subkelas permintaan bawaan adalah sebagai berikut -
Objek FormRequest
Kelas FormRequest menangani formulir HTML dengan memperluas permintaan dasar. Ini memiliki kelas berikut -
class scrapy.http.FormRequest(url[,formdata, callback, method = 'GET', headers, body,
cookies, meta, encoding = 'utf-8', priority = 0, dont_filter = False, errback])
Berikut adalah parameternya -
formdata - Ini adalah kamus yang memiliki data bentuk HTML yang ditugaskan ke tubuh permintaan.
Note - Parameter yang tersisa sama dengan kelas permintaan dan dijelaskan di Request Objects section.
The following class methods are supported by FormRequest objects in addition to request methods −
classmethod from_response(response[, formname = None, formnumber = 0, formdata = None,
formxpath = None, formcss = None, clickdata = None, dont_click = False, ...])
The following table shows the parameters of the above class −
Sr.No | Parameter & Description |
---|---|
1 | response It is an object used to pre-populate the form fields using HTML form of response. |
2 | formname It is a string where the form having name attribute will be used, if specified. |
3 | formnumber It is an integer of forms to be used when there are multiple forms in the response. |
4 | formdata It is a dictionary of fields in the form data used to override. |
5 | formxpath It is a string when specified, the form matching the xpath is used. |
6 | formcss It is a string when specified, the form matching the css selector is used. |
7 | clickdata It is a dictionary of attributes used to observe the clicked control. |
8 | dont_click The data from the form will be submitted without clicking any element, when set to true. |
Examples
Following are some of the request usage examples −
Using FormRequest to send data via HTTP POST
The following code demonstrates how to return FormRequest object when you want to duplicate HTML form POST in your spider −
return [FormRequest(url = "http://www.something.com/post/action",
formdata = {'firstname': 'John', 'lastname': 'dave'},
callback = self.after_post)]
Using FormRequest.from_response() to simulate a user login
Normally, websites use elements through which it provides pre-populated form fields.
The FormRequest.form_response() method can be used when you want these fields to be automatically populate while scraping.
The following example demonstrates this.
import scrapy
class DemoSpider(scrapy.Spider):
name = 'demo'
start_urls = ['http://www.something.com/users/login.php']
def parse(self, response):
return scrapy.FormRequest.from_response(
response,
formdata = {'username': 'admin', 'password': 'confidential'},
callback = self.after_login
)
def after_login(self, response):
if "authentication failed" in response.body:
self.logger.error("Login failed")
return
# You can continue scraping here
Response Objects
It is an object indicating HTTP response that is fed to the spiders to process. It has the following class −
class scrapy.http.Response(url[, status = 200, headers, body, flags])
The following table shows the parameters of Response objects −
Sr.No | Parameter & Description |
---|---|
1 | url It is a string that specifies the URL response. |
2 | status It is an integer that contains HTTP status response. |
3 | headers It is a dictionary containing response headers. |
4 | body It is a string with response body. |
5 | flags It is a list containing flags of response. |
Response Subclasses
You can implement your own custom functionality by subclassing the response class. The built-in response subclasses are as follows −
TextResponse objects
TextResponse objects are used for binary data such as images, sounds, etc. which has the ability to encode the base Response class. It has the following class −
class scrapy.http.TextResponse(url[, encoding[,status = 200, headers, body, flags]])
Following is the parameter −
encoding − It is a string with encoding that is used to encode a response.
Note − Remaining parameters are same as response class and is explained in Response Objects section.
The following table shows the attributes supported by TextResponse object in addition to response methods −
Sr.No | Attribute & Description |
---|---|
1 | text It is a response body, where response.text can be accessed multiple times. |
2 | encoding It is a string containing encoding for response. |
3 | selector It is an attribute instantiated on first access and uses response as target. |
The following table shows the methods supported by TextResponse objects in addition to response methods −
Sr.No | Method & Description |
---|---|
1 | xpath (query) It is a shortcut to TextResponse.selector.xpath(query). |
2 | css (query) It is a shortcut to TextResponse.selector.css(query). |
3 | body_as_unicode() It is a response body available as a method, where response.text can be accessed multiple times. |
HtmlResponse Objects
It is an object that supports encoding and auto-discovering by looking at the meta httpequiv attribute of HTML. Its parameters are the same as response class and is explained in Response objects section. It has the following class −
class scrapy.http.HtmlResponse(url[,status = 200, headers, body, flags])
XmlResponse Objects
It is an object that supports encoding and auto-discovering by looking at the XML line. Its parameters are the same as response class and is explained in Response objects section. It has the following class −
class scrapy.http.XmlResponse(url[, status = 200, headers, body, flags])
Description
As the name itself indicates, Link Extractors are the objects that are used to extract links from web pages using scrapy.http.Response objects. In Scrapy, there are built-in extractors such as scrapy.linkextractors import LinkExtractor. You can customize your own link extractor according to your needs by implementing a simple interface.
Every link extractor has a public method called extract_links which includes a Response object and returns a list of scrapy.link.Link objects. You can instantiate the link extractors only once and call the extract_links method various times to extract links with different responses. The CrawlSpiderclass uses link extractors with a set of rules whose main purpose is to extract links.
Built-in Link Extractor's Reference
Normally link extractors are grouped with Scrapy and are provided in scrapy.linkextractors module. By default, the link extractor will be LinkExtractor which is equal in functionality with LxmlLinkExtractor −
from scrapy.linkextractors import LinkExtractor
LxmlLinkExtractor
class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow = (), deny = (),
allow_domains = (), deny_domains = (), deny_extensions = None, restrict_xpaths = (),
restrict_css = (), tags = ('a', 'area'), attrs = ('href', ),
canonicalize = True, unique = True, process_value = None)
The LxmlLinkExtractor is a highly recommended link extractor, because it has handy filtering options and it is used with lxml’s robust HTMLParser.
Sr.No | Parameter & Description |
---|---|
1 | allow (a regular expression (or list of)) It allows a single expression or group of expressions that should match the url which is to be extracted. If it is not mentioned, it will match all the links. |
2 | deny (a regular expression (or list of)) It blocks or excludes a single expression or group of expressions that should match the url which is not to be extracted. If it is not mentioned or left empty, then it will not eliminate the undesired links. |
3 | allow_domains (str or list) It allows a single string or list of strings that should match the domains from which the links are to be extracted. |
4 | deny_domains (str or list) It blocks or excludes a single string or list of strings that should match the domains from which the links are not to be extracted. |
5 | deny_extensions (list) It blocks the list of strings with the extensions when extracting the links. If it is not set, then by default it will be set to IGNORED_EXTENSIONS which contains predefined list in scrapy.linkextractors package. |
6 | restrict_xpaths (str or list) It is an XPath list region from where the links are to be extracted from the response. If given, the links will be extracted only from the text, which is selected by XPath. |
7 | restrict_css (str or list) It behaves similar to restrict_xpaths parameter which will extract the links from the CSS selected regions inside the response. |
8 | tags (str or list) A single tag or a list of tags that should be considered when extracting the links. By default, it will be (’a’, ’area’). |
9 | attrs (list) A single attribute or list of attributes should be considered while extracting links. By default, it will be (’href’,). |
10 | canonicalize (boolean) The extracted url is brought to standard form using scrapy.utils.url.canonicalize_url. By default, it will be True. |
11 | unique (boolean) It will be used if the extracted links are repeated. |
12 | process_value (callable) It is a function which receives a value from scanned tags and attributes. The value received may be altered and returned or else nothing will be returned to reject the link. If not used, by default it will be lambda x: x. |
Example
The following code is used to extract the links −
<a href = "javascript:goToPage('../other/page.html'); return false">Link text</a>
The following code function can be used in process_value −
def process_value(val):
m = re.search("javascript:goToPage\('(.*?)'", val)
if m:
return m.group(1)
Description
The behavior of Scrapy components can be modified using Scrapy settings. The settings can also select the Scrapy project that is currently active, in case you have multiple Scrapy projects.
Designating the Settings
You must notify Scrapy which setting you are using when you scrap a website. For this, environment variable SCRAPY_SETTINGS_MODULE should be used and its value should be in Python path syntax.
Populating the Settings
The following table shows some of the mechanisms by which you can populate the settings −
Sr.No | Mechanism & Description |
---|---|
1 | Command line options Here, the arguments that are passed takes highest precedence by overriding other options. The -s is used to override one or more settings. |
2 | Settings per-spider Spiders can have their own settings that overrides the project ones by using attribute custom_settings. |
3 | Project settings module Here, you can populate your custom settings such as adding or modifying the settings in the settings.py file. |
4 | Default settings per-command Each Scrapy tool command defines its own settings in the default_settings attribute, to override the global default settings. |
5 | Default global settings These settings are found in the scrapy.settings.default_settings module. |
Access Settings
They are available through self.settings and set in the base spider after it is initialized.
The following example demonstrates this.
class DemoSpider(scrapy.Spider):
name = 'demo'
start_urls = ['http://example.com']
def parse(self, response):
print("Existing settings: %s" % self.settings.attributes.keys())
To use settings before initializing the spider, you must override from_crawler method in the _init_() method of your spider. You can access settings through attribute scrapy.crawler.Crawler.settings passed to from_crawler method.
The following example demonstrates this.
class MyExtension(object):
def __init__(self, log_is_enabled = False):
if log_is_enabled:
print("Enabled log")
@classmethod
def from_crawler(cls, crawler):
settings = crawler.settings
return cls(settings.getbool('LOG_ENABLED'))
Rationale for Setting Names
Setting names are added as a prefix to the component they configure. For example, for robots.txt extension, the setting names can be ROBOTSTXT_ENABLED, ROBOTSTXT_OBEY, ROBOTSTXT_CACHEDIR, etc.
Built-in Settings Reference
The following table shows the built-in settings of Scrapy −
Sr.No | Setting & Description |
---|---|
1 | AWS_ACCESS_KEY_ID It is used to access Amazon Web Services. Default value: None |
2 | AWS_SECRET_ACCESS_KEY It is used to access Amazon Web Services. Default value: None |
3 | BOT_NAME It is the name of bot that can be used for constructing User-Agent. Default value: 'scrapybot' |
4 | CONCURRENT_ITEMS Maximum number of existing items in the Item Processor used to process parallely. Default value: 100 |
5 | CONCURRENT_REQUESTS Maximum number of existing requests which Scrapy downloader performs. Default value: 16 |
6 | CONCURRENT_REQUESTS_PER_DOMAIN Maximum number of existing requests that perform simultaneously for any single domain. Default value: 8 |
7 | CONCURRENT_REQUESTS_PER_IP Maximum number of existing requests that performs simultaneously to any single IP. Default value: 0 |
8 | DEFAULT_ITEM_CLASS It is a class used to represent items. Default value: 'scrapy.item.Item' |
9 | DEFAULT_REQUEST_HEADERS It is a default header used for HTTP requests of Scrapy. Default value − |
10 | DEPTH_LIMIT The maximum depth for a spider to crawl any site. Default value: 0 |
11 | DEPTH_PRIORITY It is an integer used to alter the priority of request according to the depth. Default value: 0 |
12 | DEPTH_STATS It states whether to collect depth stats or not. Default value: True |
13 | DEPTH_STATS_VERBOSE This setting when enabled, the number of requests is collected in stats for each verbose depth. Default value: False |
14 | DNSCACHE_ENABLED It is used to enable DNS in memory cache. Default value: True |
15 | DNSCACHE_SIZE It defines the size of DNS in memory cache. Default value: 10000 |
16 | DNS_TIMEOUT It is used to set timeout for DNS to process the queries. Default value: 60 |
17 | DOWNLOADER It is a downloader used for the crawling process. Default value: 'scrapy.core.downloader.Downloader' |
18 | DOWNLOADER_MIDDLEWARES It is a dictionary holding downloader middleware and their orders. Default value: {} |
19 | DOWNLOADER_MIDDLEWARES_BASE It is a dictionary holding downloader middleware that is enabled by default. Default value − |
20 | DOWNLOADER_STATS This setting is used to enable the downloader stats. Default value: True |
21 | DOWNLOAD_DELAY It defines the total time for downloader before it downloads the pages from the site. Default value: 0 |
22 | DOWNLOAD_HANDLERS It is a dictionary with download handlers. Default value: {} |
23 | DOWNLOAD_HANDLERS_BASE It is a dictionary with download handlers that is enabled by default. Default value − |
24 | DOWNLOAD_TIMEOUT It is the total time for downloader to wait before it times out. Default value: 180 |
25 | DOWNLOAD_MAXSIZE It is the maximum size of response for the downloader to download. Default value: 1073741824 (1024MB) |
26 | DOWNLOAD_WARNSIZE It defines the size of response for downloader to warn. Default value: 33554432 (32MB) |
27 | DUPEFILTER_CLASS It is a class used for detecting and filtering of requests that are duplicate. Default value: 'scrapy.dupefilters.RFPDupeFilter' |
28 | DUPEFILTER_DEBUG This setting logs all duplicate filters when set to true. Default value: False |
29 | EDITOR It is used to edit spiders using the edit command. Default value: Depends on the environment |
30 | EXTENSIONS It is a dictionary having extensions that are enabled in the project. Default value: {} |
31 | EXTENSIONS_BASE It is a dictionary having built-in extensions. Default value: { 'scrapy.extensions.corestats.CoreStats': 0, } |
32 | FEED_TEMPDIR It is a directory used to set the custom folder where crawler temporary files can be stored. |
33 | ITEM_PIPELINES It is a dictionary having pipelines. Default value: {} |
34 | LOG_ENABLED It defines if the logging is to be enabled. Default value: True |
35 | LOG_ENCODING It defines the type of encoding to be used for logging. Default value: 'utf-8' |
36 | LOG_FILE It is the name of the file to be used for the output of logging. Default value: None |
37 | LOG_FORMAT It is a string using which the log messages can be formatted. Default value: '%(asctime)s [%(name)s] %(levelname)s: %(message)s' |
38 | LOG_DATEFORMAT It is a string using which date/time can be formatted. Default value: '%Y-%m-%d %H:%M:%S' |
39 | LOG_LEVEL It defines minimum log level. Default value: 'DEBUG' |
40 | LOG_STDOUT This setting if set to true, all your process output will appear in the log. Default value: False |
41 | MEMDEBUG_ENABLED It defines if the memory debugging is to be enabled. Default Value: False |
42 | MEMDEBUG_NOTIFY It defines the memory report that is sent to a particular address when memory debugging is enabled. Default value: [] |
43 | MEMUSAGE_ENABLED It defines if the memory usage is to be enabled when a Scrapy process exceeds a memory limit. Default value: False |
44 | MEMUSAGE_LIMIT_MB It defines the maximum limit for the memory (in megabytes) to be allowed. Default value: 0 |
45 | MEMUSAGE_CHECK_INTERVAL_SECONDS It is used to check the present memory usage by setting the length of the intervals. Default value: 60.0 |
46 | MEMUSAGE_NOTIFY_MAIL It is used to notify with a list of emails when the memory reaches the limit. Default value: False |
47 | MEMUSAGE_REPORT It defines if the memory usage report is to be sent on closing each spider. Default value: False |
48 | MEMUSAGE_WARNING_MB It defines a total memory to be allowed before a warning is sent. Default value: 0 |
49 | NEWSPIDER_MODULE It is a module where a new spider is created using genspider command. Default value: '' |
50 | RANDOMIZE_DOWNLOAD_DELAY It defines a random amount of time for a Scrapy to wait while downloading the requests from the site. Default value: True |
51 | REACTOR_THREADPOOL_MAXSIZE It defines a maximum size for the reactor threadpool. Default value: 10 |
52 | REDIRECT_MAX_TIMES It defines how many times a request can be redirected. Default value: 20 |
53 | REDIRECT_PRIORITY_ADJUST This setting when set, adjusts the redirect priority of a request. Default value: +2 |
54 | RETRY_PRIORITY_ADJUST This setting when set, adjusts the retry priority of a request. Default value: -1 |
55 | ROBOTSTXT_OBEY Scrapy obeys robots.txt policies when set to true. Default value: False |
56 | SCHEDULER It defines the scheduler to be used for crawl purpose. Default value: 'scrapy.core.scheduler.Scheduler' |
57 | SPIDER_CONTRACTS It is a dictionary in the project having spider contracts to test the spiders. Default value: {} |
58 | SPIDER_CONTRACTS_BASE It is a dictionary holding Scrapy contracts which is enabled in Scrapy by default. Default value − |
59 | SPIDER_LOADER_CLASS It defines a class which implements SpiderLoader API to load spiders. Default value: 'scrapy.spiderloader.SpiderLoader' |
60 | SPIDER_MIDDLEWARES It is a dictionary holding spider middlewares. Default value: {} |
61 | SPIDER_MIDDLEWARES_BASE It is a dictionary holding spider middlewares that is enabled in Scrapy by default. Default value − |
62 | SPIDER_MODULES It is a list of modules containing spiders which Scrapy will look for. Default value: [] |
63 | STATS_CLASS It is a class which implements Stats Collector API to collect stats. Default value: 'scrapy.statscollectors.MemoryStatsCollector' |
64 | STATS_DUMP This setting when set to true, dumps the stats to the log. Default value: True |
65 | STATSMAILER_RCPTS Once the spiders finish scraping, Scrapy uses this setting to send the stats. Default value: [] |
66 | TELNETCONSOLE_ENABLED It defines whether to enable the telnetconsole. Default value: True |
67 | TELNETCONSOLE_PORT It defines a port for telnet console. Default value: [6023, 6073] |
68 | TEMPLATES_DIR It is a directory containing templates that can be used while creating new projects. Default value: templates directory inside scrapy module |
69 | URLLENGTH_LIMIT It defines the maximum limit of the length for URL to be allowed for crawled URLs. Default value: 2083 |
70 | USER_AGENT It defines the user agent to be used while crawling a site. Default value: "Scrapy/VERSION (+http://scrapy.org)" |
For other Scrapy settings, go to this link.
Description
The irregular events are referred to as exceptions. In Scrapy, exceptions are raised due to reasons such as missing configuration, dropping item from the item pipeline, etc. Following is the list of exceptions mentioned in Scrapy and their application.
DropItem
Item Pipeline utilizes this exception to stop processing of the item at any stage. It can be written as −
exception (scrapy.exceptions.DropItem)
CloseSpider
This exception is used to stop the spider using the callback request. It can be written as −
exception (scrapy.exceptions.CloseSpider)(reason = 'cancelled')
It contains parameter called reason (str) which specifies the reason for closing.
For instance, the following code shows this exception usage −
def parse_page(self, response):
if 'Bandwidth exceeded' in response.body:
raise CloseSpider('bandwidth_exceeded')
IgnoreRequest
This exception is used by scheduler or downloader middleware to ignore a request. It can be written as −
exception (scrapy.exceptions.IgnoreRequest)
NotConfigured
It indicates a missing configuration situation and should be raised in a component constructor.
exception (scrapy.exceptions.NotConfigured)
Pengecualian ini dapat dimunculkan, jika salah satu dari komponen berikut ini dinonaktifkan.
- Extensions
- Pipa item
- Middlewares pengunduh
- Middlewares laba-laba
Tidak didukung
Pengecualian ini dimunculkan ketika fitur atau metode apa pun tidak didukung. Itu dapat ditulis sebagai -
exception (scrapy.exceptions.NotSupported)
Deskripsi
Untuk menghapus data dari halaman web, pertama-tama Anda perlu membuat proyek Scrapy tempat Anda akan menyimpan kodenya. Untuk membuat direktori baru, jalankan perintah berikut -
scrapy startproject first_scrapy
Kode di atas akan membuat direktori dengan nama first_scrapy dan akan berisi struktur berikut -
first_scrapy/
scrapy.cfg # deploy configuration file
first_scrapy/ # project's Python module, you'll import your code from here
__init__.py
items.py # project items file
pipelines.py # project pipelines file
settings.py # project settings file
spiders/ # a directory where you'll later put your spiders
__init__.py
Deskripsi
Item adalah wadah yang digunakan untuk mengumpulkan data yang dihapus dari situs web. Anda harus memulai laba-laba Anda dengan menentukan Item Anda. Untuk menentukan item, edititems.py file ditemukan di bawah direktori first_scrapy(direktori kustom). The items.py terlihat seperti berikut ini -
import scrapy
class First_scrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
Kelas MyItem mewarisi dari Item yang berisi sejumlah objek yang telah ditentukan sebelumnya yang telah dibuat oleh Scrapy untuk kita. Misalnya, jika Anda ingin mengekstrak nama, URL, dan deskripsi dari situs, Anda perlu menentukan bidang untuk masing-masing dari ketiga atribut ini.
Karenanya, mari tambahkan barang-barang yang ingin kita kumpulkan -
from scrapy.item import Item, Field
class First_scrapyItem(scrapy.Item):
name = scrapy.Field()
url = scrapy.Field()
desc = scrapy.Field()
Deskripsi
Spider adalah kelas yang mendefinisikan URL awal untuk mengekstrak datanya, cara mengikuti tautan pagination dan cara mengekstrak dan mengurai bidang yang ditentukan di items.py. Scrapy menyediakan berbagai jenis laba-laba yang masing-masing memberikan tujuan tertentu.
Buat file bernama "first_spider.py"di bawah direktori first_scrapy / spiders, tempat kita dapat memberi tahu Scrapy cara menemukan data persis yang kita cari. Untuk ini, Anda harus menentukan beberapa atribut -
name - Ini mendefinisikan nama unik untuk laba-laba.
allowed_domains - Berisi URL dasar untuk dirayapi laba-laba.
start-urls - Daftar URL tempat laba-laba mulai merayapi.
parse() - Ini adalah metode yang mengekstrak dan mem-parsing data yang dikikis.
Kode berikut menunjukkan bagaimana kode laba-laba terlihat -
import scrapy
class firstSpider(scrapy.Spider):
name = "first"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
Deskripsi
Untuk mengeksekusi spider Anda, jalankan perintah berikut dalam direktori first_scrapy Anda -
scrapy crawl first
Dimana, first adalah nama laba-laba yang ditentukan saat membuat laba-laba.
Setelah laba-laba merayap, Anda dapat melihat keluaran berikut -
2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)
Seperti yang Anda lihat di output, untuk setiap URL ada baris log yang (referer: None) menyatakan bahwa URL tersebut adalah URL awal dan tidak memiliki perujuk. Selanjutnya, Anda akan melihat dua file baru bernama Books.html dan Resources.html dibuat di direktori first_scrapy Anda .
Deskripsi
Untuk mengekstraksi data dari halaman web, Scrapy menggunakan teknik yang disebut penyeleksi berdasarkan ekspresi XPath dan CSS . Berikut adalah beberapa contoh ekspresi XPath -
/html/head/title - Ini akan memilih elemen <title>, di dalam elemen <head> dari dokumen HTML.
/html/head/title/text() - Ini akan memilih teks dalam elemen <title> yang sama.
//td - Ini akan memilih semua elemen dari <td>.
//div[@class = "slice"]- Ini akan memilih semua elemen dari div yang berisi atribut class = "slice"
Penyeleksi memiliki empat metode dasar seperti yang ditunjukkan pada tabel berikut -
Sr Tidak | Metode & Deskripsi |
---|---|
1 | extract() Ini mengembalikan string unicode bersama dengan data yang dipilih. |
2 | re() Ini mengembalikan daftar string unicode, diekstraksi ketika ekspresi reguler diberikan sebagai argumen. |
3 | xpath() Ini mengembalikan daftar pemilih, yang mewakili node yang dipilih oleh ekspresi xpath yang diberikan sebagai argumen. |
4 | css() Ini mengembalikan daftar pemilih, yang mewakili node yang dipilih oleh ekspresi CSS yang diberikan sebagai argumen. |
Menggunakan Selectors di Shell
Untuk mendemonstrasikan pemilih dengan shell Scrapy built-in, Anda harus menginstal IPython di sistem Anda. Yang penting di sini adalah, URL harus disertakan di dalam tanda kutip saat menjalankan Scrapy; jika tidak, URL dengan karakter '&' tidak akan berfungsi. Anda dapat memulai shell dengan menggunakan perintah berikut di direktori level teratas proyek -
scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"
Sebuah shell akan terlihat seperti berikut -
[ ... Scrapy log here ... ]
2014-01-23 17:11:42-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>(referer: None)
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x3636b50>
[s] item {}
[s] request <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s] response <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s] settings <scrapy.settings.Settings object at 0x3fadc50>
[s] spider <Spider 'default' at 0x3cebf50>
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser
In [1]:
Saat shell dimuat, Anda dapat mengakses body atau header dengan masing-masing menggunakan response.body dan response.header . Demikian pula, Anda bisa menjalankan kueri pada respons menggunakan response.selector.xpath () atau response.selector.css () .
Misalnya -
In [1]: response.xpath('//title')
Out[1]: [<Selector xpath = '//title' data = u'<title>My Book - Scrapy'>]
In [2]: response.xpath('//title').extract()
Out[2]: [u'<title>My Book - Scrapy: Index: Chapters</title>']
In [3]: response.xpath('//title/text()')
Out[3]: [<Selector xpath = '//title/text()' data = u'My Book - Scrapy: Index:'>]
In [4]: response.xpath('//title/text()').extract()
Out[4]: [u'My Book - Scrapy: Index: Chapters']
In [5]: response.xpath('//title/text()').re('(\w+):')
Out[5]: [u'Scrapy', u'Index', u'Chapters']
Mengekstrak Data
Untuk mengekstrak data dari situs HTML biasa, kita harus memeriksa kode sumber situs tersebut untuk mendapatkan XPath. Setelah memeriksa, Anda dapat melihat bahwa data akan ada di fileulmenandai. Pilih elemen di dalamnyali menandai.
Baris kode berikut menunjukkan ekstraksi berbagai jenis data -
Untuk memilih data dalam li tag -
response.xpath('//ul/li')
Untuk memilih deskripsi -
response.xpath('//ul/li/text()').extract()
Untuk memilih judul situs -
response.xpath('//ul/li/a/text()').extract()
Untuk memilih tautan situs -
response.xpath('//ul/li/a/@href').extract()
Kode berikut menunjukkan penggunaan ekstraktor di atas -
import scrapy
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
for sel in response.xpath('//ul/li'):
title = sel.xpath('a/text()').extract()
link = sel.xpath('a/@href').extract()
desc = sel.xpath('text()').extract()
print title, link, desc
Deskripsi
Itemobjek adalah dicts reguler Python. Kita dapat menggunakan sintaks berikut untuk mengakses atribut kelas -
>>> item = DmozItem()
>>> item['title'] = 'sample title'
>>> item['title']
'sample title'
Tambahkan kode di atas ke contoh berikut -
import scrapy
from tutorial.items import DmozItem
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
for sel in response.xpath('//ul/li'):
item = DmozItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['desc'] = sel.xpath('text()').extract()
yield item
Output dari laba-laba di atas adalah -
[scrapy] DEBUG: Scraped from <200
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
{'desc': [u' - By David Mertz; Addison Wesley. Book in progress, full text,
ASCII format. Asks for feedback. [author website, Gnosis Software, Inc.\n],
'link': [u'http://gnosis.cx/TPiP/'],
'title': [u'Text Processing in Python']}
[scrapy] DEBUG: Scraped from <200
http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
{'desc': [u' - By Sean McGrath; Prentice Hall PTR, 2000, ISBN 0130211192,
has CD-ROM. Methods to build XML applications fast, Python tutorial, DOM and
SAX, new Pyxie open source XML processing library. [Prentice Hall PTR]\n'],
'link': [u'http://www.informit.com/store/product.aspx?isbn=0130211192'],
'title': [u'XML Processing with Python']}
Deskripsi
Dalam bab ini, kita akan mempelajari cara mengekstrak link dari halaman yang kita minati, mengikuti dan mengekstrak data dari halaman tersebut. Untuk ini, kita perlu melakukan perubahan berikut pada kode sebelumnya yang ditunjukkan sebagai berikut -
import scrapy
from tutorial.items import DmozItem
class MyprojectSpider(scrapy.Spider):
name = "project"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/",
]
def parse(self, response):
for href in response.css("ul.directory.dir-col > li > a::attr('href')"):
url = response.urljoin(href.extract())
yield scrapy.Request(url, callback = self.parse_dir_contents)
def parse_dir_contents(self, response):
for sel in response.xpath('//ul/li'):
item = DmozItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['desc'] = sel.xpath('text()').extract()
yield item
Kode di atas berisi metode berikut -
parse() - Ini akan mengekstrak tautan yang kami minati.
response.urljoin - Metode parse () akan menggunakan metode ini untuk membuat url baru dan memberikan permintaan baru, yang akan dikirim nanti ke callback.
parse_dir_contents() - Ini adalah panggilan balik yang sebenarnya akan mengikis data yang diinginkan.
Di sini, Scrapy menggunakan mekanisme panggilan balik untuk mengikuti tautan. Dengan menggunakan mekanisme ini, crawler yang lebih besar dapat dirancang dan dapat mengikuti link yang diminati untuk mengambil data yang diinginkan dari halaman yang berbeda. Metode biasa adalah metode panggilan balik, yang akan mengekstrak item, mencari tautan untuk mengikuti halaman berikutnya, dan kemudian memberikan permintaan untuk panggilan balik yang sama.
Contoh berikut menghasilkan loop, yang akan mengikuti link ke halaman berikutnya.
def parse_articles_follow_next_page(self, response):
for article in response.xpath("//article"):
item = ArticleItem()
... extract article data here
yield item
next_page = response.css("ul.navigation > li.next-page > a::attr('href')")
if next_page:
url = response.urljoin(next_page[0].extract())
yield scrapy.Request(url, self.parse_articles_follow_next_page)
Deskripsi
Cara terbaik untuk menyimpan data potongan adalah dengan menggunakan ekspor Umpan, yang memastikan bahwa data disimpan dengan benar menggunakan beberapa format serialisasi. JSON, JSON lines, CSV, XML adalah format yang didukung dengan mudah dalam format serialisasi. Data dapat disimpan dengan perintah berikut -
scrapy crawl dmoz -o data.json
Perintah ini akan membuat file data.jsonfile yang berisi data salinan di JSON. Teknik ini berlaku untuk sejumlah kecil data. Jika harus menangani data dalam jumlah besar, maka kita dapat menggunakan Item Pipeline. Sama seperti file data.json, file yang dicadangkan disiapkan saat proyek dibuattutorial/pipelines.py.
Deskripsi
Loggingberarti pelacakan kejadian, yang menggunakan sistem pencatatan bawaan dan menentukan fungsi dan kelas untuk mengimplementasikan aplikasi dan pustaka. Logging adalah materi yang siap digunakan, yang dapat bekerja dengan pengaturan Scrapy yang terdaftar di pengaturan Logging.
Scrapy akan menetapkan beberapa pengaturan default dan menangani pengaturan tersebut dengan bantuan scrapy.utils.log.configure_logging () saat menjalankan perintah.
Tingkat log
Di Python, ada lima tingkat keparahan yang berbeda pada pesan log. Daftar berikut menunjukkan pesan log standar dalam urutan menaik -
logging.DEBUG - untuk men-debug pesan (tingkat keparahan terendah)
logging.INFO - untuk pesan informasional
logging.WARNING - untuk pesan peringatan
logging.ERROR - untuk kesalahan biasa
logging.CRITICAL - untuk kesalahan kritis (tingkat keparahan tertinggi)
Cara Masuk Pesan
Kode berikut menunjukkan logging pesan menggunakan logging.info tingkat.
import logging
logging.info("This is an information")
Pesan logging di atas bisa dilewatkan sebagai argumen menggunakan logging.log ditampilkan sebagai berikut -
import logging
logging.log(logging.INFO, "This is an information")
Sekarang, Anda juga dapat menggunakan logger untuk menyertakan pesan menggunakan pembantu logging logging untuk mendapatkan pesan logging dengan jelas ditampilkan sebagai berikut -
import logging
logger = logging.getLogger()
logger.info("This is an information")
Bisa ada beberapa penebang dan itu bisa diakses dengan mendapatkan nama mereka dengan menggunakan logging.getLogger fungsi ditampilkan sebagai berikut.
import logging
logger = logging.getLogger('mycustomlogger')
logger.info("This is an information")
Logger yang disesuaikan dapat digunakan untuk modul apa pun menggunakan variabel __name__ yang berisi jalur modul yang ditunjukkan sebagai berikut -
import logging
logger = logging.getLogger(__name__)
logger.info("This is an information")
Menebang dari Spider
Setiap contoh laba-laba memiliki file logger di dalamnya dan dapat digunakan sebagai berikut -
import scrapy
class LogSpider(scrapy.Spider):
name = 'logspider'
start_urls = ['http://dmoz.com']
def parse(self, response):
self.logger.info('Parse function called on %s', response.url)
Dalam kode di atas, logger dibuat menggunakan nama Spider, tetapi Anda dapat menggunakan logger khusus yang disediakan oleh Python seperti yang ditunjukkan pada kode berikut -
import logging
import scrapy
logger = logging.getLogger('customizedlogger')
class LogSpider(scrapy.Spider):
name = 'logspider'
start_urls = ['http://dmoz.com']
def parse(self, response):
logger.info('Parse function called on %s', response.url)
Konfigurasi Logging
Logger tidak dapat menampilkan pesan yang dikirim oleh mereka sendiri. Jadi mereka membutuhkan "penangan" untuk menampilkan pesan tersebut dan penangan akan mengarahkan pesan-pesan ini ke tujuan masing-masing seperti file, email, dan keluaran standar.
Bergantung pada pengaturan berikut, Scrapy akan mengkonfigurasi penangan untuk logger.
Pengaturan Logging
Pengaturan berikut digunakan untuk mengkonfigurasi logging -
Itu LOG_FILE dan LOG_ENABLED putuskan tujuan untuk pesan log.
Saat Anda menyetel LOG_ENCODING menjadi false, ini tidak akan menampilkan pesan keluaran log.
Itu LOG_LEVELakan menentukan urutan tingkat keparahan pesan; pesan-pesan dengan tingkat keparahan yang lebih rendah akan disaring.
Itu LOG_FORMAT dan LOG_DATEFORMAT digunakan untuk menentukan tata letak untuk semua pesan.
Saat Anda menyetel LOG_STDOUT true, semua output standar dan pesan error dari proses Anda akan diarahkan ke log.
Opsi baris perintah
Pengaturan scrapy dapat diganti dengan meneruskan argumen baris perintah seperti yang ditunjukkan pada tabel berikut -
Sr Tidak | Perintah & Deskripsi |
---|---|
1 | --logfile FILE Mengganti LOG_FILE |
2 | --loglevel/-L LEVEL Mengganti LOG_LEVEL |
3 | --nolog Setel LOG_ENABLED menjadi False |
modul scrapy.utils.log
Fungsi ini dapat digunakan untuk menginisialisasi logging default untuk Scrapy.
scrapy.utils.log.configure_logging(settings = None, install_root_handler = True)
Sr Tidak | Parameter & Deskripsi |
---|---|
1 | settings (dict, None) Ini membuat dan mengkonfigurasi handler untuk root logger. Secara default, tidak ada . |
2 | install_root_handler (bool) Ini menentukan untuk menginstal penangan root logging. Secara default, ini Benar . |
Fungsi di atas -
- Merutekan peringatan dan pembalakan bengkok melalui logging standar Python.
- Menetapkan DEBUG ke Scrapy dan tingkat ERROR ke Logger Twisted
- Merutekan stdout ke log, jika pengaturan LOG_STDOUT benar.
Opsi default dapat diganti menggunakan settingsargumen. Jika pengaturan tidak ditentukan, maka default digunakan. Handler dapat dibuat untuk root logger, ketika install_root_handler disetel ke true. Jika disetel ke false, maka tidak akan ada keluaran log yang disetel. Saat menggunakan perintah Scrapy, konfigurasi_logging akan dipanggil secara otomatis dan dapat dijalankan secara eksplisit, saat menjalankan skrip kustom.
Untuk mengkonfigurasi keluaran logging secara manual, Anda dapat menggunakan logging.basicConfig() ditampilkan sebagai berikut -
import logging
from scrapy.utils.log import configure_logging
configure_logging(install_root_handler = False)
logging.basicConfig (
filename = 'logging.txt',
format = '%(levelname)s: %(your_message)s',
level = logging.INFO
)
Deskripsi
Stats Collector adalah fasilitas yang disediakan oleh Scrapy untuk mengumpulkan stats berupa key / values dan diakses menggunakan Crawler API (Crawler menyediakan akses ke semua komponen core Scrapy). Pengumpul statistik menyediakan satu tabel statistik per laba-laba di mana pengumpul statistik terbuka secara otomatis saat laba-laba membuka dan menutup pengumpul statistik saat laba-laba ditutup.
Penggunaan Kolektor Statistik Umum
Kode berikut mengakses pengumpul statistik menggunakan stats atribut.
class ExtensionThatAccessStats(object):
def __init__(self, stats):
self.stats = stats
@classmethod
def from_crawler(cls, crawler):
return cls(crawler.stats)
Tabel berikut menunjukkan berbagai opsi yang dapat digunakan dengan pengumpul statistik -
Sr Tidak | Parameter | Deskripsi |
---|---|---|
1 | |
Ini digunakan untuk mengatur nilai statistik. |
2 | |
Ini menambah nilai stat. |
3 | |
Anda dapat mengatur nilai stat, hanya jika lebih besar dari nilai sebelumnya. |
4 | |
Anda dapat mengatur nilai stat, hanya jika lebih rendah dari nilai sebelumnya. |
5 | |
Ini mengambil nilai stat. |
6 | |
Itu mengambil semua statistik |
Kolektor Statistik yang Tersedia
Scrapy menyediakan berbagai jenis pengumpul statistik yang dapat diakses menggunakan STATS_CLASS pengaturan.
MemoryStatsCollector
Ini adalah pengumpul Statistik default yang mempertahankan statistik setiap laba-laba yang digunakan untuk mengorek dan datanya akan disimpan di memori.
class scrapy.statscollectors.MemoryStatsCollector
DummyStatsCollector
Pengumpul statistik ini sangat efisien yang tidak melakukan apa-apa. Ini dapat disetel menggunakan setelan STATS_CLASS dan dapat digunakan untuk menonaktifkan pengumpulan statistik untuk meningkatkan kinerja.
class scrapy.statscollectors.DummyStatsCollector
Deskripsi
Scrapy dapat mengirim email menggunakan fasilitasnya sendiri yang disebut sebagai IO non-pemblokiran Twisted yang menjauhkan dari IO non-pemblokiran crawler. Anda dapat mengkonfigurasi beberapa pengaturan pengiriman email dan menyediakan API sederhana untuk mengirim lampiran.
Ada dua cara untuk membuat instance MailSender seperti yang diperlihatkan dalam tabel berikut -
Sr Tidak | Parameter | metode |
---|---|---|
1 | dari scrapy.mail impor MailSender mailer = MailSender () | Dengan menggunakan konstruktor standar. |
2 | mailer = MailSender.from_settings (pengaturan) | Dengan menggunakan objek pengaturan Scrapy. |
Baris berikut mengirimkan email tanpa lampiran -
mailer.send(to = ["[email protected]"], subject = "subject data", body = "body data",
cc = ["[email protected]"])
Referensi Kelas MailSender
Kelas MailSender menggunakan Twisted non-blocking IO untuk mengirim email dari Scrapy.
class scrapy.mail.MailSender(smtphost = None, mailfrom = None, smtpuser = None,
smtppass = None, smtpport = None)
Tabel berikut menunjukkan parameter yang digunakan di kelas MailSender -
Sr Tidak | Parameter & Deskripsi |
---|---|
1 | smtphost (str) Host SMTP digunakan untuk mengirim email. Jika tidak, maka setelan MAIL_HOST akan digunakan. |
2 | mailfrom (str) Alamat penerima digunakan untuk mengirim email. Jika tidak, maka pengaturan MAIL_FROM akan digunakan. |
3 | smtpuser Ini menentukan pengguna SMTP. Jika tidak digunakan, maka pengaturan MAIL_USER akan digunakan dan tidak akan ada validasi SMTP jika tidak disebutkan. |
4 | smtppass (str) Ini menentukan lulus SMTP untuk validasi. |
5 | smtpport (int) Ini menentukan port SMTP untuk koneksi. |
6 | smtptls (boolean) Ini mengimplementasikan menggunakan SMTP STARTTLS. |
7 | smtpssl (boolean) Ini mengelola menggunakan koneksi SSL yang aman. |
Berikut dua metode yang ada di referensi kelas MailSender seperti yang ditentukan. Metode pertama,
classmethod from_settings(settings)
Ini digabungkan dengan menggunakan objek pengaturan Scrapy. Ini berisi parameter berikut -
settings (scrapy.settings.Settings object) - Ini diperlakukan sebagai penerima email.
Metode lain,
send(to, subject, body, cc = None, attachs = (), mimetype = 'text/plain', charset = None)
Tabel berikut berisi parameter dari metode di atas -
Sr Tidak | Parameter & Deskripsi |
---|---|
1 | to (list) Ini mengacu pada penerima email. |
2 | subject (str) Ini menentukan subjek email. |
3 | cc (list) Ini mengacu pada daftar penerima. |
4 | body (str) Ini mengacu pada data badan email. |
5 | attachs (iterable) Ini mengacu pada lampiran email, mimetype dari lampiran dan nama lampiran. |
6 | mimetype (str) Ini mewakili tipe MIME dari email. |
7 | charset (str) Ini menentukan pengkodean karakter yang digunakan untuk konten email. |
Pengaturan Mail
Pengaturan berikut memastikan bahwa tanpa menulis kode apa pun, kita dapat mengkonfigurasi email menggunakan kelas MailSender dalam proyek tersebut.
Sr Tidak | Pengaturan & Deskripsi | Nilai Default |
---|---|---|
1 | MAIL_FROM Ini mengacu pada email pengirim untuk mengirim email. |
'scrapy @ localhost' |
2 | MAIL_HOST Ini mengacu pada host SMTP yang digunakan untuk mengirim email. |
'localhost' |
3 | MAIL_PORT Ini menentukan port SMTP yang akan digunakan untuk mengirim email. |
25 |
4 | MAIL_USER Ini mengacu pada validasi SMTP. Tidak akan ada validasi, jika setelan ini disetel ke nonaktif. |
Tidak ada |
5 | MAIL_PASS Ini memberikan kata sandi yang digunakan untuk validasi SMTP. |
Tidak ada |
6 | MAIL_TLS Ini menyediakan metode untuk meningkatkan koneksi yang tidak aman ke koneksi aman menggunakan SSL / TLS. |
Salah |
7 | MAIL_SSL Ini mengimplementasikan koneksi menggunakan koneksi terenkripsi SSL. |
Salah |
Deskripsi
Konsol Telnet adalah shell Python yang berjalan di dalam proses Scrapy dan digunakan untuk memeriksa dan mengendalikan proses yang berjalan Scrapy.
Akses Konsol Telnet
Konsol telnet dapat diakses menggunakan perintah berikut -
telnet localhost 6023
Pada dasarnya, konsol telnet terdaftar di port TCP, yang dijelaskan di TELNETCONSOLE_PORT pengaturan.
Variabel
Beberapa variabel default yang diberikan dalam tabel berikut digunakan sebagai pintasan -
Sr Tidak | Pintasan & Deskripsi |
---|---|
1 | crawler Ini mengacu pada objek Scrapy Crawler (scrapy.crawler.Crawler). |
2 | engine Ini mengacu pada atribut Crawler.engine. |
3 | spider Ini mengacu pada laba-laba yang aktif. |
4 | slot Ini mengacu pada slot mesin. |
5 | extensions Ini mengacu pada atribut Extension Manager (Crawler.extensions). |
6 | stats Ini mengacu pada atribut Stats Collector (Crawler.stats). |
7 | setting Ini mengacu pada atribut objek setelan Scrapy (Crawler.settings). |
8 | est Ini mengacu pada mencetak laporan status mesin. |
9 | prefs Ini mengacu pada memori untuk debugging. |
10 | p Ini mengacu pada jalan pintas ke fungsi pprint.pprint . |
11 | hpy Ini mengacu pada debugging memori. |
Contoh
Berikut adalah beberapa contoh yang diilustrasikan menggunakan Telnet Console.
Jeda, Lanjutkan, dan Hentikan Mesin Scrapy
Untuk menjeda mesin Scrapy, gunakan perintah berikut -
telnet localhost 6023
>>> engine.pause()
>>>
Untuk melanjutkan mesin Scrapy, gunakan perintah berikut -
telnet localhost 6023
>>> engine.unpause()
>>>
Untuk menghentikan mesin Scrapy, gunakan perintah berikut -
telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.
Lihat Status Mesin
Konsol Telnet menggunakan est() metode untuk memeriksa status mesin Scrapy seperti yang ditunjukkan pada kode berikut -
telnet localhost 6023
>>> est()
Execution engine status
time()-engine.start_time : 8.62972998619
engine.has_capacity() : False
len(engine.downloader.active) : 16
engine.scraper.is_idle() : False
engine.spider.name : followall
engine.spider_is_idle(engine.spider) : False
engine.slot.closing : False
len(engine.slot.inprogress) : 16
len(engine.slot.scheduler.dqs or []) : 0
len(engine.slot.scheduler.mqs) : 92
len(engine.scraper.slot.queue) : 0
len(engine.scraper.slot.active) : 0
engine.scraper.slot.active_size : 0
engine.scraper.slot.itemproc_size : 0
engine.scraper.slot.needs_backout() : False
Sinyal Konsol Telnet
Anda dapat menggunakan sinyal konsol telnet untuk menambah, memperbarui, atau menghapus variabel di namespace lokal telnet. Untuk melakukan tindakan ini, Anda perlu menambahkan dikt telnet_vars di penangan Anda.
scrapy.extensions.telnet.update_telnet_vars(telnet_vars)
Parameter -
telnet_vars (dict)
Di mana, dict adalah kamus yang berisi variabel telnet.
Pengaturan Telnet
Tabel berikut menunjukkan pengaturan yang mengontrol perilaku Telnet Console -
Sr Tidak | Pengaturan & Deskripsi | Nilai Default |
---|---|---|
1 | TELNETCONSOLE_PORT Ini mengacu pada jangkauan port untuk konsol telnet. Jika disetel ke none, maka port akan ditetapkan secara dinamis. |
[6023, 6073] |
2 | TELNETCONSOLE_HOST Ini mengacu pada antarmuka tempat konsol telnet harus mendengarkan. |
'127.0.0.1' |
Deskripsi
Perayap web Scrapy yang sedang berjalan dapat dikontrol melalui JSON-RPC. Ini diaktifkan oleh setelan JSONRPC_ENABLED. Layanan ini menyediakan akses ke objek crawler utama melalui protokol JSON-RPC 2.0 . Titik akhir untuk mengakses objek crawler adalah -
http://localhost:6080/crawler
Tabel berikut berisi beberapa pengaturan yang menunjukkan perilaku layanan web -
Sr Tidak | Pengaturan & Deskripsi | Nilai Default |
---|---|---|
1 | JSONRPC_ENABLED Ini mengacu pada boolean, yang memutuskan layanan web beserta ekstensinya akan diaktifkan atau tidak. |
Benar |
2 | JSONRPC_LOGFILE Ini mengacu pada file yang digunakan untuk mencatat permintaan HTTP yang dibuat ke layanan web. Jika tidak disetel, log Scrapy standar akan digunakan. |
Tidak ada |
3 | JSONRPC_PORT Ini mengacu pada jangkauan port untuk layanan web. Jika disetel ke none, maka port akan ditetapkan secara dinamis. |
[6080, 7030] |
4 | JSONRPC_HOST Ini mengacu pada antarmuka yang harus didengarkan oleh layanan web. |
'127.0.0.1' |