Scrapy - Penyeleksi
Deskripsi
Saat Anda melakukan scraping halaman web, Anda perlu mengekstrak bagian tertentu dari sumber HTML dengan menggunakan mekanisme yang disebut selectors, dicapai dengan menggunakan ekspresi XPath atau CSS. Selektor dibangun di ataslxml perpustakaan, yang memproses XML dan HTML dalam bahasa Python.
Gunakan cuplikan kode berikut untuk menentukan konsep pemilih yang berbeda -
<html>
<head>
<title>My Website</title>
</head>
<body>
<span>Hello world!!!</span>
<div class = 'links'>
<a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
<a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
<a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
</div>
</body>
</html>
Pembangun Selektor
Anda dapat membuat instance kelas pemilih dengan meneruskan text atau TextResponseobyek. Berdasarkan jenis masukan yang diberikan, pemilih memilih aturan berikut -
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
Menggunakan kode di atas, Anda dapat membuat dari teks sebagai -
Selector(text = body).xpath('//span/text()').extract()
Ini akan menampilkan hasilnya sebagai -
[u'Hello world!!!']
Anda dapat membuat dari respons sebagai -
response = HtmlResponse(url = 'http://mysite.com', body = body)
Selector(response = response).xpath('//span/text()').extract()
Ini akan menampilkan hasilnya sebagai -
[u'Hello world!!!']
Menggunakan Selectors
Dengan menggunakan potongan kode sederhana di atas, Anda dapat membuat XPath untuk memilih teks yang ditentukan dalam tag judul seperti yang ditunjukkan di bawah ini -
>>response.selector.xpath('//title/text()')
Sekarang, Anda dapat mengekstrak data tekstual menggunakan .extract() metode yang ditunjukkan sebagai berikut -
>>response.xpath('//title/text()').extract()
Ini akan menghasilkan hasil sebagai -
[u'My Website']
Anda dapat menampilkan nama semua elemen yang ditunjukkan sebagai berikut -
>>response.xpath('//div[@class = "links"]/a/text()').extract()
Ini akan menampilkan elemen sebagai -
Link 1
Link 2
Link 3
Jika Anda ingin mengekstrak elemen pertama, gunakan metode .extract_first(), ditampilkan sebagai berikut -
>>response.xpath('//div[@class = "links"]/a/text()').extract_first()
Ini akan menampilkan elemen sebagai -
Link 1
Penyeleksi Bersarang
Menggunakan kode di atas, Anda dapat mengumpulkan pemilih untuk menampilkan link halaman dan sumber gambar menggunakan .xpath() metode, ditunjukkan sebagai berikut -
links = response.xpath('//a[contains(@href, "image")]')
for index, link in enumerate(links):
args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract())
print 'The link %d pointing to url %s and image %s' % args
Ini akan menampilkan hasilnya sebagai -
Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']
Penyeleksi Menggunakan Ekspresi Reguler
Scrapy memungkinkan untuk mengekstrak data menggunakan ekspresi reguler, yang menggunakan .re()metode. Dari kode HTML di atas, kami akan mengekstrak nama gambar yang ditunjukkan sebagai berikut -
>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
Baris di atas menampilkan nama gambar sebagai -
[u'Link 1',
u'Link 2',
u'Link 3']
Menggunakan Relative XPaths
Saat Anda bekerja dengan XPath, yang dimulai dengan ekstensi /, pemilih bersarang dan XPath terkait dengan jalur absolut dokumen, dan bukan jalur relatif pemilih.
Jika Anda ingin mengekstrak file <p> elemen, lalu dapatkan semua elemen div -
>>mydiv = response.xpath('//div')
Selanjutnya, Anda dapat mengekstrak semua file 'p' elemen di dalamnya, dengan mengawali XPath dengan titik sebagai .//p seperti yang ditunjukkan di bawah ini -
>>for p in mydiv.xpath('.//p').extract()
Menggunakan Ekstensi EXSLT
EXSLT adalah komunitas yang mengeluarkan ekstensi ke XSLT (Extensible Stylesheet Language Transformations) yang mengubah dokumen XML menjadi dokumen XHTML. Anda dapat menggunakan ekstensi EXSLT dengan namespace terdaftar dalam ekspresi XPath seperti yang ditunjukkan pada tabel berikut -
Sr Tidak | Awalan & Penggunaan | Namespace |
---|---|---|
1 | re ekspresi reguler |
http://exslt.org/regexp/index.html |
2 | set mengatur manipulasi |
http://exslt.org/set/index.html |
Anda dapat memeriksa format kode sederhana untuk mengekstrak data menggunakan ekspresi reguler di bagian sebelumnya.
Ada beberapa tip XPath, yang berguna saat menggunakan XPath dengan penyeleksi Scrapy. Untuk informasi lebih lanjut, klik tautan ini .