Scrapy - Seçiciler

Açıklama

Web sayfalarını kazıdığınızda, adı verilen mekanizmayı kullanarak HTML kaynağının belirli bir bölümünü çıkarmanız gerekir. selectors, XPath veya CSS ifadeleri kullanılarak elde edilir. Seçiciler,lxml XML ve HTML'yi Python dilinde işleyen kitaplık.

Farklı seçiciler kavramlarını tanımlamak için aşağıdaki kod parçacığını kullanın -

<html>
   <head>
      <title>My Website</title>
   </head>
   
   <body>
      <span>Hello world!!!</span>
      <div class = 'links'>
         <a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
         <a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
         <a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
      </div>
   </body>
</html>

Seçiciler Oluşturma

Seçici sınıf örneklerini, text veya TextResponsenesne. Sağlanan giriş türüne bağlı olarak seçici, aşağıdaki kuralları seçer -

from scrapy.selector import Selector 
from scrapy.http import HtmlResponse

Yukarıdaki kodu kullanarak, metinden şu şekilde oluşturabilirsiniz:

Selector(text = body).xpath('//span/text()').extract()

Sonucu şu şekilde gösterecektir -

[u'Hello world!!!']

Yanıttan şu şekilde inşa edebilirsiniz:

response = HtmlResponse(url = 'http://mysite.com', body = body) 
Selector(response = response).xpath('//span/text()').extract()

Sonucu şu şekilde gösterecektir -

[u'Hello world!!!']

Seçicileri Kullanma

Yukarıdaki basit kod parçacığını kullanarak, aşağıda gösterildiği gibi başlık etiketinde tanımlanan metni seçmek için XPath oluşturabilirsiniz -

>>response.selector.xpath('//title/text()')

Şimdi, metin verilerini kullanarak .extract() aşağıdaki gibi gösterilen yöntem -

>>response.xpath('//title/text()').extract()

Sonucu şu şekilde üretecek -

[u'My Website']

Aşağıdaki gibi gösterilen tüm öğelerin adını görüntüleyebilirsiniz -

>>response.xpath('//div[@class = "links"]/a/text()').extract()

Öğeleri şu şekilde gösterecektir -

Link 1
Link 2
Link 3

İlk öğeyi çıkarmak istiyorsanız, yöntemi kullanın .extract_first()aşağıda gösterildiği gibi -

>>response.xpath('//div[@class = "links"]/a/text()').extract_first()

Öğeyi şu şekilde gösterecektir -

Link 1

Yerleştirme Seçicileri

Yukarıdaki kodu kullanarak, sayfa bağlantısını ve görüntü kaynağını görüntülemek için seçicileri iç içe yerleştirebilirsiniz. .xpath() yöntem aşağıda gösterildiği gibidir -

links = response.xpath('//a[contains(@href, "image")]') 

for index, link in enumerate(links): 
   args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract()) 
   print 'The link %d pointing to url %s and image %s' % args

Sonucu şu şekilde gösterecektir -

Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']

Normal İfadeleri Kullanan Seçiciler

Scrapy, verileri normal ifadeler kullanarak ayıklamaya izin verir. .re()yöntem. Yukarıdaki HTML kodundan, aşağıdaki gibi gösterilen resim adlarını çıkaracağız -

>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')

Yukarıdaki satır, görüntü adlarını şu şekilde gösterir -

[u'Link 1', 
u'Link 2', 
u'Link 3']

Göreli XPath'leri Kullanma

XPath'ler ile çalışırken, /, yuvalanmış seçiciler ve XPath, seçicinin göreli yolu ile değil, belgenin mutlak yolu ile ilgilidir.

Çıkarmak istiyorsanız <p> öğeleri, sonra önce tüm div öğelerini elde edin -

>>mydiv = response.xpath('//div')

Ardından, tüm 'p' XPath'in önüne bir nokta koyarak içindeki elemanlar .//p aşağıda gösterildiği gibi -

>>for p in mydiv.xpath('.//p').extract()

EXSLT Uzantılarını Kullanma

EXSLT, XML belgelerini XHTML belgelerine dönüştüren XSLT'ye (Genişletilebilir Stil Sayfası Dili Dönüşümleri) uzantıları yayınlayan bir topluluktur. EXSLT uzantılarını, aşağıdaki tabloda gösterildiği gibi XPath ifadelerinde kayıtlı ad alanıyla kullanabilirsiniz -

Sr.No Önek ve Kullanım Ad alanı
1

re

düzenli ifadeler

http://exslt.org/regexp/index.html

2

set

manipülasyonu ayarla

http://exslt.org/set/index.html

Önceki bölümde normal ifadeleri kullanarak verileri ayıklamak için basit kod formatını kontrol edebilirsiniz.

XPath'i Scrapy seçicilerle kullanırken yararlı olan bazı XPath ipuçları vardır. Daha fazla bilgi için bu bağlantıya tıklayın .