Scrapy - İstekler ve Yanıtlar

Açıklama

Scrapy, web sitelerini tarayabilir. Request ve Responsenesneler. İstek nesneleri sistem üzerinden geçer, örümcekleri kullanarak isteği yürütür ve bir yanıt nesnesi döndürdüğünde isteğe geri döner.

Nesneleri İste

İstek nesnesi, bir yanıt oluşturan bir HTTP isteğidir. Aşağıdaki sınıfa sahiptir -

class scrapy.http.Request(url[, callback, method = 'GET', headers, body, cookies, meta,
   encoding = 'utf-8', priority = 0, dont_filter = False, errback])

Aşağıdaki tablo İstek nesnelerinin parametrelerini göstermektedir -

Sr.No Parametre ve Açıklama
1

url

URL talebini belirten bir dizedir.

2

callback

İsteğin yanıtını ilk parametre olarak kullanan çağrılabilir bir fonksiyondur.

3

method

HTTP yöntem isteğini belirten bir dizedir.

4

headers

İstek başlıklarına sahip bir sözlüktür.

5

body

İstek gövdesine sahip bir dize veya unicode'dur.

6

cookies

İstek çerezlerini içeren bir listedir.

7

meta

İsteğin meta verileri için değerler içeren bir sözlüktür.

8

encoding

URL'yi kodlamak için kullanılan utf-8 kodlamasını içeren bir dizedir.

9

priority

Zamanlayıcının istekleri işlemek için sırayı tanımlamak için önceliği kullandığı bir tamsayıdır.

10

dont_filter

Planlayıcının isteği filtrelememesi gerektiğini belirten bir mantıksal değerdir.

11

errback

Bir istek işlenirken bir istisna olduğunda çağrılacak çağrılabilir bir işlevdir.

Geri Arama İşlevlerine Ek Veri Aktarma

Bir isteğin geri arama işlevi, yanıt ilk parametresi olarak indirildiğinde çağrılır.

Örneğin -

def parse_page1(self, response): 
   return scrapy.Request("http://www.something.com/some_page.html", 
      callback = self.parse_page2)  

def parse_page2(self, response): 
   self.logger.info("%s page visited", response.url)

Kullanabilirsiniz Request.meta öznitelik, çağrılabilir işlevlere argümanlar iletmek ve bu argümanları aşağıdaki örnekte gösterildiği gibi ikinci geri aramada almak istiyorsanız -

def parse_page1(self, response): 
   item = DemoItem() 
   item['foremost_link'] = response.url 
   request = scrapy.Request("http://www.something.com/some_page.html", 
      callback = self.parse_page2) 
   request.meta['item'] = item 
   return request  

def parse_page2(self, response): 
   item = response.meta['item'] 
   item['other_link'] = response.url 
   return item

Talep İşleme Sırasında İstisnaları Yakalamak için Hatalar Kullanma

Geri dönüş, bir istek işlenirken bir istisna olduğunda çağrılacak çağrılabilir bir işlevdir.

Aşağıdaki örnek bunu göstermektedir -

import scrapy  

from scrapy.spidermiddlewares.httperror import HttpError 
from twisted.internet.error import DNSLookupError 
from twisted.internet.error import TimeoutError, TCPTimedOutError  

class DemoSpider(scrapy.Spider): 
   name = "demo" 
   start_urls = [ 
      "http://www.httpbin.org/",              # HTTP 200 expected 
      "http://www.httpbin.org/status/404",    # Webpage not found  
      "http://www.httpbin.org/status/500",    # Internal server error 
      "http://www.httpbin.org:12345/",        # timeout expected 
      "http://www.httphttpbinbin.org/",       # DNS error expected 
   ]  
   
   def start_requests(self): 
      for u in self.start_urls: 
         yield scrapy.Request(u, callback = self.parse_httpbin, 
         errback = self.errback_httpbin, 
         dont_filter=True)  
   
   def parse_httpbin(self, response): 
      self.logger.info('Recieved response from {}'.format(response.url)) 
      # ...  
   
   def errback_httpbin(self, failure): 
      # logs failures 
      self.logger.error(repr(failure))  
      
      if failure.check(HttpError): 
         response = failure.value.response 
         self.logger.error("HttpError occurred on %s", response.url)  
      
      elif failure.check(DNSLookupError): 
         request = failure.request 
         self.logger.error("DNSLookupError occurred on %s", request.url) 

      elif failure.check(TimeoutError, TCPTimedOutError): 
         request = failure.request 
         self.logger.error("TimeoutError occurred on %s", request.url)

Request.meta Özel Anahtarlar

Request.meta özel anahtarları, Scrapy tarafından tanımlanan özel meta anahtarların bir listesidir.

Aşağıdaki tablo Request.meta'nın bazı anahtarlarını göstermektedir -

Sr.No Anahtar ve Açıklama
1

dont_redirect

True olarak ayarlandığında bir anahtardır, yanıtı durumuna göre isteği yeniden yönlendirmez.

2

dont_retry

True olarak ayarlandığında bir anahtardır, başarısız istekleri yeniden denemez ve ara yazılım tarafından yok sayılır.

3

handle_httpstatus_list

İstek bazında hangi yanıt kodlarına izin verilebileceğini tanımlayan bir anahtardır.

4

handle_httpstatus_all

True olarak ayarlayarak bir istek için herhangi bir yanıt koduna izin vermek için kullanılan bir anahtardır .

5

dont_merge_cookies

True olarak ayarlayarak mevcut çerezlerle birleşmekten kaçınmak için kullanılan bir anahtardır .

6

cookiejar

Örümcek başına birden fazla çerez oturumunu saklamak için kullanılan bir anahtardır.

7

dont_cache

Her politikada HTTP isteklerini ve yanıtlarını önbelleğe almaktan kaçınmak için kullanılan bir anahtardır.

8

redirect_urls

İsteklerin geçtiği URL'leri içeren bir anahtardır.

9

bindaddress

İsteği gerçekleştirmek için kullanılabilen giden IP adresinin IP'sidir.

10

dont_obey_robotstxt

True olarak ayarlandığında bir anahtardır, ROBOTSTXT_OBEY etkin olsa bile robots.txt dışlama standardı tarafından yasaklanan istekleri filtrelemez.

11

download_timeout

İndiricinin zaman aşımına uğramadan önce bekleyeceği örümcek başına zaman aşımını (saniye cinsinden) ayarlamak için kullanılır.

12

download_maxsize

İndiricinin indireceği örümcek başına maksimum boyutu (bayt cinsinden) ayarlamak için kullanılır.

13

proxy

Proxy, isteklerin kullanımı için HTTP proxy'si ayarlamak üzere İstek nesneleri için ayarlanabilir.

Alt Sınıflar İste

İstek sınıfını alt sınıflandırarak kendi özel işlevselliğinizi uygulayabilirsiniz. Yerleşik istek alt sınıfları aşağıdaki gibidir -

FormRequest Nesneleri

FormRequest sınıfı, temel isteği genişleterek HTML formlarıyla ilgilenir. Aşağıdaki sınıfa sahiptir -

class scrapy.http.FormRequest(url[,formdata, callback, method = 'GET', headers, body, 
   cookies, meta, encoding = 'utf-8', priority = 0, dont_filter = False, errback])

Aşağıdaki parametre -

formdata - İstek gövdesine atanan HTML form verisine sahip bir sözlüktür.

Note - Kalan parametreler istek sınıfıyla aynıdır ve aşağıda açıklanmıştır Request Objects Bölüm.

Aşağıdaki sınıf yöntemleri aşağıdakiler tarafından desteklenmektedir: FormRequest istek yöntemlerine ek olarak nesneler -

classmethod from_response(response[, formname = None, formnumber = 0, formdata = None, 
   formxpath = None, formcss = None, clickdata = None, dont_click = False, ...])

Aşağıdaki tablo, yukarıdaki sınıfın parametrelerini göstermektedir -

Sr.No Parametre ve Açıklama
1

response

HTML yanıt biçimi kullanarak form alanlarını önceden doldurmak için kullanılan bir nesnedir.

2

formname

Belirtilirse, name özniteliğine sahip formun kullanılacağı bir dizedir.

3

formnumber

Yanıtta birden çok form olduğunda kullanılacak formların tam sayısıdır.

4

formdata

Form verilerinde geçersiz kılmak için kullanılan alanların sözlüğüdür.

5

formxpath

Belirtildiğinde bir dizedir, xpath ile eşleşen form kullanılır.

6

formcss

Belirtildiğinde bir dizedir, css seçiciyle eşleşen form kullanılır.

7

clickdata

Tıklanan kontrolü gözlemlemek için kullanılan bir öznitelikler sözlüğüdür.

8

dont_click

Formdaki veriler, true olarak ayarlandığında herhangi bir öğeye tıklanmadan gönderilecektir.

Örnekler

Aşağıda, istek kullanım örneklerinden bazıları verilmiştir -

Using FormRequest to send data via HTTP POST

Aşağıdaki kod, nasıl döndürüleceğini gösterir FormRequest Örümceğinizde POST HTML formunu çoğaltmak istediğinizde nesne -

return [FormRequest(url = "http://www.something.com/post/action", 
   formdata = {'firstname': 'John', 'lastname': 'dave'}, 
   callback = self.after_post)]

Using FormRequest.from_response() to simulate a user login

Normalde, web siteleri önceden doldurulmuş form alanları sağladığı öğeleri kullanır.

FormRequest.form_response() yöntem, kazıma sırasında bu alanların otomatik olarak doldurulmasını istediğinizde kullanılabilir.

Aşağıdaki örnek bunu göstermektedir.

import scrapy  
class DemoSpider(scrapy.Spider): 
   name = 'demo' 
   start_urls = ['http://www.something.com/users/login.php']  
   def parse(self, response): 
      return scrapy.FormRequest.from_response( 
         response, 
         formdata = {'username': 'admin', 'password': 'confidential'}, 
         callback = self.after_login 
      )  
   
   def after_login(self, response): 
      if "authentication failed" in response.body: 
         self.logger.error("Login failed") 
         return  
      # You can continue scraping here

Yanıt Nesneleri

İşlenmek üzere örümceklere beslenen HTTP yanıtını gösteren bir nesnedir. Aşağıdaki sınıfa sahiptir -

class scrapy.http.Response(url[, status = 200, headers, body, flags])

Aşağıdaki tablo Response nesnelerinin parametrelerini göstermektedir -

Sr.No Parametre ve Açıklama
1

url

URL yanıtını belirten bir dizedir.

2

status

HTTP durum yanıtını içeren bir tamsayıdır.

3

headers

Yanıt başlıklarını içeren bir sözlüktür.

4

body

Yanıt gövdesine sahip bir dizedir.

5

flags

Yanıt bayraklarını içeren bir listedir.

Tepki Alt Sınıfları

Yanıt sınıfını alt sınıflara ayırarak kendi özel işlevselliğinizi uygulayabilirsiniz. Yerleşik yanıt alt sınıfları aşağıdaki gibidir -

TextResponse objects

TextResponse nesneleri, temel Response sınıfını kodlama yeteneğine sahip görüntüler, sesler vb. Gibi ikili veriler için kullanılır. Aşağıdaki sınıfa sahiptir -

class scrapy.http.TextResponse(url[, encoding[,status = 200, headers, body, flags]])

Aşağıdaki parametre -

encoding - Bir yanıtı kodlamak için kullanılan kodlamalı bir dizedir.

Note - Kalan parametreler yanıt sınıfı ile aynıdır ve aşağıda açıklanmıştır Response Objects Bölüm.

Aşağıdaki tablo, yanıt yöntemlerine ek olarak TextResponse nesnesi tarafından desteklenen öznitelikleri gösterir -

Sr.No Öznitelik ve Açıklama
1

text

Response.text'e birden çok kez erişilebilen bir yanıt gövdesidir.

2

encoding

Yanıt için kodlama içeren bir dizedir.

3

selector

İlk erişimde somutlaştırılan bir özniteliktir ve yanıtı hedef olarak kullanır.

Aşağıdaki tablo, yanıt yöntemlerine ek olarak TextResponse nesneleri tarafından desteklenen yöntemleri gösterir -

Sr.No Yöntem ve Açıklama
1

xpath (query)

TextResponse.selector.xpath (sorgu) için bir kısayoldur.

2

css (query)

TextResponse.selector.css (sorgu) için bir kısayoldur.

3

body_as_unicode()

Response.text'e birden çok kez erişilebilen bir yöntem olarak kullanılabilen bir yanıt gövdesidir.

HtmlResponse Nesneleri

HTML'nin metahtpequiv özelliğine bakarak kodlamayı ve otomatik keşfetmeyi destekleyen bir nesnedir . Parametreleri yanıt sınıfı ile aynıdır ve Yanıt nesneleri bölümünde açıklanmıştır. Aşağıdaki sınıfa sahiptir -

class scrapy.http.HtmlResponse(url[,status = 200, headers, body, flags])

XmlResponse Nesneleri

XML satırına bakarak kodlamayı ve otomatik keşfetmeyi destekleyen bir nesnedir. Parametreleri yanıt sınıfı ile aynıdır ve Yanıt nesneleri bölümünde açıklanmıştır. Aşağıdaki sınıfa sahiptir -

class scrapy.http.XmlResponse(url[, status = 200, headers, body, flags])