Scrapy - İstekler ve Yanıtlar
Açıklama
Scrapy, web sitelerini tarayabilir. Request ve Responsenesneler. İstek nesneleri sistem üzerinden geçer, örümcekleri kullanarak isteği yürütür ve bir yanıt nesnesi döndürdüğünde isteğe geri döner.
Nesneleri İste
İstek nesnesi, bir yanıt oluşturan bir HTTP isteğidir. Aşağıdaki sınıfa sahiptir -
class scrapy.http.Request(url[, callback, method = 'GET', headers, body, cookies, meta,
encoding = 'utf-8', priority = 0, dont_filter = False, errback])
Aşağıdaki tablo İstek nesnelerinin parametrelerini göstermektedir -
Sr.No | Parametre ve Açıklama |
---|---|
1 | url URL talebini belirten bir dizedir. |
2 | callback İsteğin yanıtını ilk parametre olarak kullanan çağrılabilir bir fonksiyondur. |
3 | method HTTP yöntem isteğini belirten bir dizedir. |
4 | headers İstek başlıklarına sahip bir sözlüktür. |
5 | body İstek gövdesine sahip bir dize veya unicode'dur. |
6 | cookies İstek çerezlerini içeren bir listedir. |
7 | meta İsteğin meta verileri için değerler içeren bir sözlüktür. |
8 | encoding URL'yi kodlamak için kullanılan utf-8 kodlamasını içeren bir dizedir. |
9 | priority Zamanlayıcının istekleri işlemek için sırayı tanımlamak için önceliği kullandığı bir tamsayıdır. |
10 | dont_filter Planlayıcının isteği filtrelememesi gerektiğini belirten bir mantıksal değerdir. |
11 | errback Bir istek işlenirken bir istisna olduğunda çağrılacak çağrılabilir bir işlevdir. |
Geri Arama İşlevlerine Ek Veri Aktarma
Bir isteğin geri arama işlevi, yanıt ilk parametresi olarak indirildiğinde çağrılır.
Örneğin -
def parse_page1(self, response):
return scrapy.Request("http://www.something.com/some_page.html",
callback = self.parse_page2)
def parse_page2(self, response):
self.logger.info("%s page visited", response.url)
Kullanabilirsiniz Request.meta öznitelik, çağrılabilir işlevlere argümanlar iletmek ve bu argümanları aşağıdaki örnekte gösterildiği gibi ikinci geri aramada almak istiyorsanız -
def parse_page1(self, response):
item = DemoItem()
item['foremost_link'] = response.url
request = scrapy.Request("http://www.something.com/some_page.html",
callback = self.parse_page2)
request.meta['item'] = item
return request
def parse_page2(self, response):
item = response.meta['item']
item['other_link'] = response.url
return item
Talep İşleme Sırasında İstisnaları Yakalamak için Hatalar Kullanma
Geri dönüş, bir istek işlenirken bir istisna olduğunda çağrılacak çağrılabilir bir işlevdir.
Aşağıdaki örnek bunu göstermektedir -
import scrapy
from scrapy.spidermiddlewares.httperror import HttpError
from twisted.internet.error import DNSLookupError
from twisted.internet.error import TimeoutError, TCPTimedOutError
class DemoSpider(scrapy.Spider):
name = "demo"
start_urls = [
"http://www.httpbin.org/", # HTTP 200 expected
"http://www.httpbin.org/status/404", # Webpage not found
"http://www.httpbin.org/status/500", # Internal server error
"http://www.httpbin.org:12345/", # timeout expected
"http://www.httphttpbinbin.org/", # DNS error expected
]
def start_requests(self):
for u in self.start_urls:
yield scrapy.Request(u, callback = self.parse_httpbin,
errback = self.errback_httpbin,
dont_filter=True)
def parse_httpbin(self, response):
self.logger.info('Recieved response from {}'.format(response.url))
# ...
def errback_httpbin(self, failure):
# logs failures
self.logger.error(repr(failure))
if failure.check(HttpError):
response = failure.value.response
self.logger.error("HttpError occurred on %s", response.url)
elif failure.check(DNSLookupError):
request = failure.request
self.logger.error("DNSLookupError occurred on %s", request.url)
elif failure.check(TimeoutError, TCPTimedOutError):
request = failure.request
self.logger.error("TimeoutError occurred on %s", request.url)
Request.meta Özel Anahtarlar
Request.meta özel anahtarları, Scrapy tarafından tanımlanan özel meta anahtarların bir listesidir.
Aşağıdaki tablo Request.meta'nın bazı anahtarlarını göstermektedir -
Sr.No | Anahtar ve Açıklama |
---|---|
1 | dont_redirect True olarak ayarlandığında bir anahtardır, yanıtı durumuna göre isteği yeniden yönlendirmez. |
2 | dont_retry True olarak ayarlandığında bir anahtardır, başarısız istekleri yeniden denemez ve ara yazılım tarafından yok sayılır. |
3 | handle_httpstatus_list İstek bazında hangi yanıt kodlarına izin verilebileceğini tanımlayan bir anahtardır. |
4 | handle_httpstatus_all True olarak ayarlayarak bir istek için herhangi bir yanıt koduna izin vermek için kullanılan bir anahtardır . |
5 | dont_merge_cookies True olarak ayarlayarak mevcut çerezlerle birleşmekten kaçınmak için kullanılan bir anahtardır . |
6 | cookiejar Örümcek başına birden fazla çerez oturumunu saklamak için kullanılan bir anahtardır. |
7 | dont_cache Her politikada HTTP isteklerini ve yanıtlarını önbelleğe almaktan kaçınmak için kullanılan bir anahtardır. |
8 | redirect_urls İsteklerin geçtiği URL'leri içeren bir anahtardır. |
9 | bindaddress İsteği gerçekleştirmek için kullanılabilen giden IP adresinin IP'sidir. |
10 | dont_obey_robotstxt True olarak ayarlandığında bir anahtardır, ROBOTSTXT_OBEY etkin olsa bile robots.txt dışlama standardı tarafından yasaklanan istekleri filtrelemez. |
11 | download_timeout İndiricinin zaman aşımına uğramadan önce bekleyeceği örümcek başına zaman aşımını (saniye cinsinden) ayarlamak için kullanılır. |
12 | download_maxsize İndiricinin indireceği örümcek başına maksimum boyutu (bayt cinsinden) ayarlamak için kullanılır. |
13 | proxy Proxy, isteklerin kullanımı için HTTP proxy'si ayarlamak üzere İstek nesneleri için ayarlanabilir. |
Alt Sınıflar İste
İstek sınıfını alt sınıflandırarak kendi özel işlevselliğinizi uygulayabilirsiniz. Yerleşik istek alt sınıfları aşağıdaki gibidir -
FormRequest Nesneleri
FormRequest sınıfı, temel isteği genişleterek HTML formlarıyla ilgilenir. Aşağıdaki sınıfa sahiptir -
class scrapy.http.FormRequest(url[,formdata, callback, method = 'GET', headers, body,
cookies, meta, encoding = 'utf-8', priority = 0, dont_filter = False, errback])
Aşağıdaki parametre -
formdata - İstek gövdesine atanan HTML form verisine sahip bir sözlüktür.
Note - Kalan parametreler istek sınıfıyla aynıdır ve aşağıda açıklanmıştır Request Objects Bölüm.
Aşağıdaki sınıf yöntemleri aşağıdakiler tarafından desteklenmektedir: FormRequest istek yöntemlerine ek olarak nesneler -
classmethod from_response(response[, formname = None, formnumber = 0, formdata = None,
formxpath = None, formcss = None, clickdata = None, dont_click = False, ...])
Aşağıdaki tablo, yukarıdaki sınıfın parametrelerini göstermektedir -
Sr.No | Parametre ve Açıklama |
---|---|
1 | response HTML yanıt biçimi kullanarak form alanlarını önceden doldurmak için kullanılan bir nesnedir. |
2 | formname Belirtilirse, name özniteliğine sahip formun kullanılacağı bir dizedir. |
3 | formnumber Yanıtta birden çok form olduğunda kullanılacak formların tam sayısıdır. |
4 | formdata Form verilerinde geçersiz kılmak için kullanılan alanların sözlüğüdür. |
5 | formxpath Belirtildiğinde bir dizedir, xpath ile eşleşen form kullanılır. |
6 | formcss Belirtildiğinde bir dizedir, css seçiciyle eşleşen form kullanılır. |
7 | clickdata Tıklanan kontrolü gözlemlemek için kullanılan bir öznitelikler sözlüğüdür. |
8 | dont_click Formdaki veriler, true olarak ayarlandığında herhangi bir öğeye tıklanmadan gönderilecektir. |
Örnekler
Aşağıda, istek kullanım örneklerinden bazıları verilmiştir -
Using FormRequest to send data via HTTP POST
Aşağıdaki kod, nasıl döndürüleceğini gösterir FormRequest Örümceğinizde POST HTML formunu çoğaltmak istediğinizde nesne -
return [FormRequest(url = "http://www.something.com/post/action",
formdata = {'firstname': 'John', 'lastname': 'dave'},
callback = self.after_post)]
Using FormRequest.from_response() to simulate a user login
Normalde, web siteleri önceden doldurulmuş form alanları sağladığı öğeleri kullanır.
FormRequest.form_response() yöntem, kazıma sırasında bu alanların otomatik olarak doldurulmasını istediğinizde kullanılabilir.
Aşağıdaki örnek bunu göstermektedir.
import scrapy
class DemoSpider(scrapy.Spider):
name = 'demo'
start_urls = ['http://www.something.com/users/login.php']
def parse(self, response):
return scrapy.FormRequest.from_response(
response,
formdata = {'username': 'admin', 'password': 'confidential'},
callback = self.after_login
)
def after_login(self, response):
if "authentication failed" in response.body:
self.logger.error("Login failed")
return
# You can continue scraping here
Yanıt Nesneleri
İşlenmek üzere örümceklere beslenen HTTP yanıtını gösteren bir nesnedir. Aşağıdaki sınıfa sahiptir -
class scrapy.http.Response(url[, status = 200, headers, body, flags])
Aşağıdaki tablo Response nesnelerinin parametrelerini göstermektedir -
Sr.No | Parametre ve Açıklama |
---|---|
1 | url URL yanıtını belirten bir dizedir. |
2 | status HTTP durum yanıtını içeren bir tamsayıdır. |
3 | headers Yanıt başlıklarını içeren bir sözlüktür. |
4 | body Yanıt gövdesine sahip bir dizedir. |
5 | flags Yanıt bayraklarını içeren bir listedir. |
Tepki Alt Sınıfları
Yanıt sınıfını alt sınıflara ayırarak kendi özel işlevselliğinizi uygulayabilirsiniz. Yerleşik yanıt alt sınıfları aşağıdaki gibidir -
TextResponse objects
TextResponse nesneleri, temel Response sınıfını kodlama yeteneğine sahip görüntüler, sesler vb. Gibi ikili veriler için kullanılır. Aşağıdaki sınıfa sahiptir -
class scrapy.http.TextResponse(url[, encoding[,status = 200, headers, body, flags]])
Aşağıdaki parametre -
encoding - Bir yanıtı kodlamak için kullanılan kodlamalı bir dizedir.
Note - Kalan parametreler yanıt sınıfı ile aynıdır ve aşağıda açıklanmıştır Response Objects Bölüm.
Aşağıdaki tablo, yanıt yöntemlerine ek olarak TextResponse nesnesi tarafından desteklenen öznitelikleri gösterir -
Sr.No | Öznitelik ve Açıklama |
---|---|
1 | text Response.text'e birden çok kez erişilebilen bir yanıt gövdesidir. |
2 | encoding Yanıt için kodlama içeren bir dizedir. |
3 | selector İlk erişimde somutlaştırılan bir özniteliktir ve yanıtı hedef olarak kullanır. |
Aşağıdaki tablo, yanıt yöntemlerine ek olarak TextResponse nesneleri tarafından desteklenen yöntemleri gösterir -
Sr.No | Yöntem ve Açıklama |
---|---|
1 | xpath (query) TextResponse.selector.xpath (sorgu) için bir kısayoldur. |
2 | css (query) TextResponse.selector.css (sorgu) için bir kısayoldur. |
3 | body_as_unicode() Response.text'e birden çok kez erişilebilen bir yöntem olarak kullanılabilen bir yanıt gövdesidir. |
HtmlResponse Nesneleri
HTML'nin metahtpequiv özelliğine bakarak kodlamayı ve otomatik keşfetmeyi destekleyen bir nesnedir . Parametreleri yanıt sınıfı ile aynıdır ve Yanıt nesneleri bölümünde açıklanmıştır. Aşağıdaki sınıfa sahiptir -
class scrapy.http.HtmlResponse(url[,status = 200, headers, body, flags])
XmlResponse Nesneleri
XML satırına bakarak kodlamayı ve otomatik keşfetmeyi destekleyen bir nesnedir. Parametreleri yanıt sınıfı ile aynıdır ve Yanıt nesneleri bölümünde açıklanmıştır. Aşağıdaki sınıfa sahiptir -
class scrapy.http.XmlResponse(url[, status = 200, headers, body, flags])