खुरपी - खोल
विवरण
मकड़ी के उपयोग के बिना, स्क्रैप फ्री शेल को डेटा को त्रुटि मुक्त कोड के साथ स्क्रैप करने के लिए इस्तेमाल किया जा सकता है। स्क्रेपी शेल का मुख्य उद्देश्य निकाले गए कोड, XPath, या CSS अभिव्यक्तियों का परीक्षण करना है। यह उन वेब पृष्ठों को भी निर्दिष्ट करने में मदद करता है जिनसे आप डेटा को स्क्रैप कर रहे हैं।
शेल को कॉन्फ़िगर करना
शेल को IPython (इंटरेक्टिव कंप्यूटिंग के लिए प्रयुक्त) कंसोल को स्थापित करके कॉन्फ़िगर किया जा सकता है, जो एक शक्तिशाली इंटरैक्टिव शेल है जो ऑटो को पूरा करने, रंगीन आउटपुट आदि देता है।
यदि आप यूनिक्स प्लेटफॉर्म पर काम कर रहे हैं, तो आईपीथॉन को स्थापित करना बेहतर है। इफथॉन के दुर्गम होने पर आप बेफथॉन का उपयोग भी कर सकते हैं ।
आप SCRAPY_PYTHON_SHELL नामक पर्यावरण चर को सेट करके या स्क्रैपसी.सीएफजी फ़ाइल को परिभाषित करके शेल को कॉन्फ़िगर कर सकते हैं -
[settings]
shell = bpython
खोल का शुभारंभ
निम्नांकित कमांड का उपयोग करके स्क्रेपी शेल लॉन्च किया जा सकता है -
scrapy shell <url>
यूआरएल निर्दिष्ट करता है जिसके लिए URL डेटा की जरूरत स्क्रैप किया जाना है।
शेल का उपयोग करना
निम्न तालिका में वर्णित के रूप में शेल कुछ अतिरिक्त शॉर्टकट और स्क्रेपी ऑब्जेक्ट प्रदान करता है -
उपलब्ध शॉर्टकट
शेल परियोजना में निम्नलिखित उपलब्ध शॉर्टकट प्रदान करता है -
अनु क्रमांक | शॉर्टकट और विवरण |
---|---|
1 | shelp() यह उपलब्ध वस्तुओं और शॉर्टकट की मदद से विकल्प प्रदान करता है। |
2 | fetch(request_or_url) यह अनुरोध या URL से प्रतिक्रिया एकत्र करता है और संबंधित ऑब्जेक्ट ठीक से अपडेट हो जाएगा। |
3 | view(response) आप अवलोकन के लिए स्थानीय ब्राउज़र में दिए गए अनुरोध के लिए प्रतिक्रिया देख सकते हैं और बाहरी लिंक को सही ढंग से प्रदर्शित करने के लिए, यह प्रतिक्रिया निकाय के लिए एक आधार टैग को जोड़ता है। |
उपलब्ध डरावनी वस्तुएं
शेल परियोजना में निम्नलिखित उपलब्ध छरहरी वस्तुएँ प्रदान करता है -
अनु क्रमांक | वस्तु और विवरण |
---|---|
1 | crawler यह वर्तमान क्रॉलर ऑब्जेक्ट को निर्दिष्ट करता है। |
2 | spider यदि वर्तमान URL के लिए कोई स्पाइडर नहीं है, तो वह नए स्पाइडर को परिभाषित करके URL या स्पाइडर ऑब्जेक्ट को हैंडल करेगा। |
3 | request यह अंतिम एकत्रित पृष्ठ के लिए अनुरोध ऑब्जेक्ट निर्दिष्ट करता है। |
4 | response यह अंतिम एकत्रित पृष्ठ के लिए प्रतिक्रिया ऑब्जेक्ट निर्दिष्ट करता है। |
5 | settings यह वर्तमान स्क्रेपी सेटिंग्स प्रदान करता है। |
शैल सत्र का उदाहरण
हमें scrapy.org साइट को स्क्रैप करने का प्रयास करें और फिर बताए अनुसार reddit.com से डेटा को स्क्रैप करना शुरू करें।
आगे बढ़ने से पहले, हम शेल को लॉन्च करेंगे जैसा कि निम्नलिखित कमांड में दिखाया गया है -
scrapy shell 'http://scrapy.org' --nolog
उपरोक्त URL का उपयोग करते समय स्क्रैपी उपलब्ध वस्तुओं को प्रदर्शित करेगा -
[s] Available Scrapy objects:
[s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
[s] item {}
[s] request <GET http://scrapy.org >
[s] response <200 http://scrapy.org >
[s] settings <scrapy.settings.Settings object at 0x2bfd650>
[s] spider <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s] shelp() Provides available objects and shortcuts with help option
[s] fetch(req_or_url) Collects the response from the request or URL and associated
objects will get update
[s] view(response) View the response for the given request
अगला, वस्तुओं के काम से शुरू, निम्नानुसार दिखाया गया है -
>> response.xpath('//title/text()').extract_first()
u'Scrapy | A Fast and Powerful Scraping and Web Crawling Framework'
>> fetch("http://reddit.com")
[s] Available Scrapy objects:
[s] crawler
[s] item {}
[s] request
[s] response <200 https://www.reddit.com/>
[s] settings
[s] spider
[s] Useful shortcuts:
[s] shelp() Shell help (print this help)
[s] fetch(req_or_url) Fetch request (or URL) and update local objects
[s] view(response) View response in a browser
>> response.xpath('//title/text()').extract()
[u'reddit: the front page of the internet']
>> request = request.replace(method="POST")
>> fetch(request)
[s] Available Scrapy objects:
[s] crawler
...
मकड़ियों से शैल का निरीक्षण करने के लिए प्रतिक्रियाओं का निरीक्षण करना
आप उन प्रतिक्रियाओं का निरीक्षण कर सकते हैं जो मकड़ी से संसाधित होते हैं, केवल तभी जब आप उस प्रतिक्रिया को प्राप्त करने की उम्मीद कर रहे हों।
उदाहरण के लिए -
import scrapy
class SpiderDemo(scrapy.Spider):
name = "spiderdemo"
start_urls = [
"http://mysite.com",
"http://mysite1.org",
"http://mysite2.net",
]
def parse(self, response):
# You can inspect one specific response
if ".net" in response.url:
from scrapy.shell import inspect_response
inspect_response(response, self)
जैसा कि ऊपर दिए गए कोड में दिखाया गया है, आप मकड़ियों से शेल का आह्वान कर सकते हैं ताकि निम्नलिखित फ़ंक्शन का उपयोग करके प्रतिक्रियाओं का निरीक्षण कर सकें -
scrapy.shell.inspect_response
अब मकड़ी चलाएं, और आपको निम्न स्क्रीन मिलेगी -
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-02-08 18:15:20-0400 [scrapy] DEBUG: Crawled (200) (referer: None)
[s] Available Scrapy objects:
[s] crawler
...
>> response.url
'http://mysite2.org'
आप जांच सकते हैं कि निकाले गए कोड निम्नलिखित कोड का उपयोग करके काम कर रहे हैं या नहीं -
>> response.xpath('//div[@class = "val"]')
यह आउटपुट को प्रदर्शित करता है
[]
उपरोक्त पंक्ति ने केवल एक रिक्त आउटपुट प्रदर्शित किया है। अब आप शेल को इस तरह से प्रतिक्रिया का निरीक्षण करने के लिए आमंत्रित कर सकते हैं -
>> view(response)
यह प्रतिक्रिया को प्रदर्शित करता है
True