स्क्रेपी - चयनकर्ता
विवरण
जब आप वेब पेज को स्क्रैप कर रहे होते हैं, तो आपको HTML स्रोत के एक निश्चित भाग को तंत्र का उपयोग करके निकालने की आवश्यकता होती है selectorsXPath या CSS अभिव्यक्तियों का उपयोग करके प्राप्त किया जाता है। चयनकर्ताओं का निर्माण किया जाता हैlxml पुस्तकालय, जो पायथन भाषा में XML और HTML को संसाधित करता है।
चयनकर्ताओं की विभिन्न अवधारणाओं को परिभाषित करने के लिए निम्न कोड स्निपेट का उपयोग करें -
<html>
<head>
<title>My Website</title>
</head>
<body>
<span>Hello world!!!</span>
<div class = 'links'>
<a href = 'one.html'>Link 1<img src = 'image1.jpg'/></a>
<a href = 'two.html'>Link 2<img src = 'image2.jpg'/></a>
<a href = 'three.html'>Link 3<img src = 'image3.jpg'/></a>
</div>
</body>
</html>
चयनकर्ताओं का निर्माण
आप चयनकर्ता श्रेणी उदाहरणों का निर्माण कर सकते हैं text या TextResponseवस्तु। प्रदान किए गए इनपुट प्रकार के आधार पर, चयनकर्ता निम्नलिखित नियमों का चयन करता है -
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
उपरोक्त कोड का उपयोग करके, आप पाठ से निर्माण कर सकते हैं -
Selector(text = body).xpath('//span/text()').extract()
यह परिणाम को इस प्रकार प्रदर्शित करेगा -
[u'Hello world!!!']
आप इस प्रतिक्रिया से निर्माण कर सकते हैं -
response = HtmlResponse(url = 'http://mysite.com', body = body)
Selector(response = response).xpath('//span/text()').extract()
यह परिणाम को इस प्रकार प्रदर्शित करेगा -
[u'Hello world!!!']
चयनकर्ताओं का उपयोग करना
उपर्युक्त सरल कोड स्निपेट का उपयोग करके, आप XPath का निर्माण उस पाठ के चयन के लिए कर सकते हैं जिसे शीर्षक टैग में परिभाषित किया गया है जैसा कि नीचे दिखाया गया है -
>>response.selector.xpath('//title/text()')
अब, आप पाठ डेटा का उपयोग करके निकाल सकते हैं .extract() विधि इस प्रकार दिखाई गई -
>>response.xpath('//title/text()').extract()
इसका परिणाम इस प्रकार होगा -
[u'My Website']
आप निम्न दिखाए गए सभी तत्वों का नाम प्रदर्शित कर सकते हैं -
>>response.xpath('//div[@class = "links"]/a/text()').extract()
यह तत्वों को इस प्रकार प्रदर्शित करेगा -
Link 1
Link 2
Link 3
यदि आप पहले तत्व को निकालना चाहते हैं, तो विधि का उपयोग करें .extract_first(), निम्नानुसार दिखाया गया है -
>>response.xpath('//div[@class = "links"]/a/text()').extract_first()
यह तत्व को इस प्रकार प्रदर्शित करेगा -
Link 1
घोंसले का चयन करने वाले
उपरोक्त कोड का उपयोग करके, आप चयनकर्ताओं को पेज लिंक और छवि स्रोत को प्रदर्शित करने के लिए घोंसला बना सकते हैं .xpath() विधि, इस प्रकार दिखाई गई -
links = response.xpath('//a[contains(@href, "image")]')
for index, link in enumerate(links):
args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract())
print 'The link %d pointing to url %s and image %s' % args
यह परिणाम को इस प्रकार प्रदर्शित करेगा -
Link 1 pointing to url [u'one.html'] and image [u'image1.jpg']
Link 2 pointing to url [u'two.html'] and image [u'image2.jpg']
Link 3 pointing to url [u'three.html'] and image [u'image3.jpg']
नियमित अभिव्यक्ति का उपयोग करने वाले चयनकर्ता
स्क्रेपी नियमित अभिव्यक्ति का उपयोग करके डेटा निकालने की अनुमति देता है, जो उपयोग करता है .re()तरीका। उपरोक्त HTML कोड से, हम निम्नानुसार दिखाए गए छवि नाम निकालेंगे -
>>response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
उपरोक्त पंक्ति इस प्रकार है -
[u'Link 1',
u'Link 2',
u'Link 3']
सापेक्ष XPaths का उपयोग करना
जब आप XPaths के साथ काम कर रहे हैं, जो के साथ शुरू होता है /, नेस्टेड चयनकर्ता और XPath दस्तावेज़ के पूर्ण पथ से संबंधित हैं, और चयनकर्ता के सापेक्ष पथ से नहीं।
अगर आप अर्क निकालना चाहते हैं <p> तत्वों, तो पहले सभी दिव्य तत्वों को प्राप्त करें -
>>mydiv = response.xpath('//div')
अगला, आप सभी को निकाल सकते हैं 'p' XPath को एक बिंदु के रूप में उपसर्ग करके, अंदर के तत्व .//p जैसा कि नीचे दिखाया गया है -
>>for p in mydiv.xpath('.//p').extract()
EXSLT एक्सटेंशन का उपयोग करना
EXSLT एक समुदाय है जो XSLT (एक्स्टेंसिबल स्टाइलशीट लैंग्वेज ट्रांसफ़ॉर्मेशन) के लिए एक्सटेंशन जारी करता है जो एक्सएमएल दस्तावेज़ों को एक्सएचटीएमएल दस्तावेज़ों में परिवर्तित करता है। एक्सपीएलटी एक्सप्रेशंस को आप एक्सपीथ एक्सप्रेशन में रजिस्टर्ड नेमस्पेस के साथ प्रयोग कर सकते हैं जैसा कि निम्न तालिका में दिखाया गया है -
अनु क्रमांक | उपसर्ग और उपयोग | नाम स्थान |
---|---|---|
1 | re नियमित अभिव्यक्ति |
http://exslt.org/regexp/index.html |
2 | set हेरफेर सेट करें |
http://exslt.org/set/index.html |
आप पिछले अनुभाग में नियमित अभिव्यक्ति का उपयोग करके डेटा निकालने के लिए सरल कोड प्रारूप की जांच कर सकते हैं।
कुछ XPath टिप्स हैं, जो कि स्क्रैपी चयनकर्ताओं के साथ XPath का उपयोग करते समय उपयोगी होते हैं। अधिक जानकारी के लिए, इस लिंक पर क्लिक करें ।