स्क्रेपी - लिंक एक्सट्रैक्टर्स
विवरण
जैसा कि नाम से ही संकेत मिलता है, लिंक एक्सट्रैक्टर्स वे ऑब्जेक्ट हैं जिनका उपयोग करके वेब पेजों से लिंक निकालने के लिए उपयोग किया जाता है scrapy.http.Responseवस्तुओं। स्क्रेपी में, अंतर्निहित एक्सट्रैक्टर्स जैसे कि हैंscrapy.linkextractors आयात LinkExtractor। आप एक सरल इंटरफ़ेस को लागू करके अपनी आवश्यकताओं के अनुसार अपने स्वयं के लिंक एक्सट्रैक्टर को अनुकूलित कर सकते हैं।
हर लिंक चिमटा एक सार्वजनिक विधि कहा जाता है extract_linksजिसमें रिस्पांस ऑब्जेक्ट शामिल होता है और स्क्रैपी.लिंक.लिंक ऑब्जेक्ट की सूची देता है। आप लिंक एक्सट्रैक्टर्स को केवल एक बार इंस्टेंट कर सकते हैं और विभिन्न प्रतिक्रियाओं के साथ लिंक निकालने के लिए कई बार extract_links विधि को कॉल कर सकते हैं। CrawlSpiderclass नियमों के एक सेट के साथ लिंक एक्सट्रैक्टर्स का उपयोग करता है जिसका मुख्य उद्देश्य लिंक निकालना है।
अंतर्निहित लिंक चिमटा संदर्भ
आम तौर पर लिंक एक्सट्रैक्टर्स को स्क्रैपी के साथ समूहीकृत किया जाता है और स्क्रैपी.लिंकट्रेक्टर्स मॉड्यूल में प्रदान किया जाता है। डिफ़ॉल्ट रूप से, लिंक एक्स्ट्रेक्टर LinkExtractor होगा जो LxmlLinkExtractor के साथ कार्यक्षमता में बराबर है -
from scrapy.linkextractors import LinkExtractor
LxmlLinkExtractor
class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow = (), deny = (),
allow_domains = (), deny_domains = (), deny_extensions = None, restrict_xpaths = (),
restrict_css = (), tags = ('a', 'area'), attrs = ('href', ),
canonicalize = True, unique = True, process_value = None)
LxmlLinkExtractor क्योंकि यह काम फ़िल्टरिंग विकल्प है और यह lxml की मजबूत HTMLParser साथ प्रयोग किया जाता है, एक अत्यधिक की सिफारिश की लिंक निकालने है।
अनु क्रमांक | पैरामीटर और विवरण |
---|---|
1 | allow (एक नियमित अभिव्यक्ति (या की सूची)) यह एकल अभिव्यक्ति या अभिव्यक्तियों के समूह को अनुमति देता है जो कि यूआरएल से मेल खाना चाहिए जिसे निकाला जाना है। यदि इसका उल्लेख नहीं किया गया है, तो यह सभी लिंक से मेल खाएगा। |
2 | deny (एक नियमित अभिव्यक्ति (या की सूची)) यह एकल अभिव्यक्ति या अभिव्यक्तियों के समूह को ब्लॉक या बाहर करता है जो यूआरएल से मेल खाना चाहिए जो कि निकाला नहीं जाना है। यदि इसका उल्लेख नहीं किया गया है या खाली छोड़ दिया गया है, तो यह अवांछित लिंक को समाप्त नहीं करेगा। |
3 | allow_domains (str या सूची) यह एकल स्ट्रिंग या स्ट्रिंग्स की सूची की अनुमति देता है जो उन डोमेन से मेल खाना चाहिए जिनसे लिंक निकाले जाने हैं। |
4 | deny_domains (str या सूची) यह एकल स्ट्रिंग या स्ट्रिंग्स की सूची को ब्लॉक या बाहर करता है जो उन डोमेन से मेल खाना चाहिए जिनसे लिंक नहीं निकाले जाने हैं। |
5 | deny_extensions (सूची) यह लिंक निकालने पर एक्सटेंशन के साथ तार की सूची को अवरुद्ध करता है। यह सेट नहीं है, तो डिफ़ॉल्ट रूप से इसे करने के लिए स्थापित किया जाएगा IGNORED_EXTENSIONS जिसमें पूर्वनिर्धारित सूची है scrapy.linkextractors पैकेज। |
6 | restrict_xpaths (str या सूची) यह एक XPath सूची क्षेत्र है जहां से लिंक को प्रतिक्रिया से निकाला जाना है। यदि दिया गया है, तो लिंक केवल पाठ से निकाले जाएंगे, जिसे XPath द्वारा चुना गया है। |
7 | restrict_css (str या सूची) यह प्रतिबंधित_एक्सपैथ पैरामीटर के समान है जो प्रतिक्रिया के अंदर सीएसएस चयनित क्षेत्रों से लिंक निकाल देगा। |
8 | tags (str या सूची) एक एकल टैग या टैग की एक सूची जिसे लिंक को निकालते समय विचार किया जाना चाहिए। डिफ़ॉल्ट रूप से, यह ('a', 'area') होगा। |
9 | attrs (सूची) लिंक निकालते समय एकल विशेषता या विशेषताओं की सूची पर विचार किया जाना चाहिए। डिफ़ॉल्ट रूप से, यह ('href') होगा। |
10 | canonicalize (बुलियन) निकाले गए url को स्क्रैपी . utils.url.canonicalize_url का उपयोग करके मानक रूप में लाया जाता है । डिफ़ॉल्ट रूप से, यह सही होगा। |
1 1 | unique (बुलियन) यदि निकाले गए लिंक को दोहराया जाता है तो इसका उपयोग किया जाएगा। |
12 | process_value (प्रतिदेय) यह एक फ़ंक्शन है जो स्कैन किए गए टैग और विशेषताओं से एक मूल्य प्राप्त करता है। प्राप्त मूल्य को बदल दिया जा सकता है और वापस लौटा दिया जा सकता है अन्यथा लिंक को अस्वीकार करने के लिए कुछ भी नहीं लौटाया जाएगा। यदि उपयोग नहीं किया जाता है, तो डिफ़ॉल्ट रूप से यह लैम्ब्डा x: x होगा। |
उदाहरण
लिंक निकालने के लिए निम्न कोड का उपयोग किया जाता है -
<a href = "javascript:goToPage('../other/page.html'); return false">Link text</a>
निम्नलिखित कोड फ़ंक्शन का उपयोग process_value में किया जा सकता है -
def process_value(val):
m = re.search("javascript:goToPage\('(.*?)'", val)
if m:
return m.group(1)