स्क्रेपी - लिंक एक्सट्रैक्टर्स

विवरण

जैसा कि नाम से ही संकेत मिलता है, लिंक एक्सट्रैक्टर्स वे ऑब्जेक्ट हैं जिनका उपयोग करके वेब पेजों से लिंक निकालने के लिए उपयोग किया जाता है scrapy.http.Responseवस्तुओं। स्क्रेपी में, अंतर्निहित एक्सट्रैक्टर्स जैसे कि हैंscrapy.linkextractors आयात LinkExtractor। आप एक सरल इंटरफ़ेस को लागू करके अपनी आवश्यकताओं के अनुसार अपने स्वयं के लिंक एक्सट्रैक्टर को अनुकूलित कर सकते हैं।

हर लिंक चिमटा एक सार्वजनिक विधि कहा जाता है extract_linksजिसमें रिस्पांस ऑब्जेक्ट शामिल होता है और स्क्रैपी.लिंक.लिंक ऑब्जेक्ट की सूची देता है। आप लिंक एक्सट्रैक्टर्स को केवल एक बार इंस्टेंट कर सकते हैं और विभिन्न प्रतिक्रियाओं के साथ लिंक निकालने के लिए कई बार extract_links विधि को कॉल कर सकते हैं। CrawlSpiderclass नियमों के एक सेट के साथ लिंक एक्सट्रैक्टर्स का उपयोग करता है जिसका मुख्य उद्देश्य लिंक निकालना है।

अंतर्निहित लिंक चिमटा संदर्भ

आम तौर पर लिंक एक्सट्रैक्टर्स को स्क्रैपी के साथ समूहीकृत किया जाता है और स्क्रैपी.लिंकट्रेक्टर्स मॉड्यूल में प्रदान किया जाता है। डिफ़ॉल्ट रूप से, लिंक एक्स्ट्रेक्टर LinkExtractor होगा जो LxmlLinkExtractor के साथ कार्यक्षमता में बराबर है -

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow = (), deny = (), 
   allow_domains = (), deny_domains = (), deny_extensions = None, restrict_xpaths = (), 
   restrict_css = (), tags = ('a', 'area'), attrs = ('href', ), 
   canonicalize = True, unique = True, process_value = None)

LxmlLinkExtractor क्योंकि यह काम फ़िल्टरिंग विकल्प है और यह lxml की मजबूत HTMLParser साथ प्रयोग किया जाता है, एक अत्यधिक की सिफारिश की लिंक निकालने है।

अनु क्रमांक पैरामीटर और विवरण
1

allow (एक नियमित अभिव्यक्ति (या की सूची))

यह एकल अभिव्यक्ति या अभिव्यक्तियों के समूह को अनुमति देता है जो कि यूआरएल से मेल खाना चाहिए जिसे निकाला जाना है। यदि इसका उल्लेख नहीं किया गया है, तो यह सभी लिंक से मेल खाएगा।

2

deny (एक नियमित अभिव्यक्ति (या की सूची))

यह एकल अभिव्यक्ति या अभिव्यक्तियों के समूह को ब्लॉक या बाहर करता है जो यूआरएल से मेल खाना चाहिए जो कि निकाला नहीं जाना है। यदि इसका उल्लेख नहीं किया गया है या खाली छोड़ दिया गया है, तो यह अवांछित लिंक को समाप्त नहीं करेगा।

3

allow_domains (str या सूची)

यह एकल स्ट्रिंग या स्ट्रिंग्स की सूची की अनुमति देता है जो उन डोमेन से मेल खाना चाहिए जिनसे लिंक निकाले जाने हैं।

4

deny_domains (str या सूची)

यह एकल स्ट्रिंग या स्ट्रिंग्स की सूची को ब्लॉक या बाहर करता है जो उन डोमेन से मेल खाना चाहिए जिनसे लिंक नहीं निकाले जाने हैं।

5

deny_extensions (सूची)

यह लिंक निकालने पर एक्सटेंशन के साथ तार की सूची को अवरुद्ध करता है। यह सेट नहीं है, तो डिफ़ॉल्ट रूप से इसे करने के लिए स्थापित किया जाएगा IGNORED_EXTENSIONS जिसमें पूर्वनिर्धारित सूची है scrapy.linkextractors पैकेज।

6

restrict_xpaths (str या सूची)

यह एक XPath सूची क्षेत्र है जहां से लिंक को प्रतिक्रिया से निकाला जाना है। यदि दिया गया है, तो लिंक केवल पाठ से निकाले जाएंगे, जिसे XPath द्वारा चुना गया है।

7

restrict_css (str या सूची)

यह प्रतिबंधित_एक्सपैथ पैरामीटर के समान है जो प्रतिक्रिया के अंदर सीएसएस चयनित क्षेत्रों से लिंक निकाल देगा।

8

tags (str या सूची)

एक एकल टैग या टैग की एक सूची जिसे लिंक को निकालते समय विचार किया जाना चाहिए। डिफ़ॉल्ट रूप से, यह ('a', 'area') होगा।

9

attrs (सूची)

लिंक निकालते समय एकल विशेषता या विशेषताओं की सूची पर विचार किया जाना चाहिए। डिफ़ॉल्ट रूप से, यह ('href') होगा।

10

canonicalize (बुलियन)

निकाले गए url को स्क्रैपी . utils.url.canonicalize_url का उपयोग करके मानक रूप में लाया जाता है । डिफ़ॉल्ट रूप से, यह सही होगा।

1 1

unique (बुलियन)

यदि निकाले गए लिंक को दोहराया जाता है तो इसका उपयोग किया जाएगा।

12

process_value (प्रतिदेय)

यह एक फ़ंक्शन है जो स्कैन किए गए टैग और विशेषताओं से एक मूल्य प्राप्त करता है। प्राप्त मूल्य को बदल दिया जा सकता है और वापस लौटा दिया जा सकता है अन्यथा लिंक को अस्वीकार करने के लिए कुछ भी नहीं लौटाया जाएगा। यदि उपयोग नहीं किया जाता है, तो डिफ़ॉल्ट रूप से यह लैम्ब्डा x: x होगा।

उदाहरण

लिंक निकालने के लिए निम्न कोड का उपयोग किया जाता है -

<a href = "javascript:goToPage('../other/page.html'); return false">Link text</a>

निम्नलिखित कोड फ़ंक्शन का उपयोग process_value में किया जा सकता है -

def process_value(val): 
   m = re.search("javascript:goToPage\('(.*?)'", val) 
   if m: 
      return m.group(1)