पायथन वेब स्क्रैपिंग - फॉर्म आधारित वेबसाइट

पिछले अध्याय में, हमने डायनेमिक वेबसाइट्स को स्क्रैप करते हुए देखा है। इस अध्याय में, आइए हम उन वेबसाइटों के स्क्रैपिंग को समझते हैं जो उपयोगकर्ता आधारित इनपुट पर काम करते हैं, जो फॉर्म आधारित वेबसाइट हैं।

परिचय

इन दिनों डब्ल्यूडब्ल्यूडब्ल्यू (वर्ल्ड वाइड वेब) सोशल मीडिया के साथ-साथ उपयोगकर्ता-आधारित सामग्री की ओर बढ़ रहा है। तो सवाल यह उठता है कि हम इस तरह की सूचनाओं तक कैसे पहुँच सकते हैं जो लॉगिन स्क्रीन से परे है? इसके लिए हमें फॉर्म और लॉगिन से निपटने की जरूरत है।

पिछले अध्यायों में, हमने जानकारी प्राप्त करने के लिए HTTP GET विधि के साथ काम किया था लेकिन इस अध्याय में हम HTTP POST विधि के साथ काम करेंगे जो सूचना को भंडारण और विश्लेषण के लिए एक वेब सर्वर पर धकेलती है।

लॉग इन फॉर्म के साथ बातचीत

इंटरनेट पर काम करते समय, आपने कई बार लॉगिन फॉर्म के साथ बातचीत की होगी। वे बहुत सरल हो सकते हैं जैसे केवल कुछ HTML फ़ील्ड, सबमिट बटन और एक क्रिया पृष्ठ या वे जटिल हो सकते हैं और ईमेल जैसे कुछ अतिरिक्त फ़ील्ड हो सकते हैं, सुरक्षा कारणों के लिए कैप्चा के साथ एक संदेश छोड़ दें।

इस खंड में, हम पाइथन अनुरोध पुस्तकालय की सहायता से एक सरल सबमिट फ़ॉर्म से निपटने जा रहे हैं।

सबसे पहले, हमें अनुरोध पुस्तकालय को निम्नानुसार आयात करना होगा -

import requests

अब, हमें लॉगिन फ़ॉर्म के क्षेत्रों के लिए जानकारी प्रदान करने की आवश्यकता है।

parameters = {‘Name’:’Enter your name’, ‘Email-id’:’Your Emailid’,’Message’:’Type your message here’}

कोड की अगली पंक्ति में, हमें URL प्रदान करना होगा जिस पर फ़ॉर्म की कार्रवाई होगी।

r = requests.post(“enter the URL”, data = parameters)
print(r.text)

स्क्रिप्ट चलाने के बाद, यह उस पृष्ठ की सामग्री को लौटा देगा जहां कार्रवाई हुई है।

मान लीजिए अगर आप फॉर्म के साथ कोई भी छवि सबमिट करना चाहते हैं, तो यह request.post () के साथ बहुत आसान है। इसे आप पायथन लिपि की मदद से समझ सकते हैं -

import requests
file = {‘Uploadfile’: open(’C:\Usres\desktop\123.png’,‘rb’)}
r = requests.post(“enter the URL”, files = file)
print(r.text)

वेब सर्वर से कुकीज़ लोड कर रहा है

एक कुकी, जिसे कभी-कभी वेब कुकी या इंटरनेट कुकी कहा जाता है, एक वेबसाइट से भेजा गया डेटा का एक छोटा सा टुकड़ा होता है और हमारा कंप्यूटर इसे हमारे वेब ब्राउज़र के अंदर स्थित फ़ाइल में संग्रहीत करता है।

लॉगिन रूपों के साथ व्यवहार के संदर्भ में, कुकीज़ दो प्रकार की हो सकती हैं। एक, हम पिछले अनुभाग में निपटाते हैं, जो हमें एक वेबसाइट पर जानकारी प्रस्तुत करने की अनुमति देता है और दूसरा जो हमें वेबसाइट पर हमारी यात्रा के दौरान एक स्थायी "लॉग-इन" स्थिति में रहने देता है। दूसरे प्रकार के प्रपत्रों के लिए, वेबसाइट इस बात का ध्यान रखने के लिए कुकीज़ का उपयोग करती है कि कौन लॉग इन है और कौन नहीं है।

कुकीज़ क्या करते हैं?

इन दिनों ज्यादातर वेबसाइट्स ट्रैकिंग के लिए कुकीज़ का इस्तेमाल कर रही हैं। हम निम्नलिखित चरणों की सहायता से कुकीज़ के कार्य को समझ सकते हैं -

Step 1- सबसे पहले, साइट हमारे लॉगिन क्रेडेंशियल्स को प्रमाणित करेगी और इसे हमारे ब्राउज़र की कुकी में संग्रहीत करेगी। इस कुकी में आम तौर पर एक सर्वर-जनित टॉक, टाइम-आउट और ट्रैकिंग जानकारी होती है।

Step 2- इसके बाद, वेबसाइट प्रमाणीकरण के प्रमाण के रूप में कुकी का उपयोग करेगी। जब भी हम वेबसाइट पर जाते हैं तो यह प्रमाणीकरण हमेशा दिखाया जाता है।

वेब स्क्रैपर्स के लिए कुकीज़ बहुत समस्याग्रस्त हैं क्योंकि अगर वेब स्क्रैपर्स कुकीज़ का ट्रैक नहीं रखते हैं, तो सबमिट किया गया फॉर्म वापस भेज दिया जाता है और अगले पेज पर ऐसा लगता है कि उन्होंने कभी लॉग इन नहीं किया है। कुकीज़ की मदद से कुकीज़ को ट्रैक करना बहुत आसान है। अजगर requests पुस्तकालय, जैसा कि नीचे दिखाया गया है -

import requests
parameters = {‘Name’:’Enter your name’, ‘Email-id’:’Your Emailid’,’Message’:’Type your message here’}
r = requests.post(“enter the URL”, data = parameters)

कोड की उपरोक्त पंक्ति में, URL वह पृष्ठ होगा जो लॉगिन फ़ॉर्म के लिए प्रोसेसर के रूप में कार्य करेगा।

print(‘The cookie is:’)
print(r.cookies.get_dict())
print(r.text)

उपरोक्त स्क्रिप्ट को चलाने के बाद, हम अंतिम अनुरोध के परिणाम से कुकीज़ को पुनः प्राप्त करेंगे।

कुकीज़ के साथ एक और समस्या है कि कभी-कभी वेबसाइटें बिना चेतावनी के कुकीज़ को अक्सर संशोधित करती हैं। इस तरह की स्थिति से निपटा जा सकता हैrequests.Session() निम्नानुसार है -

import requests
session = requests.Session()
parameters = {‘Name’:’Enter your name’, ‘Email-id’:’Your Emailid’,’Message’:’Type your message here’}
r = session.post(“enter the URL”, data = parameters)

कोड की उपरोक्त पंक्ति में, URL वह पृष्ठ होगा जो लॉगिन फ़ॉर्म के लिए प्रोसेसर के रूप में कार्य करेगा।

print(‘The cookie is:’)
print(r.cookies.get_dict())
print(r.text)

निरीक्षण करें कि आप सत्र के साथ और बिना सत्र के स्क्रिप्ट के अंतर को आसानी से समझ सकते हैं।

अजगर के साथ स्वचालित रूप

इस खंड में हम मैकेनाइज्ड नामक पायथन मॉड्यूल से निपटने जा रहे हैं जो हमारे काम को कम करेगा और फॉर्म भरने की प्रक्रिया को स्वचालित करेगा।

मैकेनाइज्ड मॉड्यूल

मैकेनाइज्ड मॉड्यूल हमें रूपों के साथ बातचीत करने के लिए एक उच्च-स्तरीय इंटरफ़ेस प्रदान करता है। इसका उपयोग शुरू करने से पहले हमें इसे निम्न कमांड के साथ स्थापित करने की आवश्यकता है -

pip install mechanize

ध्यान दें कि यह केवल पायथन 2.x में काम करेगा।

उदाहरण

इस उदाहरण में, हम एक लॉगिन फ़ॉर्म भरने की प्रक्रिया को स्वचालित करने जा रहे हैं, जिसमें दो फ़ील्ड हैं जैसे ईमेल और पासवर्ड -

import mechanize
brwsr = mechanize.Browser()
brwsr.open(Enter the URL of login)
brwsr.select_form(nr = 0)
brwsr['email'] = ‘Enter email’
brwsr['password'] = ‘Enter password’
response = brwsr.submit()
brwsr.submit()

उपरोक्त कोड को समझना बहुत आसान है। सबसे पहले, हमने मैकेनाइज्ड मॉड्यूल आयात किया। फिर एक मशीनी ब्राउज़र ऑब्जेक्ट बनाया गया है। फिर, हमने लॉगिन URL पर नेविगेट किया और फॉर्म को चुना। उसके बाद, नाम और मान सीधे ब्राउज़र ऑब्जेक्ट पर पास किए जाते हैं।