अजगर वेब स्क्रैपिंग - डायनामिक वेबसाइट

इस अध्याय में, आइए जानें कि डायनामिक वेबसाइटों पर वेब स्क्रैपिंग और विस्तार से शामिल अवधारणाओं का प्रदर्शन कैसे करें।

परिचय

यदि वेब गतिशील है, तो वेब स्क्रैपिंग एक जटिल कार्य है और जटिलता कई गुना है। संयुक्त राष्ट्र के ग्लोबल ऑडिट ऑफ वेब एक्सेसिबिलिटी के अनुसार 70% से अधिक वेबसाइट प्रकृति में गतिशील हैं और वे अपनी कार्यक्षमता के लिए जावास्क्रिप्ट पर निर्भर हैं।

डायनामिक वेबसाइट उदाहरण

आइए हम एक गतिशील वेबसाइट के एक उदाहरण को देखें और इसके बारे में जानें कि इसे खुरचना क्यों मुश्किल है। यहां हम नाम की वेबसाइट से खोज का उदाहरण लेने जा रहे हैंhttp://example.webscraping.com/places/default/search.लेकिन हम यह कैसे कह सकते हैं कि यह वेबसाइट गतिशील प्रकृति की है? यह पायथन लिपि के अनुसरण के आउटपुट से आंका जा सकता है जो उपर्युक्त वेबपेज से डेटा खंगालने की कोशिश करेगा -

import re
import urllib.request
response = urllib.request.urlopen('http://example.webscraping.com/places/default/search')
html = response.read()
text = html.decode()
re.findall('(.*?)',text)

उत्पादन

[ ]

उपरोक्त आउटपुट से पता चलता है कि उदाहरण खुरचनी जानकारी निकालने में विफल रही क्योंकि <div> तत्व जिसे हम खोजने की कोशिश कर रहे हैं वह खाली है।

डायनामिक वेबसाइट से डेटा स्क्रैप करने के लिए दृष्टिकोण

हमने देखा है कि स्क्रैपर जानकारी को डायनेमिक वेबसाइट से हटा नहीं सकता है क्योंकि डेटा को जावास्क्रिप्ट के साथ गतिशील रूप से लोड किया जाता है। ऐसे मामलों में, हम गतिशील जावास्क्रिप्ट निर्भर वेबसाइटों से डेटा स्क्रैप करने के लिए निम्नलिखित दो तकनीकों का उपयोग कर सकते हैं -

  • रिवर्स इंजीनियरिंग जावास्क्रिप्ट
  • जावास्क्रिप्ट का प्रतिपादन

रिवर्स इंजीनियरिंग जावास्क्रिप्ट

रिवर्स इंजीनियरिंग नामक प्रक्रिया उपयोगी होगी और हमें यह समझने में मदद करती है कि वेब पेजों द्वारा डेटा को गतिशील रूप से कैसे लोड किया जाता है।

ऐसा करने के लिए, हमें क्लिक करने की आवश्यकता है inspect elementएक निर्दिष्ट URL के लिए टैब। आगे, हम क्लिक करेंगेNETWORK उस वेब पेज के लिए किए गए सभी अनुरोधों को खोजने के लिए टैब करें /ajax। ब्राउज़र से या नेटवर्क टैब के माध्यम से AJAX डेटा तक पहुँचने के बजाय, हम इसे पायथन स्क्रिप्ट का अनुसरण करने की सहायता से भी कर सकते हैं -

import requests
url=requests.get('http://example.webscraping.com/ajax/search.json?page=0&page_size=10&search_term=a')
url.json()

उदाहरण

उपरोक्त स्क्रिप्ट हमें पायथन जसन विधि का उपयोग करके JSON प्रतिक्रिया तक पहुंचने की अनुमति देती है। इसी तरह हम कच्चे स्ट्रिंग प्रतिक्रिया को डाउनलोड कर सकते हैं और अजगर की json.loads विधि का उपयोग करके, हम इसे भी लोड कर सकते हैं। हम पायथन लिपि के अनुसरण की मदद से ऐसा कर रहे हैं। यह मूल रूप से वर्णमाला 'a' के अक्षर को खोजकर और JSON प्रतिक्रियाओं के परिणामी पृष्ठों को पुन: प्रदर्शित करके सभी देशों को परिमार्जन करेगा।

import requests
import string
PAGE_SIZE = 15
url = 'http://example.webscraping.com/ajax/' + 'search.json?page={}&page_size={}&search_term=a'
countries = set()
for letter in string.ascii_lowercase:
   print('Searching with %s' % letter)
   page = 0
   while True:
   response = requests.get(url.format(page, PAGE_SIZE, letter))
   data = response.json()
   print('adding %d records from the page %d' %(len(data.get('records')),page))
   for record in data.get('records'):countries.add(record['country'])
   page += 1
   if page >= data['num_pages']:
      break
   with open('countries.txt', 'w') as countries_file:
   countries_file.write('n'.join(sorted(countries)))

उपरोक्त स्क्रिप्ट को चलाने के बाद, हम निम्नलिखित आउटपुट प्राप्त करेंगे और रिकॉर्ड देशों में सहेजे जाएंगे।

उत्पादन

Searching with a
adding 15 records from the page 0
adding 15 records from the page 1
...

जावास्क्रिप्ट का प्रतिपादन

पिछले अनुभाग में, हमने वेब पेज पर रिवर्स इंजीनियरिंग किया कि एपीआई ने कैसे काम किया और हम एकल अनुरोध में परिणाम प्राप्त करने के लिए इसका उपयोग कैसे कर सकते हैं। हालांकि, हम रिवर्स इंजीनियरिंग करते समय कठिनाइयों का सामना कर सकते हैं -

  • कभी-कभी वेबसाइटें बहुत मुश्किल हो सकती हैं। उदाहरण के लिए, यदि वेबसाइट को Google वेब टूलकिट (GWT) जैसे उन्नत ब्राउज़र टूल के साथ बनाया गया है, तो परिणामस्वरूप JS कोड मशीन-जनरेट किया जाएगा और इंजीनियर को समझना और रिवर्स करना मुश्किल होगा।

  • कुछ उच्च स्तरीय रूपरेखाएँ React.js पहले से ही जटिल जावास्क्रिप्ट तर्क को अमूर्त करके रिवर्स इंजीनियरिंग को कठिन बना सकते हैं।

उपरोक्त कठिनाइयों का समाधान एक ब्राउज़र रेंडरिंग इंजन का उपयोग करना है जो HTML को पार्स करता है, CSS प्रारूपण लागू करता है और वेब पेज प्रदर्शित करने के लिए जावास्क्रिप्ट को निष्पादित करता है।

उदाहरण

इस उदाहरण में, जावा स्क्रिप्ट के प्रतिपादन के लिए हम एक परिचित पायथन मॉड्यूल सेलेनियम का उपयोग करने जा रहे हैं। निम्नलिखित पायथन कोड सेलेनियम की मदद से एक वेब पेज प्रस्तुत करेगा -

सबसे पहले, हमें सेलेनियम से वेबड्राइवर आयात करने की आवश्यकता है -

from selenium import webdriver

अब, वेब ड्राइवर का पथ प्रदान करें जिसे हमने अपनी आवश्यकता के अनुसार डाउनलोड किया है -

path = r'C:\\Users\\gaurav\\Desktop\\Chromedriver'
driver = webdriver.Chrome(executable_path = path)

अब, url प्रदान करें जिसे हम उस वेब ब्राउज़र में खोलना चाहते हैं जिसे अब हमारे पाइथन स्क्रिप्ट द्वारा नियंत्रित किया गया है।

driver.get('http://example.webscraping.com/search')

अब, हम चयन करने के लिए तत्व सेट करने के लिए खोज टूलबॉक्स की आईडी का उपयोग कर सकते हैं।

driver.find_element_by_id('search_term').send_keys('.')

इसके बाद, हम जावा स्क्रिप्ट का उपयोग चुनिंदा बॉक्स सामग्री को निम्नानुसार सेट कर सकते हैं -

js = "document.getElementById('page_size').options[1].text = '100';"
driver.execute_script(js)

कोड की निम्न पंक्ति से पता चलता है कि खोज वेब पेज पर क्लिक करने के लिए तैयार है -

driver.find_element_by_id('search').click()

कोड की अगली पंक्ति से पता चलता है कि AJAX अनुरोध को पूरा करने के लिए 45 सेकंड तक इंतजार करना होगा।

driver.implicitly_wait(45)

अब, देश लिंक का चयन करने के लिए, हम निम्नानुसार CSS चयनकर्ता का उपयोग कर सकते हैं -

links = driver.find_elements_by_css_selector('#results a')

अब देशों की सूची बनाने के लिए प्रत्येक लिंक का पाठ निकाला जा सकता है -

countries = [link.text for link in links]
print(countries)
driver.close()