अनुरोध - अनुरोध का उपयोग कर वेब स्क्रैपिंग
हमने पहले ही देखा है कि कैसे हम अजगर अनुरोध पुस्तकालय का उपयोग करके दिए गए URL से डेटा प्राप्त कर सकते हैं। हम साइट से डेटा को स्क्रैप करने का प्रयास करेंगेTutorialspoint जो उपलब्ध है https://www.tutorialspoint.com/tutorialslibrary.htm निम्नलिखित का उपयोग करते हुए -
- अनुरोध पुस्तकालय
- अजगर से सुंदर सूप पुस्तकालय
हमने पहले ही अनुरोध लाइब्रेरी स्थापित कर ली है, अब हम सुंदर सूप पैकेज स्थापित करते हैं। यहाँ के लिए आधिकारिक वेबसाइट हैbeautiful soup पर उपलब्ध https://www.crummy.com/software/BeautifulSoup/bs4/doc/ मामले में आप सुंदर सूप के कुछ और कार्यात्मकता का पता लगाना चाहते हैं।
Sundsoup स्थापित करना
हम नीचे सुंदर सूप स्थापित करने का तरीका देखेंगे -
E:\prequests>pip install beautifulsoup4
Collecting beautifulsoup4
Downloading https://files.pythonhosted.org/packages/3b/c8/a55eb6ea11cd7e5ac4ba
cdf92bac4693b90d3ba79268be16527555e186f0/beautifulsoup4-4.8.1-py3-none-any.whl
(
101kB)
|████████████████████████████████| 102kB 22kB/s
Collecting soupsieve>=1.2 (from beautifulsoup4)
Downloading https://files.pythonhosted.org/packages/81/94/03c0f04471fc245d08d0
a99f7946ac228ca98da4fa75796c507f61e688c2/soupsieve-1.9.5-py2.py3-none-any.whl
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.8.1 soupsieve-1.9.5
अब हमारे पास लाइब्रेरी और सुंदर सूप के लिए अजगर के अनुरोध हैं।
अब हम कोड लिखते हैं, जो दिए गए URL से डेटा को स्क्रैप करेगा।
वेब स्क्रेपिंग
import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.tutorialspoint.com/tutorialslibrary.htm')
print("The status code is ", res.status_code)
print("\n")
soup_data = BeautifulSoup(res.text, 'html.parser')
print(soup_data.title)
print("\n")
print(soup_data.find_all('h4'))
अनुरोध लाइब्रेरी का उपयोग करके, हम दिए गए URL से सामग्री प्राप्त कर सकते हैं और सुंदर सूप लाइब्रेरी इसे पार्स करने में मदद करती है और जिस तरह से हम चाहते हैं उसका विवरण प्राप्त कर सकते हैं।
आप एचटीएमएल टैग, क्लास, आईडी, सीएसएस चयनकर्ता और कई अन्य तरीकों से डेटा प्राप्त करने के लिए एक सुंदर सूप लाइब्रेरी का उपयोग कर सकते हैं। निम्नलिखित आउटपुट हमें मिलते हैं जिसमें हमने पृष्ठ का शीर्षक और पृष्ठ पर सभी h4 टैग भी मुद्रित किए हैं।
उत्पादन
E:\prequests>python makeRequest.py
The status code is 200
<title>Free Online Tutorials and Courses</title>
[<h4>Academic</h4>, <h4>Computer Science</h4>, <h4>Digital Marketing</h4>,
<h4>Monuments</h4>,<h4>Machine Learning</h4>, <h4>Mathematics</h4>,
<h4>Mobile Development</h4>,<h4>SAP</h4>,
<h4>Software Quality</h4>, <h4>Big Data & Analytics</h4>,
<h4>Databases</h4>, <h4>Engineering Tutorials</h4>,
<h4>Mainframe Development</h4>,
<h4>Microsoft Technologies</h4>, <h4>Java Technologies</h4>,
<h4>XML Technologies</h4>, <h4>Python Technologies</h4>, <h4>Sports</h4>,
<h4>Computer Programming</h4>,<h4>DevOps</h4>, <h4>Latest Technologies</h4>,
<h4>Telecom</h4>, <h4>Exams Syllabus</h4>,
<h4>UPSC IAS Exams</h4>,
<h4>Web Development</h4>,
<h4>Scripts</h4>, <h4>Management</h4>,<h4>Soft Skills</h4>,
<h4>Selected Reading</h4>, <h4>Misc</h4>]