सुंदर सूप - त्वरित गाइड

आज की दुनिया में, हमारे पास बिना किसी बाधा के डेटा / सूचना (ज्यादातर वेब डेटा) उपलब्ध है। कभी-कभी स्वतंत्र रूप से उपलब्ध डेटा को पढ़ना आसान होता है और कभी-कभी नहीं। कोई फर्क नहीं पड़ता कि आपका डेटा कैसे उपलब्ध है, वेब स्क्रैपिंग असंरचित डेटा को संरचित डेटा में बदलने के लिए बहुत उपयोगी उपकरण है जो पढ़ने और विश्लेषण करने में आसान है। दूसरे शब्दों में, डेटा की इस भारी मात्रा को इकट्ठा करने, व्यवस्थित करने और विश्लेषण करने का एक तरीका वेब स्क्रैपिंग है। तो आइए पहले समझते हैं कि वेब-स्क्रैपिंग क्या है।

वेब-स्क्रैपिंग क्या है?

स्क्रैपिंग केवल डेटा (विभिन्न साधनों से) निकालने, डेटा की प्रतिलिपि बनाने और स्क्रीनिंग की एक प्रक्रिया है।

जब हम वेब से डेटा स्क्रैप या एक्सट्रैक्ट या फीड करते हैं (जैसे वेब-पेज या वेबसाइट से), तो इसे वेब-स्क्रैपिंग कहा जाता है।

तो, वेब स्क्रैपिंग जिसे वेब डेटा निष्कर्षण या वेब हार्वेस्टिंग के रूप में भी जाना जाता है, वेब से डेटा का निष्कर्षण है। संक्षेप में, वेब स्क्रैपिंग डेवलपर्स को इंटरनेट से डेटा एकत्र करने और विश्लेषण करने का एक तरीका प्रदान करता है।

क्यों वेब-स्क्रैपिंग?

वेब-स्क्रैपिंग ब्राउज़ करते समय एक मानव द्वारा की जाने वाली अधिकांश चीजों को स्वचालित करने के लिए एक महान उपकरण प्रदान करता है। वेब-स्क्रैपिंग का उपयोग एंटरप्राइज़ में विभिन्न तरीकों से किया जाता है -

रिसर्च के लिए डेटा

स्मार्ट विश्लेषक (जैसे शोधकर्ता या पत्रकार) वेबसाइटों से मैन्युअल रूप से डेटा एकत्र करने और सफाई करने के बजाय वेब स्क्रैपर का उपयोग करते हैं।

उत्पादों की कीमतें और लोकप्रियता की तुलना

वर्तमान में ऐसी कई सेवाएँ हैं जो कई ऑनलाइन साइटों से डेटा एकत्र करने और उत्पादों की लोकप्रियता और कीमतों की तुलना करने के लिए वेब स्क्रैपर का उपयोग करती हैं।

एसईओ निगरानी

कई SEO टूल हैं जैसे कि Ahrefs, Seobility, SEMrush इत्यादि, जिनका उपयोग प्रतिस्पर्धी विश्लेषण और आपके क्लाइंट की वेबसाइटों से डेटा खींचने के लिए किया जाता है।

खोज यन्त्र

कुछ बड़ी आईटी कंपनियां हैं जिनका कारोबार पूरी तरह से वेब स्क्रैपिंग पर निर्भर करता है।

बिक्री और विपणन

वेब स्क्रैपिंग के माध्यम से एकत्र किए गए डेटा का उपयोग विपणक या प्रतियोगियों और विभिन्न मार्केटिंग और सोशल मीडिया प्रचार सेवाओं को बेचने के लिए बिक्री विशेषज्ञ द्वारा बाज़ारियों द्वारा किया जा सकता है।

क्यों वेब स्क्रैपिंग के लिए पायथन?

अजगर वेब स्क्रैपिंग के लिए सबसे लोकप्रिय भाषाओं में से एक है क्योंकि यह वेब के अधिकांश क्रॉलिंग संबंधी कार्यों को बहुत आसानी से संभाल सकता है।

नीचे कुछ बिंदुओं पर वेब स्क्रैपिंग के लिए अजगर का चयन क्यों किया गया है:

उपयोग में आसानी

जैसा कि अधिकांश डेवलपर्स सहमत हैं कि अजगर को कोड करना बहुत आसान है। हमें किसी भी घुंघराले ब्रेसिज़ "{}" या अर्ध-कॉलन "का उपयोग करने की आवश्यकता नहीं है;" कहीं भी, जो वेब स्क्रैपर्स को विकसित करते समय इसे अधिक पठनीय और आसान उपयोग करता है।

विशाल पुस्तकालय समर्थन

अजगर विभिन्न आवश्यकताओं के लिए पुस्तकालयों का विशाल सेट प्रदान करता है, इसलिए यह वेब स्क्रैपिंग के साथ-साथ डेटा विज़ुअलाइज़ेशन, मशीन लर्निंग, आदि के लिए उपयुक्त है।

आसानी से स्पष्ट सिंटैक्स

अजगर एक बहुत पठनीय प्रोग्रामिंग भाषा है क्योंकि अजगर सिंटैक्स को समझना आसान है। पायथन बहुत अभिव्यंजक है और कोड इंडेंटेशन उपयोगकर्ताओं को कोड में अलग-अलग ब्लॉक या स्कूप को अलग करने में मदद करता है।

डायनामिक रूप से टाइप की गई भाषा

पायथन एक गतिशील रूप से टाइप की जाने वाली भाषा है, जिसका अर्थ है कि किसी चर को दिया गया डेटा बताता है कि वह किस प्रकार का चर है। यह बहुत समय बचाता है और तेजी से काम करता है।

विशाल समुदाय

पायथन समुदाय बहुत बड़ा है जो आपको कोड लिखने के दौरान जहां भी अटकता है वहां आपकी मदद करता है।

सुंदर सूप का परिचय

द ब्यूटीफुल सूप एक पायथन लाइब्रेरी है जिसका नाम "एलिस इन एडवेंचर्स इन द वंडरलैंड" में इसी नाम की लुईस कैरोल कविता के नाम पर रखा गया है। सुंदर सूप एक अजगर पैकेज है और जैसा कि नाम से पता चलता है, अवांछित डेटा को पार्स करता है और खराब एचटीएमएल को ठीक करके और आसानी से ट्रैवर्सिबल एक्सएमएल संरचनाओं में हमें प्रस्तुत करके गड़बड़ वेब डेटा को व्यवस्थित और प्रारूपित करने में मदद करता है।

संक्षेप में, सुंदर सूप एक अजगर पैकेज है जो हमें HTML और XML दस्तावेजों से डेटा खींचने की अनुमति देता है।

जैसा कि सुंदरसूप एक मानक अजगर पुस्तकालय नहीं है, हमें पहले इसे स्थापित करने की आवश्यकता है। हम ब्यूटीफुल 4 लाइब्रेरी (जिसे बीएस 4 भी कहा जाता है) स्थापित करने जा रहे हैं, जो नवीनतम है।

हमारे काम के माहौल को अलग करने के लिए ताकि मौजूदा सेटअप को परेशान न करें, हमें पहले एक आभासी वातावरण बनाना चाहिए।

एक आभासी वातावरण बनाना (वैकल्पिक)

एक आभासी वातावरण हमें बाहरी सेटअप को प्रभावित किए बिना एक विशिष्ट परियोजना के लिए अजगर की एक अलग से काम करने वाली कॉपी बनाने की अनुमति देता है।

किसी भी अजगर पैकेज मशीन को स्थापित करने का सबसे अच्छा तरीका पाइप का उपयोग करना है, हालांकि, अगर पाइप पहले से स्थापित नहीं है (आप इसे अपने कमांड या शेल प्रॉम्प्ट में - "पाइप-वर्सन" का उपयोग करके जांच कर सकते हैं), तो आप नीचे दिए गए कमांड द्वारा स्थापित कर सकते हैं -

लिनक्स का वातावरण

$sudo apt-get install python-pip

विंडोज वातावरण

खिड़कियों में पाइप स्थापित करने के लिए, निम्नलिखित करें -

  • से get-pip.py डाउनलोड करें https://bootstrap.pypa.io/get-pip.py या आपके कंप्यूटर पर github से

  • कमांड प्रॉम्प्ट खोलें और get-pip.py फ़ाइल वाले फ़ोल्डर में नेविगेट करें।

  • निम्नलिखित कमांड चलाएँ -

>python get-pip.py

यही है, अब आपके विंडोज़ मशीन में पाइप स्थापित किया गया है।

आप नीचे कमांड चलाकर अपने पाइप को सत्यापित कर सकते हैं -

>pip --version
pip 19.2.3 from c:\users\yadur\appdata\local\programs\python\python37\lib\site-packages\pip (python 3.7)

आभासी वातावरण स्थापित करना

अपने कमांड प्रॉम्प्ट में नीचे कमांड चलाएँ -

>pip install virtualenv

चलाने के बाद, आप नीचे स्क्रीनशॉट देखेंगे -

नीचे कमांड आपकी वर्तमान निर्देशिका में एक आभासी वातावरण ("myEnv") बनाएगी -

>virtualenv myEnv

स्क्रीनशॉट

अपने वर्चुअल वातावरण को सक्रिय करने के लिए, निम्न कमांड चलाएँ -

>myEnv\Scripts\activate

उपरोक्त स्क्रीनशॉट में, आप देख सकते हैं कि हमारे पास "myEnv" उपसर्ग है जो हमें बताता है कि हम आभासी वातावरण "myEnv" के अंतर्गत हैं।

आभासी वातावरण से बाहर आने के लिए, निष्क्रिय होकर दौड़ें।

(myEnv) C:\Users\yadur>deactivate
C:\Users\yadur>

जैसा कि हमारा आभासी वातावरण तैयार है, अब हम सुंदर सेट स्थापित करें।

सुंदर स्थापित करना

जैसा कि सुंदरसूप एक मानक पुस्तकालय नहीं है, हमें इसे स्थापित करने की आवश्यकता है। हम ब्यूटीफुल 4 पैकेज (bs4 के रूप में जाना जाता है) का उपयोग करने जा रहे हैं।

लिनक्स मशीन

सिस्टम पैकेज मैनेजर का उपयोग करके डेबियन या उबंटू लाइनक्स पर bs4 स्थापित करने के लिए, नीचे दिए गए कमांड को चलाएं -

$sudo apt-get install python-bs4 (for python 2.x)
$sudo apt-get install python3-bs4 (for python 3.x)

आप easy_install या pip का उपयोग करके bs4 स्थापित कर सकते हैं (यदि आपको सिस्टम पैकर का उपयोग करने में समस्या आती है)।

$easy_install beautifulsoup4
$pip install beautifulsoup4

(यदि आप python3 का उपयोग कर रहे हैं तो आपको क्रमशः easy_install3 या pip3 का उपयोग करने की आवश्यकता हो सकती है)

विंडोज मशीन

विंडोज़ में beautifulsoup4 को स्थापित करना बहुत सरल है, खासकर यदि आपके पास पहले से ही पाइप स्थापित है।

>pip install beautifulsoup4

तो अब हमारे मशीन में beautifulsoup4 स्थापित है। आइए स्थापना के बाद आई कुछ समस्याओं के बारे में बात करते हैं।

स्थापना के बाद की समस्याएं

विंडोज़ मशीन पर आपका सामना हो सकता है, गलत संस्करण मुख्य रूप से त्रुटि स्थापित किया जा रहा है -

  • त्रुटि: ImportError “No module named HTMLParser”, तो आप पायथन 3 के तहत कोड के पायथन 2 संस्करण को चला रहे होंगे।

  • त्रुटि: ImportError “No module named html.parser” त्रुटि, तो आप पायथन 2 के तहत कोड के पायथन 3 संस्करण को चला रहे होंगे।

उपरोक्त दो स्थितियों से बाहर निकलने का सबसे अच्छा तरीका है कि फिर से ब्यूटीफुल को फिर से स्थापित करना, मौजूदा इंस्टॉलेशन को पूरी तरह से हटा देना।

अगर आपको मिलता है SyntaxError “Invalid syntax” ROOT_TAG_NAME = u '[डॉक्यूमेंट]' लाइन पर, फिर आपको अजगर 2 कोड को अजगर 3 में बदलने की ज़रूरत है, बस पैकेज को स्थापित करके -

$ python3 setup.py install

या मैन्युअल रूप से bs4 निर्देशिका पर अजगर की 2 से 3 रूपांतरण स्क्रिप्ट चलाकर -

$ 2to3-3.2 -w bs4

पार्सर स्थापित करना

डिफ़ॉल्ट रूप से, सुंदर सूप पायथन की मानक लाइब्रेरी में शामिल HTML पार्सर का समर्थन करता है, हालांकि यह कई बाहरी थर्ड पार्टी पायथन पार्सर जैसे कि lxml parser या html5lib parser का भी समर्थन करता है।

Lxml या html5lib पार्सर स्थापित करने के लिए, कमांड का उपयोग करें -

लिनक्स मशीन

$apt-get install python-lxml
$apt-get insall python-html5lib

विंडोज मशीन

$pip install lxml
$pip install html5lib

आमतौर पर, उपयोगकर्ता गति के लिए lxml का उपयोग करते हैं और यदि आप python 2 (2.7.3 संस्करण से पहले) या python 3 (3.2.2 से पहले) के पुराने संस्करण का उपयोग कर रहे हैं तो pxthon के अंतर्निहित HTML parser में lxml या html5lib parser का उपयोग करने की अनुशंसा की जाती है। पुराने संस्करण को संभालने में बहुत अच्छा नहीं है।

सुंदर सूप चल रहा है

यह HTML पृष्ठों में से एक में हमारे सुंदर सूप पैकेज का परीक्षण करने का समय है (वेब ​​पेज ले रहा है - https://www.tutorialspoint.com/index.htm, आप किसी भी अन्य वेब पेज को चुन सकते हैं) और उसमें से कुछ जानकारी निकाल सकते हैं।

नीचे दिए गए कोड में, हम वेबपेज से शीर्षक निकालने की कोशिश कर रहे हैं -

from bs4 import BeautifulSoup
import requests
url = "https://www.tutorialspoint.com/index.htm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print(soup.title)

उत्पादन

<title>H2O, Colab, Theano, Flutter, KNime, Mean.js, Weka, Solidity, Org.Json, AWS QuickSight, JSON.Simple, Jackson Annotations, Passay, Boon, MuleSoft, Nagios, Matplotlib, Java NIO, PyTorch, SLF4J, Parallax Scrolling, Java Cryptography</title>

एक सामान्य कार्य वेब पेज के भीतर सभी URL को निकालना है। उसके लिए हमें केवल कोड की निचली पंक्ति को जोड़ना होगा -

for link in soup.find_all('a'):
print(link.get('href'))

उत्पादन

https://www.tutorialspoint.com/index.htm
https://www.tutorialspoint.com/about/about_careers.htm
https://www.tutorialspoint.com/questions/index.php
https://www.tutorialspoint.com/online_dev_tools.htm
https://www.tutorialspoint.com/codingground.htm
https://www.tutorialspoint.com/current_affairs.htm
https://www.tutorialspoint.com/upsc_ias_exams.htm
https://www.tutorialspoint.com/tutor_connect/index.php
https://www.tutorialspoint.com/whiteboard.htm
https://www.tutorialspoint.com/netmeeting.php
https://www.tutorialspoint.com/index.htm
https://www.tutorialspoint.com/tutorialslibrary.htm
https://www.tutorialspoint.com/videotutorials/index.php
https://store.tutorialspoint.com
https://www.tutorialspoint.com/gate_exams_tutorials.htm
https://www.tutorialspoint.com/html_online_training/index.asp
https://www.tutorialspoint.com/css_online_training/index.asp
https://www.tutorialspoint.com/3d_animation_online_training/index.asp
https://www.tutorialspoint.com/swift_4_online_training/index.asp
https://www.tutorialspoint.com/blockchain_online_training/index.asp
https://www.tutorialspoint.com/reactjs_online_training/index.asp
https://www.tutorix.com
https://www.tutorialspoint.com/videotutorials/top-courses.php
https://www.tutorialspoint.com/the_full_stack_web_development/index.asp
….
….
https://www.tutorialspoint.com/online_dev_tools.htm
https://www.tutorialspoint.com/free_web_graphics.htm
https://www.tutorialspoint.com/online_file_conversion.htm
https://www.tutorialspoint.com/netmeeting.php
https://www.tutorialspoint.com/free_online_whiteboard.htm
http://www.tutorialspoint.com
https://www.facebook.com/tutorialspointindia
https://plus.google.com/u/0/+tutorialspoint
http://www.twitter.com/tutorialspoint
http://www.linkedin.com/company/tutorialspoint
https://www.youtube.com/channel/UCVLbzhxVTiTLiVKeGV7WEBg
https://www.tutorialspoint.com/index.htm
/about/about_privacy.htm#cookies
/about/faq.htm
/about/about_helping.htm
/about/contact_us.htm

इसी तरह, हम beautifulsoup4 का उपयोग करके उपयोगी जानकारी निकाल सकते हैं।

अब हम उपरोक्त उदाहरण में "सूप" के बारे में अधिक समझते हैं।

पिछले कोड उदाहरण में, हम एक स्ट्रिंग विधि का उपयोग करके सुंदर कंस्ट्रक्टर के माध्यम से दस्तावेज़ को पार्स करते हैं। एक अन्य तरीका यह है कि दस्तावेज़ को ओपन फाइलहैंडल के माध्यम से पास किया जाए।

from bs4 import BeautifulSoup
with open("example.html") as fp:
   soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")

पहले दस्तावेज़ को यूनिकोड में परिवर्तित किया जाता है, और HTML संस्थाओं को यूनिकोड वर्णों में परिवर्तित किया जाता है: </ p>

import bs4
html = '''<b>tutorialspoint</b>, <i>&web scraping &data science;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)

उत्पादन

<html><body><b>tutorialspoint</b>, <i>&web scraping &data science;</i></body></html>

फिर ब्यूटीफुलसॉउप HTML पार्सर का उपयोग करके डेटा को पार्स करता है या आप स्पष्ट रूप से XML पार्सर का उपयोग करके पार्स करने के लिए कहते हैं।

HTML ट्री संरचना

इससे पहले कि हम HTML पेज के विभिन्न घटकों को देखें, आइए पहले HTML ट्री संरचना को समझें।

दस्तावेज़ ट्री में मूल तत्व html है, जिसमें माता-पिता, बच्चे और भाई-बहन हो सकते हैं और यह पेड़ की संरचना में इसकी स्थिति से निर्धारित होता है। HTML तत्वों, विशेषताओं और पाठ के बीच स्थानांतरित करने के लिए, आपको अपनी ट्री संरचना में नोड्स के बीच जाना होगा।

मान लें कि वेबपृष्ठ नीचे दिखाया गया है -

जो HTML डॉक्युमेंट में ट्रांसलेट करता है -

<html><head><title>TutorialsPoint</title></head><h1>Tutorialspoint Online Library</h1><p<<b>It's all Free</b></p></body></html>

जिसका सीधा सा मतलब है, HTML डॉक्युमेंट के ऊपर, हमारे पास एक html ट्री स्ट्रक्चर इस प्रकार है -

जब हम एक html दस्तावेज़ या स्ट्रिंग को एक beautifulsoup कंस्ट्रक्टर में पास करते हैं, तो beautifulsoup मूल रूप से एक जटिल html पेज को विभिन्न अजगर वस्तुओं में परिवर्तित करता है। नीचे हम चार प्रमुख प्रकार की वस्तुओं पर चर्चा करने जा रहे हैं:

  • Tag

  • NavigableString

  • BeautifulSoup

  • Comments

वस्तुओं को टैग करें

HTML टैग का उपयोग विभिन्न प्रकार की सामग्री को परिभाषित करने के लिए किया जाता है। BeautifulSoup में एक टैग ऑब्जेक्ट वास्तविक पृष्ठ या दस्तावेज़ में HTML या XML टैग से मेल खाती है।

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<b class="boldest">TutorialsPoint</b>')
>>> tag = soup.html
>>> type(tag)
<class 'bs4.element.Tag'>

टैग में बहुत सारी विशेषताएँ और विधियाँ होती हैं और एक टैग की दो महत्वपूर्ण विशेषताएँ इसके नाम और विशेषताएँ हैं।

नाम (टैग.नाम)

हर टैग में एक नाम होता है और उसे '.name' के माध्यम से प्रत्यय के रूप में देखा जा सकता है। tag.name उस प्रकार के टैग को वापस कर देगा।

>>> tag.name
'html'

हालाँकि, यदि हम टैग नाम को बदलते हैं, तो उसी को सुंदरकूप द्वारा उत्पन्न HTML मार्कअप में परिलक्षित किया जाएगा।

>>> tag.name = "Strong"
>>> tag
<Strong><body><b class="boldest">TutorialsPoint</b></body></Strong>
>>> tag.name
'Strong'

विशेषताएँ (tag.attrs)

एक टैग ऑब्जेक्ट में किसी भी संख्या के गुण हो सकते हैं। टैग <b class = "boldest"> की एक विशेषता 'वर्ग' है, जिसका मान "boldest" है। कुछ भी जो टैग नहीं है, मूल रूप से एक विशेषता है और इसमें एक मूल्य होना चाहिए। आप या तो कुंजियों को एक्सेस करने के माध्यम से विशेषताओं का उपयोग कर सकते हैं (जैसे ऊपर उदाहरण में "वर्ग" तक पहुंच) या सीधे ".attat" के माध्यम से एक्सेस करना।

>>> tutorialsP = BeautifulSoup("<div class='tutorialsP'></div>",'lxml')
>>> tag2 = tutorialsP.div
>>> tag2['class']
['tutorialsP']

हम अपने टैग की विशेषताओं में सभी प्रकार के संशोधन कर सकते हैं (जोड़ / हटा / संशोधित कर सकते हैं)।

>>> tag2['class'] = 'Online-Learning'
>>> tag2['style'] = '2007'
>>>
>>> tag2
<div class="Online-Learning" style="2007"></div>
>>> del tag2['style']
>>> tag2
<div class="Online-Learning"></div>
>>> del tag['class']
>>> tag
<b SecondAttribute="2">TutorialsPoint</b>
>>>
>>> del tag['SecondAttribute']
>>> tag
</b>
>>> tag2['class']
'Online-Learning'
>>> tag2['style']
KeyError: 'style'

बहु-मूल्यवान गुण

HTML5 विशेषताओं में से कुछ में कई मान हो सकते हैं। सबसे अधिक इस्तेमाल किया जाने वाला वर्ग-विशेषता है जिसमें कई सीएसएस-मूल्य हो सकते हैं। अन्य में 'rel', 'Rev', 'headers', 'accesskey' और 'accept-charset' शामिल हैं। सुंदर सूप में बहु-मूल्यवान विशेषताओं को सूची के रूप में दिखाया गया है।

>>> from bs4 import BeautifulSoup
>>>
>>> css_soup = BeautifulSoup('<p class="body"></p>')
>>> css_soup.p['class']
['body']
>>>
>>> css_soup = BeautifulSoup('<p class="body bold"></p>')
>>> css_soup.p['class']
['body', 'bold']

हालाँकि, यदि किसी विशेषता में एक से अधिक मूल्य हैं, लेकिन यह HTML मानक के किसी भी संस्करण द्वारा बहु-मूल्यवान विशेषता नहीं है, तो सुंदर सूप अकेले गुण छोड़ देगा -

>>> id_soup = BeautifulSoup('<p id="body bold"></p>')
>>> id_soup.p['id']
'body bold'
>>> type(id_soup.p['id'])
<class 'str'>

यदि आप टैग को स्ट्रिंग में बदलते हैं, तो आप कई विशेषता मानों को समेकित कर सकते हैं।

>>> rel_soup = BeautifulSoup("<p> tutorialspoint Main <a rel='Index'> Page</a></p>")
>>> rel_soup.a['rel']
['Index']
>>> rel_soup.a['rel'] = ['Index', ' Online Library, Its all Free']
>>> print(rel_soup.p)
<p> tutorialspoint Main <a rel="Index Online Library, Its all Free"> Page</a></p>

'Get_attribute_list' का उपयोग करके, आपको एक मूल्य मिलता है जो हमेशा एक सूची, स्ट्रिंग, भले ही वह बहु-मूल्यवान हो या न हो।

id_soup.p.get_attribute_list(‘id’)

हालाँकि, यदि आप दस्तावेज़ को 'xml' के रूप में पार्स करते हैं, तो कोई बहु-मूल्यवान विशेषताएँ नहीं हैं -

>>> xml_soup = BeautifulSoup('<p class="body bold"></p>', 'xml')
>>> xml_soup.p['class']
'body bold'

NavigableString

किसी टैग की सामग्री का प्रतिनिधित्व करने के लिए नेवीगैब्स्ट्रिंग ऑब्जेक्ट का उपयोग किया जाता है। सामग्री तक पहुंचने के लिए, टैग के साथ ".string" का उपयोग करें।

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("<h2 id='message'>Hello, Tutorialspoint!</h2>")
>>>
>>> soup.string
'Hello, Tutorialspoint!'
>>> type(soup.string)
>

आप स्ट्रिंग को दूसरे स्ट्रिंग से बदल सकते हैं लेकिन आप मौजूदा स्ट्रिंग को संपादित नहीं कर सकते।

>>> soup = BeautifulSoup("<h2 id='message'>Hello, Tutorialspoint!</h2>")
>>> soup.string.replace_with("Online Learning!")
'Hello, Tutorialspoint!'
>>> soup.string
'Online Learning!'
>>> soup
<html><body><h2 id="message">Online Learning!</h2></body></html>

BeautifulSoup

जब हम किसी वेब संसाधन को परिमार्जित करने का प्रयास करते हैं, तो BeautifulSoup बनाया जाता है। इसलिए, यह संपूर्ण दस्तावेज है जिसे हम परिमार्जन करने का प्रयास कर रहे हैं। अधिकांश समय, इसे टैग ऑब्जेक्ट माना जाता है।

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("<h2 id='message'>Hello, Tutorialspoint!</h2>")
>>> type(soup)
<class 'bs4.BeautifulSoup'>
>>> soup.name
'[document]'

टिप्पणियाँ

टिप्पणी ऑब्जेक्ट वेब दस्तावेज़ के टिप्पणी भाग को दिखाता है। यह सिर्फ एक विशेष प्रकार का NavigableString है।

>>> soup = BeautifulSoup('<p><!-- Everything inside it is COMMENTS --></p>')
>>> comment = soup.p.string
>>> type(comment)
<class 'bs4.element.Comment'>
>>> type(comment)
<class 'bs4.element.Comment'>
>>> print(soup.p.prettify())
<p>
<!-- Everything inside it is COMMENTS -->
</p>

NavigableString ऑब्जेक्ट

नेविगैब्स्टरिंग ऑब्जेक्ट्स का उपयोग टैग के बजाय टेक्स्ट को टैग करने के लिए किया जाता है।

इस अध्याय में, हम टैग द्वारा नेविगेट करने के बारे में चर्चा करेंगे।

नीचे हमारा HTML दस्तावेज़ है -

>>> html_doc = """
<html><head><title>Tutorials Point</title></head>
<body>
<p class="title"><b>The Biggest Online Tutorials Library, It's all Free</b></p>
<p class="prog">Top 5 most used Programming Languages are:
<a href="https://www.tutorialspoint.com/java/java_overview.htm" class="prog" id="link1">Java</a>,
<a href="https://www.tutorialspoint.com/cprogramming/index.htm" class="prog" id="link2">C</a>,
<a href="https://www.tutorialspoint.com/python/index.htm" class="prog" id="link3">Python</a>,
<a href="https://www.tutorialspoint.com/javascript/javascript_overview.htm" class="prog" id="link4">JavaScript</a> and
<a href="https://www.tutorialspoint.com/ruby/index.htm" class="prog" id="link5">C</a>;
as per online survey.</p>
<p class="prog">Programming Languages</p>
"""
>>>
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html_doc, 'html.parser')
>>>

उपरोक्त दस्तावेज़ के आधार पर, हम दस्तावेज़ के एक भाग से दूसरे भाग में जाने की कोशिश करेंगे।

नीचे जाना

HTML दस्तावेज़ के किसी भी टुकड़े में तत्व के महत्वपूर्ण टुकड़े टैग हैं, जिसमें अन्य टैग / तार (टैग के बच्चे) हो सकते हैं। सुंदर सूप नेविगेट करने और टैग के बच्चों पर पुनरावृति करने के विभिन्न तरीके प्रदान करता है।

टैग नामों का उपयोग करके नेविगेट करना

पार्स ट्री को खोजने का सबसे आसान तरीका है कि उसके नाम से टैग को खोजा जाए। यदि आप <head> टैग चाहते हैं, तो सूप का उपयोग करें। हेड -

>>> soup.head
<head>&t;title>Tutorials Point</title></head>
>>> soup.title
<title>Tutorials Point</title>

<Body> टैग में विशिष्ट टैग (जैसे पहले <b> टैग) प्राप्त करने के लिए।

>>> soup.body.b
<b>The Biggest Online Tutorials Library, It's all Free</b>

एक विशेषता के रूप में टैग नाम का उपयोग करने से आपको उस नाम से केवल पहला टैग मिलेगा -

>>> soup.a
<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>

सभी टैग की विशेषता प्राप्त करने के लिए, आप find_all () विधि का उपयोग कर सकते हैं -

>>> soup.find_all("a")
[<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>, <a class="prog" href="https://www.tutorialspoint.com/cprogramming/index.htm" id="link2">C</a>, <a class="prog" href="https://www.tutorialspoint.com/python/index.htm" id="link3">Python</a>, <a class="prog" href="https://www.tutorialspoint.com/javascript/javascript_overview.htm" id="link4">JavaScript</a>, <a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm" id="link5">C</a>]>>> soup.find_all("a")
[<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>, <a class="prog" href="https://www.tutorialspoint.com/cprogramming/index.htm" id="link2">C</a>, <a class="prog" href="https://www.tutorialspoint.com/python/index.htm" id="link3">Python</a>, <a class="prog" href="https://www.tutorialspoint.com/javascript/javascript_overview.htm" id="link4">JavaScript</a>, <a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm" id="link5">C</a>]

। महाद्वीप और .children

हम एक सूची में टैग के बच्चों को इसके .contents से खोज सकते हैं -

>>> head_tag = soup.head
>>> head_tag
<head><title>Tutorials Point</title></head>
>>> Htag = soup.head
>>> Htag
<head><title>Tutorials Point</title></head>
>>>
>>> Htag.contents
[<title>Tutorials Point</title>
>>>
>>> Ttag = head_tag.contents[0]
>>> Ttag
<title>Tutorials Point</title>
>>> Ttag.contents
['Tutorials Point']

सुंदरसुपर ऑब्जेक्ट में ही बच्चे हैं। इस मामले में, <html> टैग ब्यूटीफुल ऑब्जेक्ट का बच्चा है -

>>> len(soup.contents)
2
>>> soup.contents[1].name
'html'

एक स्ट्रिंग में .contents नहीं है, क्योंकि इसमें कुछ भी नहीं हो सकता है -

>>> text = Ttag.contents[0]
>>> text.contents
self.__class__.__name__, attr))
AttributeError: 'NavigableString' object has no attribute 'contents'

उन्हें एक सूची के रूप में प्राप्त करने के बजाय, टैग के बच्चों तक पहुंचने के लिए .children जनरेटर का उपयोग करें -

>>> for child in Ttag.children:
print(child)
Tutorials Point

।वंशज

.Desdesants विशेषता आपको टैग के सभी बच्चों पर पुनरावृत्ति करने की अनुमति देती है, पुनरावर्ती -

इसके प्रत्यक्ष बच्चे और इसके प्रत्यक्ष बच्चे और इतने के बच्चे -

>>> for child in Htag.descendants:
print(child)
<title>Tutorials Point</title>
Tutorials Point

<Head> टैग में केवल एक बच्चा है, लेकिन इसके दो वंशज हैं: <शीर्षक> टैग और <शीर्षक> टैग का बच्चा। Beautifulsoup ऑब्जेक्ट का केवल एक सीधा बच्चा है (<html> टैग), लेकिन इसके पूरे वंशज हैं -

>>> len(list(soup.children))
2
>>> len(list(soup.descendants))
33

.string

यदि टैग में केवल एक ही बच्चा है, और वह बच्चा एक NavigableString है, तो बच्चे को .ring के रूप में उपलब्ध कराया जाता है।

>>> Ttag.string
'Tutorials Point'

यदि एक टैग का एकमात्र बच्चा दूसरा टैग है, और उस टैग में एक .string है, तो माता-पिता के टैग को उसी तरह माना जाता है जैसे कि उसका बच्चा।

>>> Htag.contents
[<title>Tutorials Point</title>]
>>>
>>> Htag.string
'Tutorials Point'

हालाँकि, यदि किसी टैग में एक से अधिक चीज़ें हैं, तो यह स्पष्ट नहीं है कि .string को क्या संदर्भित करना चाहिए, इसलिए .string को किसी को भी नहीं दिखाया गया है -

>>> print(soup.html.string)
None

.स्ट्रिंग और स्ट्रिपिंग_स्ट्रिंग्स

यदि टैग के अंदर एक से अधिक चीजें हैं, तो आप अभी भी केवल तार देख सकते हैं। .Strings जनरेटर का उपयोग करें -

>>> for string in soup.strings:
print(repr(string))
'\n'
'Tutorials Point'
'\n'
'\n'
"The Biggest Online Tutorials Library, It's all Free"
'\n'
'Top 5 most used Programming Languages are: \n'
'Java'
',\n'
'C'
',\n'
'Python'
',\n'
'JavaScript'
' and\n'
'C'
';\n \nas per online survey.'
'\n'
'Programming Languages'
'\n'

अतिरिक्त व्हाट्सएप को हटाने के लिए .stripped_strings जनरेटर का उपयोग करें -

>>> for string in soup.stripped_strings:
print(repr(string))
'Tutorials Point'
"The Biggest Online Tutorials Library, It's all Free"
'Top 5 most used Programming Languages are:'
'Java'
','
'C'
','
'Python'
','
'JavaScript'
'and'
'C'
';\n \nas per online survey.'
'Programming Languages'

ऊपर जा रहा है

एक "परिवार के पेड़" सादृश्य में, हर टैग और प्रत्येक स्ट्रिंग में एक माता-पिता होते हैं: वह टैग जिसमें यह होता है:

.parent

तत्व के मूल तत्व तक पहुंचने के लिए, .parent विशेषता का उपयोग करें।

>>> Ttag = soup.title
>>> Ttag
<title>Tutorials Point</title>
>>> Ttag.parent
<head>title>Tutorials Point</title></head>

हमारे html_doc में, शीर्षक स्ट्रिंग में अपने माता-पिता होते हैं: <शीर्षक> टैग जिसमें it_ होता है

>>> Ttag.string.parent
<title>Tutorials Point</title>

<Html> जैसे शीर्ष-स्तरीय टैग का जनक सुंदरसुपे वस्तु है -

>>> htmltag = soup.html
>>> type(htmltag.parent)
<class 'bs4.BeautifulSoup'>

एक सुंदर वस्तु के .par को किसी के रूप में परिभाषित नहीं किया गया है -

>>> print(soup.parent)
None

.parents

सभी माता-पिता तत्वों पर पुनरावृति करने के लिए, .parents विशेषता का उपयोग करें।

>>> link = soup.a
>>> link
<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>
>>>
>>> for parent in link.parents:
if parent is None:
print(parent)
else:
print(parent.name)
p
body
html
[document]

बग़ल में जा रहे हैं

नीचे एक सरल दस्तावेज है -

>>> sibling_soup = BeautifulSoup("<a><b>TutorialsPoint</b><c><strong>The Biggest Online Tutorials Library, It's all Free</strong></b></a>")
>>> print(sibling_soup.prettify())
<html>
<body>
   <a>
      <b>
         TutorialsPoint
      </b>
      <c>
         <strong>
            The Biggest Online Tutorials Library, It's all Free
         </strong>
      </c>
   </a>
</body>
</html>

उपरोक्त डॉक्टर में, <b> और <c> टैग समान स्तर पर हैं और वे दोनों एक ही टैग के बच्चे हैं। दोनों <b> और <c> टैग भाई बहन हैं।

.next_sibling और .prepret_sibling

पेड़ के समान स्तर पर मौजूद पृष्ठ तत्वों के बीच नेविगेट करने के लिए .next_sibling और .prepret_sibling का उपयोग करें:

>>> sibling_soup.b.next_sibling
<c><strong>The Biggest Online Tutorials Library, It's all Free</strong></c>
>>>
>>> sibling_soup.c.previous_sibling
<b>TutorialsPoint</b>

<B> टैग में a .next_sibling है, लेकिन नहीं .prepret_sibling, क्योंकि पेड़ के समान स्तर पर <b> टैग से पहले कुछ भी नहीं है, ऐसा ही मामला <c> टैग के साथ है।

>>> print(sibling_soup.b.previous_sibling)
None
>>> print(sibling_soup.c.next_sibling)
None

दो तार भाई-बहन नहीं हैं, क्योंकि उनके समान माता-पिता नहीं हैं।

>>> sibling_soup.b.string
'TutorialsPoint'
>>>
>>> print(sibling_soup.b.string.next_sibling)
None

.next_siblings और। स्पष्ट। siblings

एक टैग के भाई-बहनों पर उपयोग करने के लिए .next_siblings और .prepret_siblings का उपयोग करें।

>>> for sibling in soup.a.next_siblings:
print(repr(sibling))
',\n'
<a class="prog" href="https://www.tutorialspoint.com/cprogramming/index.htm" id="link2">C</a>
',\n'
>a class="prog" href="https://www.tutorialspoint.com/python/index.htm" id="link3">Python</a>
',\n'
<a class="prog" href="https://www.tutorialspoint.com/javascript/javascript_overview.htm" id="link4">JavaScript</a>
' and\n'
<a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm"
id="link5">C</a>
';\n \nas per online survey.'
>>> for sibling in soup.find(id="link3").previous_siblings:
print(repr(sibling))
',\n'
<a class="prog" href="https://www.tutorialspoint.com/cprogramming/index.htm" id="link2">C</a>
',\n'
<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>
'Top 5 most used Programming Languages are: \n'

आगे और पीछे जा कर

अब अपने पिछले “html_doc” उदाहरण में पहले दो लाइनों पर वापस आते हैं -

&t;html><head><title>Tutorials Point</title></head>
<body>
<h4 class="tagLine"><b>The Biggest Online Tutorials Library, It's all Free</b></h4>

एक HTML पार्सर पात्रों के स्ट्रिंग से ऊपर ले जाता है और इसे "ओपन ए एचटीएमएल> टैग", "ओपन ए <हेड> टैग", "ओपन <शीर्षक> टैग", "एक स्ट्रिंग जोड़ें" जैसी घटनाओं की एक श्रृंखला में बदल देता है, "</ शीर्षक> टैग बंद करें", "</ सिर> टैग बंद करें", "एक <h4> टैग खोलें" और इतने पर। BeautifulSoup दस्तावेज़ के प्रारंभिक पार्स को फिर से संगठित करने के लिए विभिन्न तरीके प्रदान करता है।

.next_element और .prepret_element

एक टैग या स्ट्रिंग की .next_element विशेषता जो भी बाद में पार्स की गई थी। कभी-कभी यह .next_sibling के समान दिखता है, हालांकि यह पूरी तरह से समान नहीं है। नीचे हमारे "html_doc" उदाहरण दस्तावेज़ में अंतिम <a> टैग है।

>>> last_a_tag = soup.find("a", id="link5")
>>> last_a_tag
<a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm" id="link5">C</a>
>>> last_a_tag.next_sibling
';\n \nas per online survey.'

हालाँकि, उस <a> टैग का .next_element, वह चीज़ जिसे <a> टैग के तुरंत बाद पार्स किया गया था, वह उस वाक्य का शेष नहीं है: यह "सी" शब्द है:

>>> last_a_tag.next_element
'C'

उपरोक्त व्यवहार इसलिए है क्योंकि मूल मार्कअप में, अर्धविराम से पहले "C" अक्षर दिखाई देता था। पार्सर को एक <a> टैग, फिर अक्षर "C", फिर समापन </a> टैग, फिर अर्धविराम और शेष वाक्य का सामना करना पड़ा। अर्धविराम उसी स्तर पर है जो <a> टैग के रूप में है, लेकिन "C" अक्षर पहले सामने आया था।

.Prepret_element विशेषता .next_element के बिल्कुल विपरीत है। यह किसी भी तत्व को इस एक के ठीक पहले पार्स किए जाने की ओर इशारा करता है।

>>> last_a_tag.previous_element
' and\n'
>>>
>>> last_a_tag.previous_element.next_element
<a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm" id="link5">C</a>

.next_elements और .prepret_elements

हम इन पुनरावृत्तियों का उपयोग किसी तत्व को आगे और पीछे करने के लिए करते हैं।

>>> for element in last_a_tag.next_e lements:
print(repr(element))
'C'
';\n \nas per online survey.'
'\n'
<p class="prog">Programming Languages</p>
'Programming Languages'
'\n'

कई सुंदरसॉ विधियां हैं, जो हमें एक पार्स पेड़ की खोज करने की अनुमति देती हैं। दो सबसे आम और उपयोग की जाने वाली विधियाँ हैं () और find_all ()।

खोज () और find_all () के बारे में बात करने से पहले, आइए हम उन विभिन्न फ़िल्टर के कुछ उदाहरण देखें जिन्हें आप इन विधियों में पास कर सकते हैं।

तरह तरह के फिल्टर

हमारे पास अलग-अलग फ़िल्टर हैं जिन्हें हम इन तरीकों से पास कर सकते हैं और इन फ़िल्टर की समझ महत्वपूर्ण है क्योंकि ये फ़िल्टर बार-बार खोज एपीआई में उपयोग किए जाते हैं। हम इन फिल्टर का उपयोग टैग के नाम के आधार पर, इसकी विशेषताओं पर, स्ट्रिंग के पाठ पर, या इनमें से मिश्रित कर सकते हैं।

एक स्ट्रिंग

फ़िल्टर के सबसे सरल प्रकारों में से एक स्ट्रिंग है। एक स्ट्रिंग को खोज विधि और सुंदरसाउप पर भेजना उस सटीक स्ट्रिंग के खिलाफ एक मैच करेगा।

नीचे दिए गए कोड को दस्तावेज़ में सभी <p> टैग मिलेंगे -

>>> markup = BeautifulSoup('<p>Top Three</p><p><pre>Programming Languages are:</pre></p><p><b>Java, Python, Cplusplus</b></p>')
>>> markup.find_all('p')
[<p>Top Three</p>, <p></p>, <p><b>Java, Python, Cplusplus</b></p>]

नियमित अभिव्यक्ति

आप दिए गए स्ट्रिंग / टैग से शुरू होने वाले सभी टैग पा सकते हैं। इससे पहले हमें नियमित अभिव्यक्ति का उपयोग करने के लिए पुनः मॉड्यूल आयात करना होगा।

>>> import re
>>> markup = BeautifulSoup('<p>Top Three</p><p><pre>Programming Languages are:</pre></p><p><b>Java, Python, Cplusplus</b></p>')
>>>
>>> markup.find_all(re.compile('^p'))
[<p>Top Three</p>, <p></p>, <pre>Programming Languages are:</pre>, <p><b>Java, Python, Cplusplus</b></p>]

सूची

आप एक सूची प्रदान करके खोजने के लिए कई टैग पास कर सकते हैं। नीचे दिया गया कोड सभी <b> और <पूर्व> टैग पाता है -

>>> markup.find_all(['pre', 'b'])
[<pre>Programming Languages are:</pre>, <b>Java, Python, Cplusplus</b>]

सच

ट्रू सभी टैगों को लौटाएगा जो इसे मिल सकते हैं, लेकिन अपने आप कोई तार नहीं -

>>> markup.find_all(True)
[<html><body><p>Top Three</p><p></p><pre>Programming Languages are:</pre>
<p><b>Java, Python, Cplusplus</b> </p> </body></html>, 
<body><p>Top Three</p><p></p><pre> Programming Languages are:</pre><p><b>Java, Python, Cplusplus</b></p>
</body>, 
<p>Top Three</p>, <p></p>, <pre>Programming Languages are:</pre>, <p><b>Java, Python, Cplusplus</b></p>, <b>Java, Python, Cplusplus</b>]

उपरोक्त सूप से केवल टैग वापस करने के लिए -

>>> for tag in markup.find_all(True):
(tag.name)
'html'
'body'
'p'
'p'
'pre'
'p'
'b'

सब ढूँढ़ो()

आप किसी विशेष टैग की सभी घटनाओं को पृष्ठ प्रतिक्रिया से निकालने के लिए find_all का उपयोग कर सकते हैं -

वाक्य - विन्यास

find_all(name, attrs, recursive, string, limit, **kwargs)

आइए अब हम IMDB- से "कुछ समय के टॉप रेटेड फिल्मों" के कुछ दिलचस्प डेटा निकालें।

>>> url="https://www.imdb.com/chart/top/?ref_=nv_mv_250"
>>> content = requests.get(url)
>>> soup = BeautifulSoup(content.text, 'html.parser')
#Extract title Page
>>> print(soup.find('title'))
<title>IMDb Top 250 - IMDb</title>

#Extracting main heading
>>> for heading in soup.find_all('h1'):
   print(heading.text)
Top Rated Movies

#Extracting sub-heading
>>> for heading in soup.find_all('h3'):
   print(heading.text)
   
IMDb Charts
You Have Seen
   IMDb Charts
   Top India Charts
Top Rated Movies by Genre
Recently Viewed

ऊपर से, हम देख सकते हैं find_all हमें उन सभी वस्तुओं को देगा जो हमारे द्वारा परिभाषित खोज मानदंडों से मेल खाते हैं। सभी फ़िल्टर जिन्हें हम find_all के साथ उपयोग कर सकते हैं () का उपयोग find () और अन्य खोज विधियों जैसे find_parents () या find_siblings () के साथ किया जा सकता है।

लगता है ()

हमने ऊपर देखा है, find_all () संपूर्ण सामग्री को खोजने के लिए संपूर्ण दस्तावेज़ को स्कैन करने के लिए उपयोग किया जाता है, लेकिन कुछ, आवश्यकता केवल अन्य परिणाम खोजने के लिए है। यदि आप जानते हैं कि दस्तावेज़ में केवल एक <body> टैग है, तो पूरे दस्तावेज़ को खोजना समय की बर्बादी है। एक तरीका यह है कि हर बार सीमा = 1 के साथ find_all () कॉल करें या हम ऐसा करने के लिए खोज () विधि का उपयोग कर सकते हैं -

वाक्य - विन्यास

find(name, attrs, recursive, string, **kwargs)

तो नीचे दो अलग-अलग विधियाँ समान आउटपुट देती हैं -

>>> soup.find_all('title',limit=1)
[<title>IMDb Top 250 - IMDb</title>]
>>>
>>> soup.find('title')
<title>IMDb Top 250 - IMDb</title>

उपरोक्त आउटपुट में, हम find_all () मेथड एक सूची देता है जिसमें सिंगल आइटम होता है जबकि फाइंड () मेथड एकल परिणाम देता है।

Find () और find_all () विधि के बीच एक और अंतर है -

>>> soup.find_all('h2')
[]
>>>
>>> soup.find('h2')

यदि सूप .find_all () विधि कुछ भी नहीं पा सकती है, तो यह खाली सूची देता है जबकि खोज () कोई नहीं देता है।

find_parents () और find_parent ()

Find_all () और find () विधियों के विपरीत, जो पेड़ को पार करते हैं, टैग के वंशजों को देखते हुए, find_parents () और find_parents विधियाँ () विपरीत करते हैं, वे पेड़ को ऊपर की ओर ले जाते हैं और टैग (या एक स्ट्रिंग) के माता-पिता को देखते हैं।

वाक्य - विन्यास

find_parents(name, attrs, string, limit, **kwargs)
find_parent(name, attrs, string, **kwargs)

>>> a_string = soup.find(string="The Godfather")
>>> a_string
'The Godfather'
>>> a_string.find_parents('a')
[<a href="/title/tt0068646/" title="Francis Ford Coppola (dir.), Marlon Brando, Al Pacino">The Godfather</a>]
>>> a_string.find_parent('a')
<a href="/title/tt0068646/" title="Francis Ford Coppola (dir.), Marlon Brando, Al Pacino">The Godfather</a>
>>> a_string.find_parent('tr')
<tr>

<td class="posterColumn">
<span data-value="2" name="rk"></span>
<span data-value="9.149038526210072" name="ir"></span>
<span data-value="6.93792E10" name="us"></span>
<span data-value="1485540" name="nv"></span>
<span data-value="-1.850961473789928" name="ur"></span>
<a href="/title/tt0068646/"> <img alt="The Godfather" height="67" src="https://m.media-amazon.com/images/M/MV5BM2MyNjYxNmUtYTAwNi00MTYxLWJmNWYtYzZlODY3ZTk3OTFlXkEyXkFqcGdeQXVyNzkwMjQ5NzM@._V1_UY67_CR1,0,45,67_AL_.jpg" width="45"/>
</a> </td>
<td class="titleColumn">
2.
<a href="/title/tt0068646/" title="Francis Ford Coppola (dir.), Marlon Brando, Al Pacino">The Godfather</a>
<span class="secondaryInfo">(1972)</span>
</td>
<td class="ratingColumn imdbRating">
<strong title="9.1 based on 1,485,540 user ratings">9.1</strong>
</td>
<td class="ratingColumn">
<div class="seen-widget seen-widget-tt0068646 pending" data-titleid="tt0068646">
<div class="boundary">
<div class="popover">
<span class="delete"> </span><ol><li>1<li>2<li>3<li>4<li>5<li>6<li>7<li>8<li>9<li>10</li>0</li></li></li></li&td;</li></li></li></li></li></ol> </div>
</div>
<div class="inline">
<div class="pending"></div>
<div class="unseeable">NOT YET RELEASED</div>
<div class="unseen"> </div>
<div class="rating"></div>
<div class="seen">Seen</div>
</div>
</div>
</td>
<td class="watchlistColumn">

<div class="wlb_ribbon" data-recordmetrics="true" data-tconst="tt0068646"></div>
</td>
</tr>
>>>
>>> a_string.find_parents('td')
[<td class="titleColumn">
2.
<a href="/title/tt0068646/" title="Francis Ford Coppola (dir.), Marlon Brando, Al Pacino">The Godfather</a>
<span class="secondaryInfo">(1972)</span>
</td>]

इसी तरह के आठ अन्य तरीके हैं -

find_next_siblings(name, attrs, string, limit, **kwargs)
find_next_sibling(name, attrs, string, **kwargs)

find_previous_siblings(name, attrs, string, limit, **kwargs)
find_previous_sibling(name, attrs, string, **kwargs)

find_all_next(name, attrs, string, limit, **kwargs)
find_next(name, attrs, string, **kwargs)

find_all_previous(name, attrs, string, limit, **kwargs)
find_previous(name, attrs, string, **kwargs)

कहाँ पे,

find_next_siblings() तथा find_next_sibling() वर्तमान तत्व के बाद आने वाले तत्व के सभी भाई-बहनों के लिए तरीके पुनरावृत्त होंगे।

find_previous_siblings() तथा find_previous_sibling() मौजूदा तत्व से पहले आने वाले सभी भाई-बहनों के लिए तरीकों में बदलाव होगा।

find_all_next() तथा find_next() मौजूदा तत्व के बाद आने वाले सभी टैग और स्ट्रिंग्स पर तरीकों का पुनरावृत्ति होगा।

find_all_previous तथा find_previous() वर्तमान तत्व से पहले आने वाले सभी टैग और स्ट्रिंग्स पर विधियाँ पुनरावृति करेंगी।

सीएसएस चयनकर्ताओं

सबसे आम तौर पर इस्तेमाल किए जाने वाले CSS चयनकर्ताओं का समर्थन करने के लिए ब्यूटीफुल लाइब्रेरी। आप चुनिंदा () विधि की सहायता से CSS चयनकर्ताओं का उपयोग करने वाले तत्वों को खोज सकते हैं।

यहाँ कुछ उदाहरण हैं -

>>> soup.select('title')
[<title>IMDb Top 250 - IMDb</title>, <title>IMDb Top Rated Movies</title>]
>>>
>>> soup.select("p:nth-of-type(1)")
[<p>The Top Rated Movie list only includes theatrical features.</p>, <p> class="imdb-footer__copyright _2-iNNCFskmr4l2OFN2DRsf">© 1990- by IMDb.com, Inc.</p>]
>>> len(soup.select("p:nth-of-type(1)"))
2
>>> len(soup.select("a"))
609
>>> len(soup.select("p"))
2

>>> soup.select("html head title")
[<title>IMDb Top 250 - IMDb</title>, <title>IMDb Top Rated Movies</title>]
>>> soup.select("head > title")
[<title>IMDb Top 250 - IMDb</title>]

#print HTML code of the tenth li elemnet
>>> soup.select("li:nth-of-type(10)")
[<li class="subnav_item_main">
<a href="/search/title?genres=film_noir&sort=user_rating,desc&title_type=feature&num_votes=25000,">Film-Noir
</a> </li>]

BeautifulSoup के महत्वपूर्ण पहलुओं में से एक खोज है पार्स ट्री और यह आपको अपनी आवश्यकता के अनुसार वेब दस्तावेज़ में परिवर्तन करने की अनुमति देता है। हम इसकी विशेषताओं का उपयोग करके टैग के गुणों में परिवर्तन कर सकते हैं, जैसे कि .name, .string या .append () विधि। यह आपको .new_string () और .new_tag () विधियों की सहायता से मौजूदा टैग में नए टैग और स्ट्रिंग्स जोड़ने की अनुमति देता है। आपके HTML या XML दस्तावेज़ में विभिन्न संशोधन करने के लिए अन्य तरीके भी हैं, जैसे कि .insert (), .insert_before () या .insert_after ()।

टैग नाम और विशेषताएँ बदलना

एक बार जब आप सूप बना लेते हैं, तो टैग का नाम बदलना, उसकी विशेषताओं में संशोधन करना, नई विशेषताओं को जोड़ना और विशेषताओं को हटाना जैसे संशोधन करना आसान होता है।

>>> soup = BeautifulSoup('<b class="bolder">Very Bold</b>')
>>> tag = soup.b

संशोधन और नई विशेषताएँ जोड़ना इस प्रकार हैं -

>>> tag.name = 'Blockquote'
>>> tag['class'] = 'Bolder'
>>> tag['id'] = 1.1
>>> tag
<Blockquote class="Bolder" id="1.1">Very Bold</Blockquote>

हटाने की विशेषताएँ इस प्रकार हैं -

>>> del tag['class']
>>> tag
<Blockquote id="1.1">Very Bold</Blockquote>
>>> del tag['id']
>>> tag
<Blockquote>Very Bold</Blockquote>

संशोधन .string

आप टैग की .string विशेषता को आसानी से संशोधित कर सकते हैं -

>>> markup = '<a href="https://www.tutorialspoint.com/index.htm">Must for every <i>Learner>/i<</a>'
>>> Bsoup = BeautifulSoup(markup)
>>> tag = Bsoup.a
>>> tag.string = "My Favourite spot."
>>> tag
<a href="https://www.tutorialspoint.com/index.htm">My Favourite spot.</a>

ऊपर से, हम देख सकते हैं कि टैग में कोई अन्य टैग है या नहीं, उन्हें और उनकी सभी सामग्रियों को नए डेटा से बदल दिया जाएगा।

संलग्न ()

किसी मौजूदा टैग में नया डेटा / सामग्री जोड़ना tag.append () विधि का उपयोग करके है। यह पायथन सूची में एपेंड () पद्धति के समान है।

>>> markup = '<a href="https://www.tutorialspoint.com/index.htm">Must for every <i>Learner</i></a>'
>>> Bsoup = BeautifulSoup(markup)
>>> Bsoup.a.append(" Really Liked it")
>>> Bsoup
<html><body><a href="https://www.tutorialspoint.com/index.htm">Must for every <i>Learner</i> Really Liked it</a></body></html>
>>> Bsoup.a.contents
['Must for every ', <i>Learner</i>, ' Really Liked it']

NavigableString () और .new_tag ()

यदि आप किसी दस्तावेज़ में एक स्ट्रिंग जोड़ना चाहते हैं, तो यह आसानी से एपेंड () या नेविगेबल स्ट्रींग () कंस्ट्रक्टर द्वारा उपयोग किया जा सकता है -

>>> soup = BeautifulSoup("<b></b>")
>>> tag = soup.b
>>> tag.append("Start")
>>>
>>> new_string = NavigableString(" Your")
>>> tag.append(new_string)
>>> tag
<b>Start Your</b>
>>> tag.contents
['Start', ' Your']

Note: यदि आपको निम्न के रूप में NavigableString () फ़ंक्शन का उपयोग करते समय कोई भी नाम त्रुटि मिलती है

NameError: 'NavigableString' नाम परिभाषित नहीं है

बस bs4 पैकेज से NavigableString निर्देशिका आयात करें -

>>> from bs4 import NavigableString

हम उपरोक्त त्रुटि को हल कर सकते हैं।

आप अपने मौजूदा टैग में टिप्पणियां जोड़ सकते हैं या फिर नवीगबलस्ट्रिंग के कुछ अन्य उपवर्ग जोड़ सकते हैं, बस कंस्ट्रक्टर को कॉल करें।

>>> from bs4 import Comment
>>> adding_comment = Comment("Always Learn something Good!")
>>> tag.append(adding_comment)
>>> tag
<b>Start Your<!--Always Learn something Good!--></b>
>>> tag.contents
['Start', ' Your', 'Always Learn something Good!']

एक नया टैग (किसी मौजूदा टैग को लागू नहीं करना) जोड़ना, सुंदरसो इनबिल्ट विधि, ब्यूटीसाउप.न्यू_टैग () का उपयोग करके किया जा सकता है।

>>> soup = BeautifulSoup("<b></b>")
>>> Otag = soup.b
>>>
>>> Newtag = soup.new_tag("a", href="https://www.tutorialspoint.com")
>>> Otag.append(Newtag)
>>> Otag
<b><a href="https://www.tutorialspoint.com"></a></b>

केवल पहला तर्क, टैग नाम की आवश्यकता है।

डालने ()

अजगर सूची पर .insert () विधि के समान, tag.insert () tag.append () के विपरीत, नए तत्व को सम्मिलित करेगा, लेकिन नया तत्व आवश्यक रूप से अपने माता-पिता की सामग्री के अंत में नहीं जाता है। नए तत्व को किसी भी स्थिति में जोड़ा जा सकता है।

>>> markup = '<a href="https://www.djangoproject.com/community/">Django Official website <i>Huge Community base</i></a>'
>>> soup = BeautifulSoup(markup)
>>> tag = soup.a
>>>
>>> tag.insert(1, "Love this framework ")
>>> tag
<a href="https://www.djangoproject.com/community/">Django Official website Love this framework <i>Huge Community base</i></a>
>>> tag.contents
['Django Official website ', 'Love this framework ', <i>Huge Community base</i
>]
>>>

सम्मिलित_बाहर () और डालें_का बाद ()

तोता पेड़ में कुछ डालने से पहले कुछ टैग या स्ट्रिंग डालने के लिए, हम insert_before () का उपयोग करते हैं -

>>> soup = BeautifulSoup("Brave")
>>> tag = soup.new_tag("i")
>>> tag.string = "Be"
>>>
>>> soup.b.string.insert_before(tag)
>>> soup.b
<b><i>Be</i>Brave</b>

इसी तरह पार्स ट्री में किसी चीज के ठीक बाद कुछ टैग या स्ट्रिंग डालने के लिए, Insert_after () का उपयोग करें।

>>> soup.b.i.insert_after(soup.new_string(" Always "))
>>> soup.b
<b><i>Be</i> Always Brave</b>
>>> soup.b.contents
[<i>Be</i>, ' Always ', 'Brave']

स्पष्ट()

किसी टैग की सामग्री को निकालने के लिए, tag.clear () का उपयोग करें -

>>> markup = '<a href="https://www.tutorialspoint.com/index.htm">For <i>technical & Non-technical&lr;/i> Contents</a>'
>>> soup = BeautifulSoup(markup)
>>> tag = soup.a
>>> tag
<a href="https://www.tutorialspoint.com/index.htm">For <i>technical & Non-technical</i> Contents</a>
>>>
>>> tag.clear()
>>> tag
<a href="https://www.tutorialspoint.com/index.htm"></a>

निकालने ()

पेड़ से कोई टैग या तार निकालने के लिए, PageElement.extract () का उपयोग करें।

>>> markup = '<a href="https://www.tutorialspoint.com/index.htm">For <i&gr;technical & Non-technical</i> Contents</a>'
>>> soup = BeautifulSoup(markup)
>>> a_tag = soup.a
>>>
>>> i_tag = soup.i.extract()
>>>
>>> a_tag
<a href="https://www.tutorialspoint.com/index.htm">For Contents</a>
>>>
>>> i_tag
<i>technical & Non-technical</i>
>>>
>>> print(i_tag.parent)
None

विघटित ()

Tag.decompose () ट्री से टैग हटाता है और उसकी सभी सामग्री हटा देता है।

>>> markup = '<a href="https://www.tutorialspoint.com/index.htm">For <i>technical & Non-technical</i> Contents</a>'
>>> soup = BeautifulSoup(markup)
>>> a_tag = soup.a
>>> a_tag
<a href="https://www.tutorialspoint.com/index.htm">For <i>technical & Non-technical</i> Contents</a>
>>>
>>> soup.i.decompose()
>>> a_tag
<a href="https://www.tutorialspoint.com/index.htm">For Contents</a>
>>>

से बदलो()

जैसा कि नाम से पता चलता है, pageElement.replace_with () फ़ंक्शन पुराने टैग या स्ट्रिंग को नए टैग या स्ट्रिंग को ट्री में बदल देगा -

>>> markup = '<a href="https://www.tutorialspoint.com/index.htm">Complete Python <i>Material</i></a>'
>>> soup = BeautifulSoup(markup)
>>> a_tag = soup.a
>>>
>>> new_tag = soup.new_tag("Official_site")
>>> new_tag.string = "https://www.python.org/"
>>> a_tag.i.replace_with(new_tag)
<i>Material</i>
>>>
>>> a_tag
<a href="https://www.tutorialspoint.com/index.htm">Complete Python <Official_site>https://www.python.org/</Official_site></a>

उपरोक्त आउटपुट में, आपने देखा है कि रिप्लेस_विथ () उस टैग या स्ट्रिंग को लौटा देता है जिसे (हमारे मामले में "मटेरियल" की तरह) बदल दिया गया था, इसलिए आप इसे जांच सकते हैं या इसे पेड़ के दूसरे हिस्से में वापस जोड़ सकते हैं।

रैप ()

PageElement.wrap () आपके द्वारा निर्दिष्ट टैग में एक तत्व संलग्न करता है और एक नया आवरण देता है -

>>> soup = BeautifulSoup("<p>tutorialspoint.com</p>")
>>> soup.p.string.wrap(soup.new_tag("b"))
<b>tutorialspoint.com</b>
>>>
>>> soup.p.wrap(soup.new_tag("Div"))
<Div><p><b>tutorialspoint.com</b></p></Div>

खोलना ()

Tag.unwrap () केवल रैप के विपरीत है () और उस टैग के अंदर जो भी है उसके साथ एक टैग को बदलता है।

>>> soup = BeautifulSoup('<a href="https://www.tutorialspoint.com/">I liked <i>tutorialspoint</i></a>')
>>> a_tag = soup.a
>>>
>>> a_tag.i.unwrap()
<i></i>
>>> a_tag
<a href="https://www.tutorialspoint.com/">I liked tutorialspoint</a>

ऊपर से, आपने देखा है कि जैसे रिप्लेस_विथ (), अनप्रैप () उस टैग को लौटा देता है जिसे बदल दिया गया था।

नीचे इसे बेहतर समझने के लिए अनप्रैप () का एक और उदाहरण है -

>>> soup = BeautifulSoup("<p>I <strong>AM</strong> a <i>text</i>.</p>")
>>> soup.i.unwrap()
<i></i>
>>> soup
<html><body><p>I <strong>AM</strong> a text.</p></body></html>

अनकैप () मार्कअप स्ट्रिपिंग के लिए अच्छा है।

सभी HTML या XML दस्तावेज़ कुछ विशिष्ट एन्कोडिंग जैसे ASCII या UTF-8 में लिखे गए हैं। हालाँकि, जब आप उस HTML / XML डॉक्यूमेंट को BeautifulSoup में लोड करते हैं, तो इसे यूनिकोड में बदल दिया गया है।

>>> markup = "<p>I will display £</p>"
>>> Bsoup = BeautifulSoup(markup)
>>> Bsoup.p
<p>I will display £</p>
>>> Bsoup.p.string
'I will display £'

उपरोक्त व्यवहार इसलिए है क्योंकि सुंदरसुप्प आंतरिक रूप से यूनिकोड नामक उप-पुस्तकालय का उपयोग करता है, डैमिट को किसी दस्तावेज़ के एन्कोडिंग का पता लगाने और फिर उसे यूनिकोड में परिवर्तित करने के लिए।

हालांकि, हर समय नहीं, यूनिकोड, डेमिट सही अनुमान लगाता है। जैसा कि दस्तावेज़ को एन्कोडिंग का अनुमान लगाने के लिए बाइट-बाय-बाइट की खोज की जाती है, इसमें बहुत समय लगता है। आप कुछ समय बचा सकते हैं और गलतियों से बच सकते हैं, यदि आप पहले से ही इसको सुंदर बनाने के लिए एन्कोडिंग को जानते हैं।

नीचे एक उदाहरण दिया गया है, जहां सुंदरसो गलत पहचान करता है, आईएसओ-8859-8 के रूप में एक आईएसओ-8859-8 दस्तावेज -

>>> markup = b"<h1>\xed\xe5\xec\xf9</h1>"
>>> soup = BeautifulSoup(markup)
>>> soup.h1
<h1>νεμω</h1>
>>> soup.original_encoding
'ISO-8859-7'
>>>

उपरोक्त समस्या को हल करने के लिए, इसे from_encoding का उपयोग करके सुंदरसुपे के पास दें

>>> soup = BeautifulSoup(markup, from_encoding="iso-8859-8")
>>> soup.h1
<h1>ולש </h1>
>>> soup.original_encoding
'iso-8859-8'
>>>

ब्यूटीफुल 4.4.0 से जोड़ा गया एक और नया फीचर है, बाहर करना। इसका उपयोग तब किया जा सकता है, जब आपको सही एन्कोडिंग का पता नहीं होता है, लेकिन यह सुनिश्चित होता है कि यूनिकोड, डेमिट गलत परिणाम दिखा रहा है।

>>> soup = BeautifulSoup(markup, exclude_encodings=["ISO-8859-7"])

आउटपुट एन्कोडिंग

एक सुंदरसेप से आउटपुट यूटीएफ -8 दस्तावेज़ है, भले ही सुंदरसुप्र में प्रवेश किए गए दस्तावेज़ के बावजूद। किसी दस्तावेज़ के नीचे, जहाँ ISO-8859-2 प्रारूप में पॉलिश वर्ण हैं।

html_markup = """
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="content-type" CONTENT="text/html; charset=iso-8859-2">
</HEAD>
<BODY>
ą ć ę ł ń ó ś ź ż Ą Ć Ę Ł Ń Ó Ś Ź Ż
</BODY>
</HTML>
"""


>>> soup = BeautifulSoup(html_markup)
>>> print(soup.prettify())
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
   <head>
      <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
   </head>
   <body>
      ą ć ę ł ń ó ś ź ż Ą Ć Ę Ł Ń Ó Ś Ź Ż
   </body>
</html>

उपरोक्त उदाहरण में, यदि आप गौर करते हैं, तो सुंदरसेप से उत्पन्न दस्तावेज़ को प्रतिबिंबित करने के लिए <meta> टैग को फिर से लिखा गया है, अब UTF-8 प्रारूप में है।

यदि आप UTF-8 में जेनरेट किए गए आउटपुट नहीं चाहते हैं, तो आप प्रीटेटिफाइ () में वांछित एन्कोडिंग असाइन कर सकते हैं।

>>> print(soup.prettify("latin-1"))
b'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">\n<html>\n <head>\n <meta content="text/html; charset=latin-1" http-equiv="content-type"/>\n </head>\n <body>\n ą ć ę ł ń \xf3 ś ź ż Ą Ć Ę Ł Ń \xd3 Ś Ź Ż\n </body>\n</html>\n'

उपरोक्त उदाहरण में, हमने पूर्ण दस्तावेज़ को एनकोड किया है, हालांकि आप सूप में किसी विशेष तत्व को एनकोड कर सकते हैं जैसे कि वे एक अजगर स्ट्रिंग थे -

>>> soup.p.encode("latin-1")
b'<p>0My first paragraph.</p>'
>>> soup.h1.encode("latin-1")
b'<h1>My First Heading</h1>'

कोई भी वर्ण जो आपके चुने हुए एन्कोडिंग में प्रस्तुत नहीं किया जा सकता है, उसे संख्यात्मक XML इकाई संदर्भ में परिवर्तित किया जाएगा। नीचे एक ऐसा उदाहरण है -

>>> markup = u"<b>\N{SNOWMAN}</b>"
>>> snowman_soup = BeautifulSoup(markup)
>>> tag = snowman_soup.b
>>> print(tag.encode("utf-8"))
b'<b>\xe2\x98\x83</b>'

यदि आप "लैटिन -1" या "अस्की" में उपरोक्त एनकोड करने का प्रयास करते हैं, तो यह "☃" उत्पन्न करेगा, यह दर्शाता है कि उसके लिए कोई प्रतिनिधित्व नहीं है।

>>> print (tag.encode("latin-1"))
b'<b>☃</b>'
>>> print (tag.encode("ascii"))
b'<b>☃</b>'

यूनिकोड, डेमिट

यूनिकोड, डैमिट का उपयोग मुख्य रूप से तब किया जाता है जब आने वाला दस्तावेज़ अज्ञात प्रारूप (मुख्य रूप से विदेशी भाषा) में होता है और हम कुछ ज्ञात प्रारूप (यूनिकोड) में एन्कोड करना चाहते हैं और यह भी करने के लिए हमें सुंदरसो की आवश्यकता नहीं है।

किसी भी BeautifulSoup प्रोजेक्ट का शुरुआती बिंदु, BeautifulSoup ऑब्जेक्ट है। एक ब्यूटीफुल ऑब्जेक्ट ऑब्जेक्ट HTML / XML डॉक्यूमेंट को इसके निर्माण के लिए इस्तेमाल करता है।

हम या तो एक स्ट्रिंग पास कर सकते हैं या सुंदर सूप के लिए एक फ़ाइल की तरह ऑब्जेक्ट, जहां फ़ाइलें (ऑब्जेक्ट्स) या तो हमारे मशीन या वेब पेज में स्थानीय रूप से संग्रहीत हैं।

सबसे आम सुंदर वस्तुएं हैं -

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

समानता के लिए वस्तुओं की तुलना करना

यदि वे एक ही HTML / XML मार्कअप का प्रतिनिधित्व करते हैं, तो सुंदर सूप के अनुसार, दो नौगम्य स्ट्रिंग या टैग ऑब्जेक्ट समान हैं।

अब हम नीचे दिए गए उदाहरण को देखते हैं, जहां दो <b> टैग को समान माना जाता है, भले ही वे ऑब्जेक्ट ट्री के विभिन्न हिस्सों में रहते हों, क्योंकि वे दोनों "<b> जावा </ b>" जैसे दिखते हैं।

>>> markup = "<p>Learn Python and <b>Java</b> and advanced <b>Java</b>! from Tutorialspoint</p>"
>>> soup = BeautifulSoup(markup, "html.parser")
>>> first_b, second_b = soup.find_all('b')
>>> print(first_b == second_b)
True
>>> print(first_b.previous_element == second_b.previous_element)
False

हालांकि, यह जांचने के लिए कि क्या दो चर एक ही वस्तुओं को संदर्भित करते हैं, आप निम्न का उपयोग कर सकते हैं

>>> print(first_b is second_b)
False

सुंदर सूप वस्तुओं की नकल

किसी भी टैग या NavigableString की एक प्रति बनाने के लिए, नीचे की तरह copy.copy () फ़ंक्शन का उपयोग करें -

>>> import copy
>>> p_copy = copy.copy(soup.p)
>>> print(p_copy)
<p>Learn Python and <b>Java</b> and advanced <b>Java</b>! from Tutorialspoint</p>
>>>

यद्यपि दो प्रतियों (मूल और एक की प्रतिलिपि बनाई गई) में एक ही मार्कअप है, हालांकि, दोनों एक ही वस्तु का प्रतिनिधित्व नहीं करते हैं -

>>> print(soup.p == p_copy)
True
>>>
>>> print(soup.p is p_copy)
False
>>>

एकमात्र वास्तविक अंतर यह है कि प्रतिलिपि मूल सुंदर सूप ऑब्जेक्ट ट्री से पूरी तरह से अलग है, जैसे कि उस पर अर्क () को बुलाया गया था।

>>> print(p_copy.parent)
None

उपरोक्त व्यवहार दो अलग-अलग टैग ऑब्जेक्ट्स के कारण होता है जो एक ही समय में एक ही स्थान पर कब्जा नहीं कर सकते हैं।

ऐसी कई स्थितियाँ हैं जहाँ आप सुंदरसुप 4 का उपयोग करके विशिष्ट प्रकार की जानकारी (केवल <a> टैग) निकालना चाहते हैं। सुंदरसुप में सूपस्ट्रेनर वर्ग आपको आने वाले दस्तावेज़ के केवल विशिष्ट भाग को पार्स करने की अनुमति देता है।

एक तरीका एक सूपस्ट्रेनर बनाना है और इसे पार्स_ऑनली तर्क के रूप में सुंदरसुपर 4 निर्माणकर्ता को पास करना है।

SoupStrainer

एक सौस्ट्रेनर ब्यूटीफुल को बताता है कि कौन से हिस्से निकालते हैं, और पार्स ट्री में केवल ये तत्व होते हैं। यदि आप अपनी आवश्यक जानकारी को HTML के एक विशिष्ट हिस्से तक सीमित कर देते हैं, तो इससे आपके खोज परिणाम में तेजी आएगी।

product = SoupStrainer('div',{'id': 'products_list'})
soup = BeautifulSoup(html,parse_only=product)

कोड की ऊपर की पंक्तियाँ केवल एक उत्पाद साइट से शीर्षक को पार्स करेंगी, जो एक टैग फ़ील्ड के अंदर हो सकता है।

इसी तरह, ऊपर हम HTML टैग से विशिष्ट जानकारी को पार्स करने के लिए, अन्य सूप स्ट्रेनर वस्तुओं का उपयोग कर सकते हैं। नीचे कुछ उदाहरण दिए गए हैं -

from bs4 import BeautifulSoup, SoupStrainer

#Only "a" tags
only_a_tags = SoupStrainer("a")

#Will parse only the below mentioned "ids".
parse_only = SoupStrainer(id=["first", "third", "my_unique_id"])
soup = BeautifulSoup(my_document, "html.parser", parse_only=parse_only)

#parse only where string length is less than 10
def is_short_string(string):
   return len(string) < 10
   
only_short_strings =SoupStrainer(string=is_short_string)

गलती संभालना

सुंदरसुपे में दो मुख्य प्रकार की त्रुटियां हैं जिन्हें संभालने की आवश्यकता है। ये दो त्रुटियां आपकी स्क्रिप्ट से नहीं, बल्कि स्निपेट की संरचना से हैं क्योंकि ब्यूटीफुल एपीआई एक त्रुटि फेंकता है।

दो मुख्य त्रुटियां इस प्रकार हैं -

AttributeError

यह तब होता है जब डॉट नोटेशन को वर्तमान HTML टैग में एक भाई टैग नहीं मिलता है। उदाहरण के लिए, आप इस त्रुटि का सामना कर चुके हैं, क्योंकि "एंकर टैग" लापता होने के कारण, लागत-कुंजी त्रुटि को फेंक देगी क्योंकि यह ट्रैवर्स करता है और एंकर टैग की आवश्यकता होती है।

KeyError

यह त्रुटि तब होती है यदि आवश्यक HTML टैग विशेषता अनुपलब्ध है। उदाहरण के लिए, यदि हमारे पास स्निपेट में डेटा-पीआईडी ​​विशेषता नहीं है, तो पीआईडी ​​कुंजी की-एरर फेंक देगा।

किसी परिणाम को पार्स करते समय उपरोक्त दो सूचीबद्ध त्रुटियों से बचने के लिए, यह सुनिश्चित करने के लिए परिणाम को बायपास किया जाएगा कि एक विकृत स्निपेट को डेटाबेस में नहीं डाला गया है -

except(AttributeError, KeyError) as er:
pass

का निदान ()

जब भी हमें यह समझने में कोई कठिनाई होती है कि ब्यूटीफुल हमारे दस्तावेज़ या एचटीएमएल को क्या करता है, तो बस इसे डायग्नोस () फ़ंक्शन में पास करें। निदान () फ़ंक्शन के लिए दस्तावेज़ फ़ाइल पास करने पर, हम दिखा सकते हैं कि विभिन्न पार्सर की सूची दस्तावेज़ को कैसे संभालती है।

नीचे निदान () फ़ंक्शन के उपयोग को प्रदर्शित करने के लिए एक उदाहरण है -

from bs4.diagnose import diagnose

with open("20 Books.html",encoding="utf8") as fp:
   data = fp.read()
   
diagnose(data)

उत्पादन

पार्स करने में त्रुटि

पार्सिंग त्रुटियों के दो मुख्य प्रकार हैं। जब आप अपने दस्तावेज़ को सुंदरसुपर को खिलाते हैं, तो आपको HTMLParseError जैसा अपवाद मिल सकता है। आपको एक अप्रत्याशित परिणाम भी मिल सकता है, जहां सुंदरसुपर पार्स ट्री पार्स दस्तावेज़ से अपेक्षित परिणाम से बहुत अलग दिखता है।

सुंदरसप के कारण कोई भी पार्सिंग त्रुटि नहीं है। ऐसा इसलिए है क्योंकि बाहरी पार्सर का उपयोग हम करते हैं (html5lib, lxml) क्योंकि ब्यूटीसपॉप में कोई पार्सर कोड नहीं है। पार्सिंग त्रुटि के ऊपर हल करने का एक तरीका दूसरे पार्सर का उपयोग करना है।

from HTMLParser import HTMLParser

try:
   from HTMLParser import HTMLParseError
except ImportError, e:
   # From python 3.5, HTMLParseError is removed. Since it can never be
   # thrown in 3.5, we can just define our own class as a placeholder.
   class HTMLParseError(Exception):
      pass

Python बिल्ट-इन HTML पार्सर दो सबसे सामान्य पार्स त्रुटियों का कारण बनता है, HTMLParser.HTMLParserError: विकृत प्रारंभ टैग और HTMLParser.HTMLParserError: बुरा अंत टैग और इसे हल करने के लिए, मुख्य रूप से किसी अन्य पार्सर का उपयोग करना है: lxml या html5lib।

एक और सामान्य प्रकार का अप्रत्याशित व्यवहार यह है कि आप एक टैग नहीं ढूंढ सकते हैं जो आप जानते हैं कि दस्तावेज़ में है। हालाँकि, जब आप find_all () रिटर्न [] या ढूँढें () रिटर्न कोई नहीं चलाते हैं।

यह अंतर्निहित HTML पार्सर के कारण हो सकता है कभी-कभी टैग टैग करता है जो इसे समझ में नहीं आता है।

XML पार्सर त्रुटि

डिफ़ॉल्ट रूप से, BeautifulSoup पैकेज HTML के रूप में दस्तावेज़ों को पार्स करता है, हालांकि, यह बहुत ही आसान उपयोग है और सुंदर-सुंदर XML का उपयोग बहुत सुंदर तरीके से करता है।

दस्तावेज़ को XML के रूप में पार्स करने के लिए, आपके पास lxml पार्सर होना चाहिए और आपको सुंदरतम कंस्ट्रक्टर के दूसरे तर्क के रूप में "xml" पास करना होगा -

soup = BeautifulSoup(markup, "lxml-xml")

या

soup = BeautifulSoup(markup, "xml")

एक सामान्य XML पार्सिंग त्रुटि है -

AttributeError: 'NoneType' object has no attribute 'attrib'

ऐसा तब हो सकता है, जब खोज () या खोजक () फ़ंक्शन का उपयोग करते समय कुछ तत्व गायब या परिभाषित नहीं होते हैं।

अन्य पार्सिंग त्रुटियाँ

नीचे दिए गए कुछ अन्य पार्सिंग त्रुटियों के बारे में हम इस खंड में चर्चा करने जा रहे हैं -

पर्यावरण के मुद्दे

उपरोक्त उल्लिखित पार्सिंग त्रुटियों के अलावा, आप अन्य पार्सिंग मुद्दों जैसे पर्यावरणीय मुद्दों का सामना कर सकते हैं, जहां आपकी स्क्रिप्ट एक ऑपरेटिंग सिस्टम में काम कर सकती है, लेकिन किसी अन्य ऑपरेटिंग सिस्टम में नहीं हो सकती है या एक वर्चुअल वातावरण में काम कर सकती है लेकिन किसी अन्य वर्चुअल वातावरण में काम नहीं कर सकती है या नहीं भी कर सकती है आभासी वातावरण के बाहर। ये सभी मुद्दे हो सकते हैं क्योंकि दोनों वातावरणों में अलग-अलग पार्सर लाइब्रेरी उपलब्ध हैं।

अपने वर्तमान कार्य परिवेश में अपने डिफ़ॉल्ट पार्सर को जानने या जाँचने की सलाह दी जाती है। आप वर्तमान कामकाजी परिवेश के लिए उपलब्ध वर्तमान डिफ़ॉल्ट पार्सर की जांच कर सकते हैं या फिर सुंदरसर निर्माणकर्ता के लिए दूसरे तर्कों के रूप में आवश्यक पार्सर लाइब्रेरी को स्पष्ट रूप से पास कर सकते हैं।

असंवेदनशील मामला

जैसा कि HTML टैग्स और विशेषताएँ केस-इनसेटिव हैं, तीनों HTML पार्सर टैग और विशेषता नामों को लोअरकेस में बदलते हैं। हालांकि, यदि आप मिश्रित-केस या अपरकेस टैग और विशेषताओं को संरक्षित करना चाहते हैं, तो दस्तावेज़ को XML के रूप में पार्स करना बेहतर है।

UnicodeEncodeError

हमें नीचे कोड सेगमेंट में देखें -

soup = BeautifulSoup(response, "html.parser")
   print (soup)

उत्पादन

UnicodeEncodeError: 'charmap' codec can't encode character '\u011f'

उपरोक्त समस्या दो मुख्य स्थितियों के कारण हो सकती है। आप एक यूनिकोड वर्ण को प्रिंट करने की कोशिश कर रहे होंगे जो आपके कंसोल को पता नहीं है कि कैसे प्रदर्शित करना है। दूसरा, आप एक फ़ाइल में लिखने की कोशिश कर रहे हैं और आप एक यूनिकोड वर्ण में पास होते हैं जो आपके डिफ़ॉल्ट एन्कोडिंग द्वारा समर्थित नहीं है।

उपरोक्त समस्या को हल करने का एक तरीका है, वांछित परिणाम प्राप्त करने के लिए सूप बनाने से पहले प्रतिक्रिया पाठ / चरित्र को सांकेतिक शब्दों में बदलना, निम्नानुसार है -

responseTxt = response.text.encode('UTF-8')

KeyError: [attr]

यह टैग ['attr' तक पहुँचने के कारण होता है जब प्रश्न में टैग attr विशेषता को परिभाषित नहीं करता है। सबसे आम त्रुटियां हैं: "कीरेरर: 'हाइपर' और" कीरोर: 'क्लास'। यदि आप सुनिश्चित नहीं हैं कि attr परिभाषित है, तो tag.get ('attr') का उपयोग करें।

for item in soup.fetch('a'):
   try:
      if (item['href'].startswith('/') or "tutorialspoint" in item['href']):
      (...)
   except KeyError:
      pass # or some other fallback action

AttributeError

आप निम्न के रूप में विशेषता को मुठभेड़ कर सकते हैं -

AttributeError: 'list' object has no attribute 'find_all'

उपरोक्त त्रुटि मुख्य रूप से होती है क्योंकि आपने अपेक्षित_ल () एकल टैग या स्ट्रिंग लौटाया है। हालाँकि, soup.find_all तत्वों की एक अजगर सूची देता है।

आपको बस सूची के माध्यम से पुनरावृत्त करना और उन तत्वों के डेटा को पकड़ना है।