सुंदर सूप - टैग द्वारा नेविगेट करना

इस अध्याय में, हम टैग द्वारा नेविगेट करने के बारे में चर्चा करेंगे।

नीचे हमारा HTML दस्तावेज़ है -

>>> html_doc = """
<html><head><title>Tutorials Point</title></head>
<body>
<p class="title"><b>The Biggest Online Tutorials Library, It's all Free</b></p>
<p class="prog">Top 5 most used Programming Languages are:
<a href="https://www.tutorialspoint.com/java/java_overview.htm" class="prog" id="link1">Java</a>,
<a href="https://www.tutorialspoint.com/cprogramming/index.htm" class="prog" id="link2">C</a>,
<a href="https://www.tutorialspoint.com/python/index.htm" class="prog" id="link3">Python</a>,
<a href="https://www.tutorialspoint.com/javascript/javascript_overview.htm" class="prog" id="link4">JavaScript</a> and
<a href="https://www.tutorialspoint.com/ruby/index.htm" class="prog" id="link5">C</a>;
as per online survey.</p>
<p class="prog">Programming Languages</p>
"""
>>>
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html_doc, 'html.parser')
>>>

उपरोक्त दस्तावेज़ के आधार पर, हम दस्तावेज़ के एक भाग से दूसरे भाग में जाने की कोशिश करेंगे।

नीचे जाना

HTML दस्तावेज़ के किसी भी टुकड़े में तत्व के महत्वपूर्ण टुकड़े टैग हैं, जिसमें अन्य टैग / तार (टैग के बच्चे) हो सकते हैं। सुंदर सूप नेविगेट करने और टैग के बच्चों पर पुनरावृति करने के लिए अलग-अलग तरीके प्रदान करता है।

टैग नामों का उपयोग करके नेविगेट करना

पार्स ट्री को खोजने का सबसे आसान तरीका है कि उसके नाम से टैग को खोजा जाए। यदि आप <head> टैग चाहते हैं, तो सूप का उपयोग करें। हेड -

>>> soup.head
<head>&t;title>Tutorials Point</title></head>
>>> soup.title
<title>Tutorials Point</title>

<Body> टैग में विशिष्ट टैग (जैसे पहले <b> टैग) पाने के लिए।

>>> soup.body.b
<b>The Biggest Online Tutorials Library, It's all Free</b>

एक विशेषता के रूप में टैग नाम का उपयोग करने से आपको उस नाम से केवल पहला टैग मिलेगा -

>>> soup.a
<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>

सभी टैग की विशेषता प्राप्त करने के लिए, आप find_all () विधि का उपयोग कर सकते हैं -

>>> soup.find_all("a")
[<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>, <a class="prog" href="https://www.tutorialspoint.com/cprogramming/index.htm" id="link2">C</a>, <a class="prog" href="https://www.tutorialspoint.com/python/index.htm" id="link3">Python</a>, <a class="prog" href="https://www.tutorialspoint.com/javascript/javascript_overview.htm" id="link4">JavaScript</a>, <a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm" id="link5">C</a>]>>> soup.find_all("a")
[<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>, <a class="prog" href="https://www.tutorialspoint.com/cprogramming/index.htm" id="link2">C</a>, <a class="prog" href="https://www.tutorialspoint.com/python/index.htm" id="link3">Python</a>, <a class="prog" href="https://www.tutorialspoint.com/javascript/javascript_overview.htm" id="link4">JavaScript</a>, <a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm" id="link5">C</a>]

। महाद्वीप और .children

हम एक सूची में टैग के बच्चों को इसके .contents से खोज सकते हैं -

>>> head_tag = soup.head
>>> head_tag
<head><title>Tutorials Point</title></head>
>>> Htag = soup.head
>>> Htag
<head><title>Tutorials Point</title></head>
>>>
>>> Htag.contents
[<title>Tutorials Point</title>
>>>
>>> Ttag = head_tag.contents[0]
>>> Ttag
<title>Tutorials Point</title>
>>> Ttag.contents
['Tutorials Point']

सुंदरसुपर ऑब्जेक्ट में ही बच्चे हैं। इस मामले में, <html> टैग ब्यूटीफुल ऑब्जेक्ट का बच्चा है -

>>> len(soup.contents)
2
>>> soup.contents[1].name
'html'

एक स्ट्रिंग में .contents नहीं है, क्योंकि इसमें कुछ भी नहीं हो सकता है -

>>> text = Ttag.contents[0]
>>> text.contents
self.__class__.__name__, attr))
AttributeError: 'NavigableString' object has no attribute 'contents'

उन्हें सूची के रूप में प्राप्त करने के बजाय, टैग के बच्चों तक पहुंचने के लिए .children जनरेटर का उपयोग करें -

>>> for child in Ttag.children:
print(child)
Tutorials Point

।वंशज

.Descendants विशेषता आपको टैग के सभी बच्चों पर पुनरावृत्ति करने की अनुमति देती है, पुनरावर्ती -

इसके प्रत्यक्ष बच्चे और इसके प्रत्यक्ष बच्चे और इसी तरह के बच्चे -

>>> for child in Htag.descendants:
print(child)
<title>Tutorials Point</title>
Tutorials Point

<Head> टैग में केवल एक बच्चा है, लेकिन इसके दो वंशज हैं: <शीर्षक> टैग और <शीर्षक> टैग का बच्चा। Beautifulsoup ऑब्जेक्ट का केवल एक सीधा बच्चा है (<html> टैग), लेकिन इसके पूरे वंशज हैं -

>>> len(list(soup.children))
2
>>> len(list(soup.descendants))
33

.string

यदि टैग में केवल एक ही बच्चा है, और वह बच्चा एक NavigableString है, तो बच्चे को .ring के रूप में उपलब्ध कराया जाता है।

>>> Ttag.string
'Tutorials Point'

यदि एक टैग का एकमात्र बच्चा दूसरा टैग है, और उस टैग में एक .string है, तो माता-पिता के टैग को उसी तरह माना जाता है जैसे कि उसका बच्चा।

>>> Htag.contents
[<title>Tutorials Point</title>]
>>>
>>> Htag.string
'Tutorials Point'

हालाँकि, यदि किसी टैग में एक से अधिक चीज़ें हैं, तो यह स्पष्ट नहीं है कि .string को क्या संदर्भित करना चाहिए, इसलिए .string को किसी के लिए भी परिभाषित नहीं किया गया है -

>>> print(soup.html.string)
None

.स्ट्रिंग और स्ट्रिपिंग_स्ट्रिंग्स

यदि टैग के अंदर एक से अधिक चीजें हैं, तो आप अभी भी केवल तार देख सकते हैं। .Strings जनरेटर का उपयोग करें -

>>> for string in soup.strings:
print(repr(string))
'\n'
'Tutorials Point'
'\n'
'\n'
"The Biggest Online Tutorials Library, It's all Free"
'\n'
'Top 5 most used Programming Languages are: \n'
'Java'
',\n'
'C'
',\n'
'Python'
',\n'
'JavaScript'
' and\n'
'C'
';\n \nas per online survey.'
'\n'
'Programming Languages'
'\n'

अतिरिक्त व्हाट्सएप को हटाने के लिए .stripped_strings जनरेटर का उपयोग करें -

>>> for string in soup.stripped_strings:
print(repr(string))
'Tutorials Point'
"The Biggest Online Tutorials Library, It's all Free"
'Top 5 most used Programming Languages are:'
'Java'
','
'C'
','
'Python'
','
'JavaScript'
'and'
'C'
';\n \nas per online survey.'
'Programming Languages'

ऊपर जा रहा है

"परिवार का पेड़" सादृश्य में, प्रत्येक टैग और प्रत्येक स्ट्रिंग में एक माता-पिता होते हैं: वह टैग जिसमें यह होता है:

.parent

तत्व के मूल तत्व तक पहुंचने के लिए, .parent विशेषता का उपयोग करें।

>>> Ttag = soup.title
>>> Ttag
<title>Tutorials Point</title>
>>> Ttag.parent
<head>title>Tutorials Point</title></head>

हमारे html_doc में, शीर्षक स्ट्रिंग में अपने माता-पिता हैं: <शीर्षक> टैग जिसमें यह शामिल है

>>> Ttag.string.parent
<title>Tutorials Point</title>

<-Html> जैसे शीर्ष-स्तरीय टैग का जनक सुंदरसुपे वस्तु है -

>>> htmltag = soup.html
>>> type(htmltag.parent)
<class 'bs4.BeautifulSoup'>

एक सुंदर वस्तु के .par को किसी के रूप में परिभाषित नहीं किया गया है -

>>> print(soup.parent)
None

.parents

सभी माता-पिता तत्वों पर पुनरावृति करने के लिए, .parents विशेषता का उपयोग करें।

>>> link = soup.a
>>> link
<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>
>>>
>>> for parent in link.parents:
if parent is None:
print(parent)
else:
print(parent.name)
p
body
html
[document]

बग़ल में जा रहे हैं

नीचे एक सरल दस्तावेज़ है -

>>> sibling_soup = BeautifulSoup("<a><b>TutorialsPoint</b><c><strong>The Biggest Online Tutorials Library, It's all Free</strong></b></a>")
>>> print(sibling_soup.prettify())
<html>
<body>
   <a>
      <b>
         TutorialsPoint
      </b>
      <c>
         <strong>
            The Biggest Online Tutorials Library, It's all Free
         </strong>
      </c>
   </a>
</body>
</html>

उपरोक्त डॉक्टर में, <b> और <c> टैग समान स्तर पर हैं और वे दोनों एक ही टैग के बच्चे हैं। दोनों <b> और <c> टैग भाई बहन हैं।

.next_sibling और। स्पष्ट। sibling

पृष्ठ तत्वों के बीच नेविगेट करने के लिए .next_sibling और .prepret_sibling का उपयोग करें जो पार्स ट्री के समान स्तर पर हैं:

>>> sibling_soup.b.next_sibling
<c><strong>The Biggest Online Tutorials Library, It's all Free</strong></c>
>>>
>>> sibling_soup.c.previous_sibling
<b>TutorialsPoint</b>

<B> टैग में a .next_sibling है, लेकिन नहीं .prepret_sibling, क्योंकि पेड़ के समान स्तर पर <b> टैग से पहले कुछ भी नहीं है, ऐसा ही मामला <c> टैग के साथ है।

>>> print(sibling_soup.b.previous_sibling)
None
>>> print(sibling_soup.c.next_sibling)
None

दो तार भाई-बहन नहीं हैं, क्योंकि उनके समान माता-पिता नहीं हैं।

>>> sibling_soup.b.string
'TutorialsPoint'
>>>
>>> print(sibling_soup.b.string.next_sibling)
None

.next_siblings और। स्पष्ट_सहायक

एक टैग के भाई-बहनों पर उपयोग करने के लिए .next_siblings और .prepret_siblings का उपयोग करें।

>>> for sibling in soup.a.next_siblings:
print(repr(sibling))
',\n'
<a class="prog" href="https://www.tutorialspoint.com/cprogramming/index.htm" id="link2">C</a>
',\n'
>a class="prog" href="https://www.tutorialspoint.com/python/index.htm" id="link3">Python</a>
',\n'
<a class="prog" href="https://www.tutorialspoint.com/javascript/javascript_overview.htm" id="link4">JavaScript</a>
' and\n'
<a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm"
id="link5">C</a>
';\n \nas per online survey.'
>>> for sibling in soup.find(id="link3").previous_siblings:
print(repr(sibling))
',\n'
<a class="prog" href="https://www.tutorialspoint.com/cprogramming/index.htm" id="link2">C</a>
',\n'
<a class="prog" href="https://www.tutorialspoint.com/java/java_overview.htm" id="link1">Java</a>
'Top 5 most used Programming Languages are: \n'

आगे और पीछे जा कर

अब हम अपने पिछले “html_doc” उदाहरण में पहले दो लाइनों पर वापस आते हैं -

&t;html><head><title>Tutorials Point</title></head>
<body>
<h4 class="tagLine"><b>The Biggest Online Tutorials Library, It's all Free</b></h4>

एक HTML पार्सर पात्रों के स्ट्रिंग से ऊपर ले जाता है और इसे "ओपन ए एचटीएमएल> टैग", "एक <हेड> टैग", "ओपन <शीर्षक> टैग", "एक स्ट्रिंग जोड़ें" जैसी घटनाओं की एक श्रृंखला में बदल देता है, "</ शीर्षक> टैग बंद करें", "</ सिर> टैग बंद करें", "एक <h4> टैग खोलें" और इतने पर। BeautifulSoup दस्तावेज़ के प्रारंभिक पार्स को फिर से संगठित करने के लिए विभिन्न तरीके प्रदान करता है।

.next_element और .prepret_element

एक टैग या स्ट्रिंग की .next_element विशेषता जो भी बाद में पार्स की गई थी। कभी-कभी यह .next_sibling के समान दिखता है, हालांकि यह पूरी तरह से समान नहीं है। नीचे हमारे "html_doc" उदाहरण दस्तावेज़ में अंतिम <a> टैग है।

>>> last_a_tag = soup.find("a", id="link5")
>>> last_a_tag
<a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm" id="link5">C</a>
>>> last_a_tag.next_sibling
';\n \nas per online survey.'

हालाँकि, उस <a> टैग का .next_element, वह चीज़ जो <a> टैग के तुरंत बाद पार्स की गई थी, वह उस वाक्य का शेष नहीं है: यह "C" शब्द है:

>>> last_a_tag.next_element
'C'

उपरोक्त व्यवहार इसलिए है क्योंकि मूल मार्कअप में, अर्धविराम से पहले "C" अक्षर दिखाई देता था। पार्सर को एक <a> टैग, फिर अक्षर "C", फिर समापन </a> टैग, फिर अर्धविराम और शेष वाक्य का सामना करना पड़ा। अर्धविराम उसी स्तर पर है जो <a> टैग के रूप में है, लेकिन "C" अक्षर पहले सामने आया था।

.Prepret_element विशेषता .next_element के बिल्कुल विपरीत है। यह किसी भी तत्व को इस एक के ठीक पहले पार्स किए जाने की ओर इशारा करता है।

>>> last_a_tag.previous_element
' and\n'
>>>
>>> last_a_tag.previous_element.next_element
<a class="prog" href="https://www.tutorialspoint.com/ruby/index.htm" id="link5">C</a>

.next_elements और .prepret_elements

हम इन पुनरावृत्तियों का उपयोग किसी तत्व को आगे और पीछे करने के लिए करते हैं।

>>> for element in last_a_tag.next_e lements:
print(repr(element))
'C'
';\n \nas per online survey.'
'\n'
<p class="prog">Programming Languages</p>
'Programming Languages'
'\n'