सुंदर सूप - पृष्ठ को सूप देना
पिछले कोड उदाहरण में, हम एक स्ट्रिंग विधि का उपयोग करके सुंदर कंस्ट्रक्टर के माध्यम से दस्तावेज़ को पार्स करते हैं। एक अन्य तरीका यह है कि दस्तावेज़ को ओपन फाइलहैंडल के माध्यम से पास किया जाए।
from bs4 import BeautifulSoup
with open("example.html") as fp:
soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")
पहले दस्तावेज़ को यूनिकोड में परिवर्तित किया जाता है, और HTML संस्थाओं को यूनिकोड वर्णों में परिवर्तित किया जाता है: </ p>
import bs4
html = '''<b>tutorialspoint</b>, <i>&web scraping &data science;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)
उत्पादन
<html><body><b>tutorialspoint</b>, <i>&web scraping &data science;</i></body></html>
फिर सुंदरसोच HTML पार्सर का उपयोग करके डेटा को पार्स करता है या आप इसे स्पष्ट रूप से XML पार्सर का उपयोग करके पार्स करने के लिए कहते हैं।
HTML ट्री संरचना
इससे पहले कि हम HTML पेज के विभिन्न घटकों को देखें, आइए हम पहले HTML ट्री संरचना को समझें।
दस्तावेज़ ट्री में मूल तत्व html है, जिसमें माता-पिता, बच्चे और भाई-बहन हो सकते हैं और यह पेड़ की संरचना में इसकी स्थिति से निर्धारित होता है। HTML तत्वों, विशेषताओं और पाठ के बीच स्थानांतरित करने के लिए, आपको अपनी ट्री संरचना में नोड्स के बीच जाना होगा।
मान लें कि वेबपृष्ठ नीचे दिखाया गया है -
जो HTML डॉक्युमेंट में अनुवाद करता है -
<html><head><title>TutorialsPoint</title></head><h1>Tutorialspoint Online Library</h1><p<<b>It's all Free</b></p></body></html>
जिसका सीधा सा मतलब है, HTML डॉक्युमेंट के लिए, हमारे पास एक html ट्री स्ट्रक्चर इस प्रकार है -