पायथन - HTML पेज पढ़ना
पुस्तकालय beautifulsoup के रूप में जाना जाता है। इस लाइब्रेरी का उपयोग करके, हम html टैग के मूल्यों की खोज कर सकते हैं और पेज का शीर्षक और पेज में हेडर की सूची जैसे विशिष्ट डेटा प्राप्त कर सकते हैं।
ब्यूटीफुल स्थापित करें
आवश्यक पैकेज और उसके आश्रित पैकेजों को स्थापित करने के लिए एनाकोंडा पैकेज मैनेजर का उपयोग करें।
conda install Beaustifulsoap
HTML फ़ाइल पढ़ना
नीचे दिए गए उदाहरण में हम एक आग्रह करते हैं कि एक अजगर को पर्यावरण में लोड किया जाए। फिर पूरे HTML फ़ाइल को पढ़ने के लिए html parser पैरामीटर का उपयोग करें। इसके बाद, हम html पेज की पहली कुछ पंक्तियों को प्रिंट करते हैं।
import urllib2
from bs4 import BeautifulSoup
# Fetch the html file
response = urllib2.urlopen('http://tutorialspoint.com/python/python_overview.htm')
html_doc = response.read()
# Parse the html file
soup = BeautifulSoup(html_doc, 'html.parser')
# Format the parsed html file
strhtm = soup.prettify()
# Print the first few characters
print (strhtm[:225])
जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।
<!DOCTYPE html>
<!--[if IE 8]><html class="ie ie8"> <![endif]-->
<!--[if IE 9]><html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!-->
<!-- Basic -->
<meta charset="utf-8"/>
टैग मूल्य निकालना
हम निम्नलिखित कोड का उपयोग करके टैग के पहले उदाहरण से टैग मूल्य निकाल सकते हैं।
import urllib2
from bs4 import BeautifulSoup
response = urllib2.urlopen('http://tutorialspoint.com/python/python_overview.htm')
html_doc = response.read()
soup = BeautifulSoup(html_doc, 'html.parser')
print (soup.title)
जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।
Python Overview
Python Overview
Python is Interpreted
सभी टैग निकालना
हम निम्नलिखित कोड का उपयोग करके टैग के सभी उदाहरणों से टैग मूल्य निकाल सकते हैं।
import urllib2
from bs4 import BeautifulSoup
response = urllib2.urlopen('http://tutorialspoint.com/python/python_overview.htm')
html_doc = response.read()
soup = BeautifulSoup(html_doc, 'html.parser')
for x in soup.find_all('b'): print(x.string)
जब हम उपरोक्त कोड निष्पादित करते हैं, तो यह निम्नलिखित परिणाम उत्पन्न करता है।
Python is Interpreted
Python is Interactive
Python is Object-Oriented
Python is a Beginner's Language
A broad standard library
Interactive Mode
GUI Programming