Python - Membaca Halaman HTML

perpustakaan yang dikenal sebagai beautifulsoup. Dengan menggunakan pustaka ini, kita dapat mencari nilai tag html dan mendapatkan data spesifik seperti judul halaman dan daftar header di halaman.

Pasang Beautifulsoup

Gunakan manajer paket Anaconda untuk menginstal paket yang diperlukan dan paket dependennya.

conda install Beaustifulsoap

Membaca file HTML

Pada contoh di bawah ini kami membuat permintaan ke url untuk dimuat ke lingkungan python. Kemudian gunakan parameter parser html untuk membaca seluruh file html. Selanjutnya, kami mencetak beberapa baris pertama dari halaman html.

import urllib2
from bs4 import BeautifulSoup

# Fetch the html file
response = urllib2.urlopen('http://tutorialspoint.com/python/python_overview.htm')
html_doc = response.read()

# Parse the html file
soup = BeautifulSoup(html_doc, 'html.parser')

# Format the parsed html file
strhtm = soup.prettify()

# Print the first few characters
print (strhtm[:225])

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

<!DOCTYPE html>
<!--[if IE 8]><html class="ie ie8"> <![endif]-->
<!--[if IE 9]><html class="ie ie9"> <![endif]-->
<!--[if gt IE 9]><!-->
<html>
 <!--<![endif]-->
 <head>
  <!-- Basic -->
  <meta charset="utf-8"/>
  <title>

Mengekstrak Nilai Tag

Kita dapat mengekstrak nilai tag dari contoh pertama tag menggunakan kode berikut.

import urllib2
from bs4 import BeautifulSoup

response = urllib2.urlopen('http://tutorialspoint.com/python/python_overview.htm')
html_doc = response.read()

soup = BeautifulSoup(html_doc, 'html.parser')

print (soup.title)
print(soup.title.string)
print(soup.a.string)
print(soup.b.string)

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

Python Overview
Python Overview
None
Python is Interpreted

Mengekstrak Semua Tag

Kita dapat mengekstrak nilai tag dari semua contoh tag menggunakan kode berikut.

import urllib2
from bs4 import BeautifulSoup

response = urllib2.urlopen('http://tutorialspoint.com/python/python_overview.htm')
html_doc = response.read()
soup = BeautifulSoup(html_doc, 'html.parser')

for x in soup.find_all('b'): print(x.string)

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

Python is Interpreted
Python is Interactive
Python is Object-Oriented
Python is a Beginner's Language
Easy-to-learn
Easy-to-read
Easy-to-maintain
A broad standard library
Interactive Mode
Portable
Extendable
Databases
GUI Programming
Scalable