Beautiful Soup - Souping the Page

Dalam contoh kode sebelumnya, kami mengurai dokumen melalui konstruktor cantik menggunakan metode string. Cara lain adalah dengan melewatkan dokumen melalui filehandle terbuka.

from bs4 import BeautifulSoup
with open("example.html") as fp:
   soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")

Pertama, dokumen diubah menjadi Unicode, dan entitas HTML diubah menjadi karakter Unicode: </p>

import bs4
html = '''<b>tutorialspoint</b>, <i>&web scraping &data science;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)

Keluaran

<html><body><b>tutorialspoint</b>, <i>&web scraping &data science;</i></body></html>

BeautifulSoup kemudian mem-parsing data menggunakan parser HTML atau Anda secara eksplisit memerintahkannya untuk mengurai menggunakan XML parser.

Struktur pohon HTML

Sebelum kita melihat ke berbagai komponen halaman HTML, mari kita terlebih dahulu memahami struktur pohon HTML.

Elemen root di pohon dokumen adalah html, yang dapat memiliki orang tua, anak, dan saudara kandung dan ini ditentukan oleh posisinya dalam struktur pohon. Untuk berpindah di antara elemen HTML, atribut, dan teks, Anda harus berpindah antar node dalam struktur pohon Anda.

Mari kita anggap halaman web seperti yang ditunjukkan di bawah ini -

Yang diterjemahkan menjadi dokumen html sebagai berikut -

<html><head><title>TutorialsPoint</title></head><h1>Tutorialspoint Online Library</h1><p<<b>It's all Free</b></p></body></html>

Yang berarti, untuk dokumen html di atas, kami memiliki struktur pohon html sebagai berikut -