ซุปตาร์สวย - ซุปตาร์

ในตัวอย่างโค้ดก่อนหน้านี้เราแยกวิเคราะห์เอกสารผ่านตัวสร้างที่สวยงามโดยใช้วิธีสตริง อีกวิธีหนึ่งคือการส่งเอกสารผ่าน open filehandle

from bs4 import BeautifulSoup
with open("example.html") as fp:
   soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")

ขั้นแรกเอกสารจะถูกแปลงเป็น Unicode และเอนทิตี HTML จะถูกแปลงเป็นอักขระ Unicode: </p>

import bs4
html = '''<b>tutorialspoint</b>, <i>&web scraping &data science;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)

เอาต์พุต

<html><body><b>tutorialspoint</b>, <i>&web scraping &data science;</i></body></html>

จากนั้น BeautifulSoup จะแยกวิเคราะห์ข้อมูลโดยใช้ตัวแยกวิเคราะห์ HTML หรือคุณบอกให้แยกวิเคราะห์โดยใช้ตัวแยกวิเคราะห์ XML

โครงสร้างต้นไม้ HTML

ก่อนที่เราจะดูส่วนประกอบต่างๆของหน้า HTML ให้เราทำความเข้าใจโครงสร้างต้นไม้ HTML ก่อน

องค์ประกอบรากในแผนผังเอกสารคือ html ซึ่งสามารถมีพ่อแม่ลูกและพี่น้องและสิ่งนี้กำหนดโดยตำแหน่งในโครงสร้างต้นไม้ หากต้องการย้ายไปมาระหว่างองค์ประกอบ HTML แอตทริบิวต์และข้อความคุณต้องย้ายไปมาระหว่างโหนดในโครงสร้างต้นไม้ของคุณ

ให้เราสมมติว่าหน้าเว็บดังที่แสดงด้านล่าง -

ซึ่งแปลเป็นเอกสาร html ดังนี้ -

<html><head><title>TutorialsPoint</title></head><h1>Tutorialspoint Online Library</h1><p<<b>It's all Free</b></p></body></html>

ซึ่งหมายความว่าสำหรับเอกสาร html ด้านบนเรามีโครงสร้างต้นไม้ html ดังนี้ -