Belle soupe - Soupe la page
Dans l'exemple de code précédent, nous analysons le document via un beau constructeur à l'aide d'une méthode de chaîne. Une autre méthode consiste à faire passer le document via un descripteur de fichier ouvert.
from bs4 import BeautifulSoup
with open("example.html") as fp:
soup = BeautifulSoup(fp)
soup = BeautifulSoup("<html>data</html>")
Tout d'abord, le document est converti en Unicode, et les entités HTML sont converties en caractères Unicode: </p>
import bs4
html = '''<b>tutorialspoint</b>, <i>&web scraping &data science;</i>'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)
Production
<html><body><b>tutorialspoint</b>, <i>&web scraping &data science;</i></body></html>
BeautifulSoup analyse ensuite les données à l'aide d'un analyseur HTML ou vous lui dites explicitement d'analyser à l'aide d'un analyseur XML.
Structure de l'arborescence HTML
Avant d'examiner les différents composants d'une page HTML, commençons par comprendre l'arborescence HTML.
L'élément racine dans l'arborescence du document est le html, qui peut avoir des parents, des enfants et des frères et sœurs et cela dépend de sa position dans l'arborescence. Pour vous déplacer parmi les éléments HTML, les attributs et le texte, vous devez vous déplacer entre les nœuds de votre arborescence.
Supposons que la page Web soit comme indiqué ci-dessous -
Ce qui se traduit par un document html comme suit -
<html><head><title>TutorialsPoint</title></head><h1>Tutorialspoint Online Library</h1><p<<b>It's all Free</b></p></body></html>
Ce qui signifie simplement que pour le document html ci-dessus, nous avons une arborescence html comme suit -