jsoup - Extraire le HTML
L'exemple suivant montrera l'utilisation de méthodes pour obtenir du HTML interne et du HTML externe après avoir analysé une chaîne HTML dans un objet Document.
Syntaxe
Document document = Jsoup.parse(html);
Element link = document.select("a").first();
System.out.println("Outer HTML: " + link.outerHtml());
System.out.println("Inner HTML: " + link.html());
Où
document - l'objet document représente le DOM HTML.
Jsoup - classe principale pour analyser la chaîne HTML donnée.
html - Chaîne HTML.
link - L'objet Element représente l'élément de nœud html représentant la balise d'ancrage.
link.outerHtml() - La méthode externalHtml () récupère l'élément html complet.
link.html() - La méthode html () récupère l'élément html interne.
La description
L'objet Element représente un élément dom et fournit diverses méthodes pour obtenir le code HTML d'un élément dom.
Exemple
Créez le programme java suivant en utilisant n'importe quel éditeur de votre choix dans disons C: /> jsoup.
JsoupTester.java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class JsoupTester {
public static void main(String[] args) {
String html = "<html><head><title>Sample Title</title></head>"
+ "<body>"
+ "<p>Sample Content</p>"
+ "<div id='sampleDiv'><a href='www.google.com'>Google</a>"
+ "<h3><a>Sample</a><h3>"
+"</div>"
+"</body></html>";
Document document = Jsoup.parse(html);
//a with href
Element link = document.select("a").first();
System.out.println("Outer HTML: " + link.outerHtml());
System.out.println("Inner HTML: " + link.html());
}
}
Vérifier le résultat
Compilez la classe en utilisant javac compilateur comme suit:
C:\jsoup>javac JsoupTester.java
Exécutez maintenant le JsoupTester pour voir le résultat.
C:\jsoup>java JsoupTester
Voyez le résultat.
Outer HTML: <a href="www.google.com">Google</a>
Inner HTML: Google