jsoup - Đang tải từ tệp
Ví dụ sau sẽ giới thiệu việc tìm nạp một HTML từ đĩa bằng một tệp và sau đó tìm dữ liệu của nó.
Cú pháp
String url = "http://www.google.com";
Document document = Jsoup.connect(url).get();
Ở đâu
document - đối tượng tài liệu đại diện cho HTML DOM.
Jsoup - lớp chính để kết nối url và lấy Chuỗi HTML.
url - url của trang html cần tải.
Sự miêu tả
Phương thức connect (url) tạo kết nối với url và phương thức get () trả về html của url được yêu cầu.
Thí dụ
Tạo chương trình java sau bằng cách sử dụng bất kỳ trình soạn thảo nào bạn chọn trong C: /> jsoup.
JsoupTester.java
import java.io.File;
import java.io.IOException;
import java.net.URISyntaxException;
import java.net.URL;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class JsoupTester {
public static void main(String[] args) throws IOException, URISyntaxException {
URL path = ClassLoader.getSystemResource("test.htm");
File input = new File(path.toURI());
Document document = Jsoup.parse(input, "UTF-8");
System.out.println(document.title());
}
}
test.htm
Tạo tệp test.htm sau trong thư mục C: \ jsoup.
<html>
<head>
<title>Sample Title</title>
</head>
<body>
<p>Sample Content</p>
</body>
</html>
Xác minh kết quả
Biên dịch lớp bằng cách sử dụng javac trình biên dịch như sau:
C:\jsoup>javac JsoupTester.java
Bây giờ hãy chạy JsoupTester để xem kết quả.
C:\jsoup>java JsoupTester
Xem kết quả.
Sample Title