jsoup - Đang tải từ tệp

Ví dụ sau sẽ giới thiệu việc tìm nạp một HTML từ đĩa bằng một tệp và sau đó tìm dữ liệu của nó.

Cú pháp

String url = "http://www.google.com";
Document document = Jsoup.connect(url).get();

Ở đâu

  • document - đối tượng tài liệu đại diện cho HTML DOM.

  • Jsoup - lớp chính để kết nối url và lấy Chuỗi HTML.

  • url - url của trang html cần tải.

Sự miêu tả

Phương thức connect (url) tạo kết nối với url và phương thức get () trả về html của url được yêu cầu.

Thí dụ

Tạo chương trình java sau bằng cách sử dụng bất kỳ trình soạn thảo nào bạn chọn trong C: /> jsoup.

JsoupTester.java

import java.io.File;
import java.io.IOException;
import java.net.URISyntaxException;
import java.net.URL;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class JsoupTester {
   public static void main(String[] args) throws IOException, URISyntaxException {
      
      URL path = ClassLoader.getSystemResource("test.htm");
      File input = new File(path.toURI());
      Document document = Jsoup.parse(input, "UTF-8");
      System.out.println(document.title());
   }
}

test.htm

Tạo tệp test.htm sau trong thư mục C: \ jsoup.

<html>
   <head>
      <title>Sample Title</title>
   </head>
   <body>
      <p>Sample Content</p>
   </body>
</html>

Xác minh kết quả

Biên dịch lớp bằng cách sử dụng javac trình biên dịch như sau:

C:\jsoup>javac JsoupTester.java

Bây giờ hãy chạy JsoupTester để xem kết quả.

C:\jsoup>java JsoupTester

Xem kết quả.

Sample Title