PDFBox - Membaca Teks
Pada bab sebelumnya, kita telah melihat bagaimana menambahkan teks ke dokumen PDF yang sudah ada. Pada bab ini, kita akan membahas bagaimana membaca teks dari dokumen PDF yang sudah ada.
Mengekstrak Teks dari Dokumen PDF yang Ada
Mengekstrak teks adalah salah satu fitur utama pustaka kotak PDF. Anda dapat mengekstrak teks menggunakangetText() metode dari PDFTextStripperkelas. Kelas ini mengekstrak semua teks dari dokumen PDF yang diberikan.
Berikut adalah langkah-langkah untuk mengekstrak teks dari dokumen PDF yang sudah ada.
Langkah 1: Memuat Dokumen PDF yang Ada
Muat dokumen PDF yang ada menggunakan metode statis load() dari PDDocumentkelas. Metode ini menerima objek file sebagai parameter, karena ini adalah metode statis Anda dapat memanggilnya menggunakan nama kelas seperti yang ditunjukkan di bawah ini.
File file = new File("path of the document")
PDDocument document = PDDocument.load(file);
Langkah 2: Buat instance Kelas PDFTextStripper
Itu PDFTextStripper class menyediakan metode untuk mengambil teks dari dokumen PDF oleh karena itu, buat instance class ini seperti yang ditunjukkan di bawah ini.
PDFTextStripper pdfStripper = new PDFTextStripper();
Langkah 3: Mengambil Teks
Anda dapat membaca / mengambil konten halaman dari dokumen PDF menggunakan getText() metode dari PDFTextStripperkelas. Untuk metode ini Anda perlu meneruskan objek dokumen sebagai parameter. Metode ini mengambil teks dalam dokumen tertentu dan mengembalikannya dalam bentuk objek String.
String text = pdfStripper.getText(document);
Langkah 4: Menutup Dokumen
Terakhir, tutup dokumen menggunakan close() metode kelas PDDocument seperti yang ditunjukkan di bawah ini.
document.close();
Contoh
Misalkan, kami memiliki dokumen PDF dengan beberapa teks di dalamnya seperti yang ditunjukkan di bawah ini.
Contoh ini menunjukkan cara membaca teks dari dokumen PDF yang disebutkan di atas. Di sini, kami akan membuat program Java dan memuat dokumen PDF bernamanew.pdf, yang disimpan di jalan C:/PdfBox_Examples/. Simpan kode ini dalam file dengan namaReadingText.java.
import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class ReadingText {
public static void main(String args[]) throws IOException {
//Loading an existing document
File file = new File("C:/PdfBox_Examples/new.pdf");
PDDocument document = PDDocument.load(file);
//Instantiate PDFTextStripper class
PDFTextStripper pdfStripper = new PDFTextStripper();
//Retrieving text from PDF document
String text = pdfStripper.getText(document);
System.out.println(text);
//Closing the document
document.close();
}
}
Kompilasi dan jalankan file Java yang disimpan dari command prompt menggunakan perintah berikut.
javac ReadingText.java
java ReadingText
Setelah dieksekusi, program di atas mengambil teks dari dokumen PDF yang diberikan dan menampilkannya seperti yang ditunjukkan di bawah ini.
This is an example of adding text to a page in the pdf document. we can add as many lines
as we want like this using the ShowText() method of the ContentStream class.