PDFBox-텍스트 읽기
이전 장에서 기존 PDF 문서에 텍스트를 추가하는 방법을 살펴 보았습니다. 이 장에서는 기존 PDF 문서에서 텍스트를 읽는 방법에 대해 설명합니다.
기존 PDF 문서에서 텍스트 추출
텍스트 추출은 PDF 상자 라이브러리의 주요 기능 중 하나입니다. 다음을 사용하여 텍스트를 추출 할 수 있습니다.getText() 의 방법 PDFTextStripper수업. 이 클래스는 주어진 PDF 문서에서 모든 텍스트를 추출합니다.
다음은 기존 PDF 문서에서 텍스트를 추출하는 단계입니다.
1 단계 : 기존 PDF 문서로드
정적 방법을 사용하여 기존 PDF 문서로드 load() 의 PDDocument수업. 이 메서드는 파일 개체를 매개 변수로 받아들입니다. 이것은 정적 메서드이므로 아래와 같이 클래스 이름을 사용하여 호출 할 수 있습니다.
File file = new File("path of the document")
PDDocument document = PDDocument.load(file);
2 단계 : PDFTextStripper 클래스 인스턴스화
그만큼 PDFTextStripper class는 PDF 문서에서 텍스트를 검색하는 메서드를 제공하므로 아래와 같이이 클래스를 인스턴스화합니다.
PDFTextStripper pdfStripper = new PDFTextStripper();
3 단계 : 텍스트 검색
PDF 문서에서 페이지 내용을 읽고 검색 할 수 있습니다. getText() 의 방법 PDFTextStripper수업. 이 메서드에 문서 개체를 매개 변수로 전달해야합니다. 이 메소드는 주어진 문서에서 텍스트를 검색하여 String 객체의 형태로 반환합니다.
String text = pdfStripper.getText(document);
4 단계 : 문서 닫기
마지막으로 close() 아래와 같이 PDDocument 클래스의 메서드.
document.close();
예
아래와 같이 텍스트가 포함 된 PDF 문서가 있다고 가정합니다.
이 예제는 위에서 언급 한 PDF 문서에서 텍스트를 읽는 방법을 보여줍니다. 여기서는 Java 프로그램을 만들고 PDF 문서를로드합니다.new.pdf, 경로에 저장됩니다. C:/PdfBox_Examples/. 이 코드를 이름이있는 파일에 저장ReadingText.java.
import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class ReadingText {
public static void main(String args[]) throws IOException {
//Loading an existing document
File file = new File("C:/PdfBox_Examples/new.pdf");
PDDocument document = PDDocument.load(file);
//Instantiate PDFTextStripper class
PDFTextStripper pdfStripper = new PDFTextStripper();
//Retrieving text from PDF document
String text = pdfStripper.getText(document);
System.out.println(text);
//Closing the document
document.close();
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac ReadingText.java
java ReadingText
실행시 위 프로그램은 주어진 PDF 문서에서 텍스트를 검색하여 아래와 같이 표시합니다.
This is an example of adding text to a page in the pdf document. we can add as many lines
as we want like this using the ShowText() method of the ContentStream class.