PDFBox - पाठ पढ़ना

पिछले अध्याय में, हमने देखा है कि मौजूदा पीडीएफ दस्तावेज़ में पाठ कैसे जोड़ा जाए। इस अध्याय में, हम चर्चा करेंगे कि मौजूदा पीडीएफ दस्तावेज़ से पाठ कैसे पढ़ें।

मौजूदा पीडीएफ दस्तावेज़ से पाठ निकालना

पाठ निकालना पीडीएफ बॉक्स लाइब्रेरी की मुख्य विशेषताओं में से एक है। आप पाठ का उपयोग करके निकाल सकते हैंgetText() की विधि PDFTextStripperकक्षा। यह वर्ग दिए गए पीडीएफ दस्तावेज़ से सभी पाठ को निकालता है।

मौजूदा PDF दस्तावेज़ से पाठ निकालने के चरण निम्नलिखित हैं।

चरण 1: एक मौजूदा पीडीएफ दस्तावेज़ लोड हो रहा है

स्थिर पद्धति का उपयोग करके एक मौजूदा पीडीएफ दस्तावेज़ लोड करें load() का PDDocumentकक्षा। यह विधि एक फ़ाइल ऑब्जेक्ट को एक पैरामीटर के रूप में स्वीकार करती है, क्योंकि यह एक स्थिर विधि है जिसे आप नीचे दिखाए गए अनुसार वर्ग नाम का उपयोग करके इसे लागू कर सकते हैं।

File file = new File("path of the document") 
PDDocument document = PDDocument.load(file);

चरण 2: तुरंत PDFTextStripper वर्ग

PDFTextStripper क्लास एक पीडीएफ दस्तावेज़ से पाठ को पुनः प्राप्त करने के तरीके प्रदान करता है, इसलिए इस कक्षा को नीचे दिखाए गए अनुसार तुरंत लिखें।

PDFTextStripper pdfStripper = new PDFTextStripper();

चरण 3: पाठ को पुनः प्राप्त करना

आप पीडीएफ दस्तावेज़ से किसी पृष्ठ की सामग्री को पढ़ / प्राप्त कर सकते हैं getText() की विधि PDFTextStripperकक्षा। इस विधि के लिए आपको एक पैरामीटर के रूप में दस्तावेज़ ऑब्जेक्ट को पास करना होगा। यह विधि किसी दिए गए दस्तावेज़ में पाठ को पुनः प्राप्त करती है और इसे स्ट्रिंग ऑब्जेक्ट के रूप में वापस करती है।

String text = pdfStripper.getText(document);

चरण 4: दस्तावेज़ को बंद करना

अंत में, दस्तावेज़ का उपयोग करके बंद करें close() PDDocument वर्ग की विधि जैसा कि नीचे दिखाया गया है।

document.close();

उदाहरण

मान लीजिए, हमारे पास एक पीडीएफ दस्तावेज़ है जिसमें कुछ पाठ हैं जैसा कि नीचे दिखाया गया है।

यह उदाहरण दर्शाता है कि ऊपर उल्लिखित पीडीएफ दस्तावेज़ से पाठ को कैसे पढ़ा जाए। यहां, हम एक जावा प्रोग्राम बनाएंगे और एक पीडीएफ नाम का डॉक्यूमेंट लोड करेंगेnew.pdf, जो मार्ग में बचा है C:/PdfBox_Examples/। इस कोड को नाम वाली फ़ाइल में सहेजेंReadingText.java

import java.io.File;
import java.io.IOException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class ReadingText {

   public static void main(String args[]) throws IOException {

      //Loading an existing document
      File file = new File("C:/PdfBox_Examples/new.pdf");
      PDDocument document = PDDocument.load(file);

      //Instantiate PDFTextStripper class
      PDFTextStripper pdfStripper = new PDFTextStripper();

      //Retrieving text from PDF document
      String text = pdfStripper.getText(document);
      System.out.println(text);

      //Closing the document
      document.close();

   }
}

निम्न आदेशों का उपयोग करके कमांड प्रॉम्प्ट से सहेजी गई जावा फ़ाइल को संकलित करें और निष्पादित करें।

javac ReadingText.java 
java ReadingText

निष्पादन के बाद, उपरोक्त कार्यक्रम दिए गए पीडीएफ दस्तावेज़ से पाठ को पुनः प्राप्त करता है और इसे नीचे दिखाए अनुसार प्रदर्शित करता है।

This is an example of adding text to a page in the pdf document. we can add as many lines
as we want like this using the ShowText() method of the ContentStream class.