TIKA - सामग्री निष्कर्षण
टीका दिए गए पार्सर्स से सामग्री निकालने के लिए विभिन्न पार्सर पुस्तकालयों का उपयोग करता है। यह दिए गए दस्तावेज़ प्रकार को निकालने के लिए सही पार्सर चुनता है।
पार्सिंग दस्तावेजों के लिए, आमतौर पर टिके मुखौटा वर्ग के पार्सटॉस्ट्रिंग () पद्धति का उपयोग किया जाता है। नीचे बताए गए चरण पार्स करने की प्रक्रिया में शामिल हैं और इन्हें टीका पार्सरटोस्ट्रिंग () विधि द्वारा अमूर्त किया गया है।
पार्सिंग प्रक्रिया का सार -
प्रारंभ में जब हम टीका के लिए एक दस्तावेज पास करते हैं, तो वह इसके साथ उपलब्ध उपयुक्त प्रकार का पता लगाने वाले तंत्र का उपयोग करता है और दस्तावेज़ प्रकार का पता लगाता है।
दस्तावेज़ प्रकार ज्ञात होने के बाद, यह अपने पार्सर भंडार से एक उपयुक्त पार्सर चुनता है। पार्सर रिपॉजिटरी में कक्षाएं होती हैं जो बाहरी पुस्तकालयों का उपयोग करती हैं।
फिर दस्तावेज़ को उस पार्सर को चुनने के लिए पारित किया जाता है जो सामग्री को पार्स करेगा, पाठ को निकालेगा, और अपठनीय प्रारूपों के अपवाद भी फेंक देगा।
टीका का उपयोग करके सामग्री निकालना
नीचे दिया गया है कि टिके मुखौटा वर्ग का उपयोग कर एक फ़ाइल से पाठ निकालने का कार्यक्रम है -
import java.io.File;
import java.io.IOException;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.xml.sax.SAXException;
public class TikaExtraction {
public static void main(final String[] args) throws IOException, TikaException {
//Assume sample.txt is in your current directory
File file = new File("sample.txt");
//Instantiating Tika facade class
Tika tika = new Tika();
String filecontent = tika.parseToString(file);
System.out.println("Extracted Content: " + filecontent);
}
}
उपरोक्त कोड को TikaExtraction.java के रूप में सहेजें और कमांड प्रॉम्प्ट से चलाएं -
javac TikaExtraction.java
java TikaExtraction
नीचे दिए गए नमूने की सामग्री है।
Hi students welcome to tutorialspoint
यह आपको निम्न आउटपुट देता है -
Extracted Content: Hi students welcome to tutorialspoint
पार्सर इंटरफ़ेस का उपयोग करके सामग्री निकालना
टीका का पार्सर पैकेज कई इंटरफेस और कक्षाएं प्रदान करता है, जिनके उपयोग से हम एक पाठ दस्तावेज़ को पार्स कर सकते हैं। नीचे दिए गए ब्लॉक आरेख हैorg.apache.tika.parser पैकेज।
व्यक्तिगत रूप से संबंधित दस्तावेजों को पार्स करने के लिए कई पार्सर कक्षाएं उपलब्ध हैं, जैसे, पीडीएफ पार्सर, Mp3Passer, OfficeParser, आदि। ये सभी वर्ग पार्सर इंटरफ़ेस को लागू करते हैं।
CompositeParser
दिए गए आरेख में टीका के सामान्य-उद्देश्य पार्सर वर्गों को दिखाया गया है: CompositeParser तथा AutoDetectParser। चूंकि कंपोजिटपर्स वर्ग समग्र डिजाइन पैटर्न का अनुसरण करता है, इसलिए आप पार्सर इंस्टेंस के एक समूह का उपयोग एकल पार्सर के रूप में कर सकते हैं। कम्पोजिटपर्सर क्लास उन सभी वर्गों तक पहुंच की अनुमति देता है जो पार्सर इंटरफ़ेस को लागू करते हैं।
AutoDetectParser
यह कंपोजिटपैर्स का एक उपवर्ग है और यह स्वचालित प्रकार का पता लगाता है। इस कार्यक्षमता का उपयोग करते हुए, AutoDetectParser स्वचालित रूप से आने वाले दस्तावेजों को कंपोजिट कार्यप्रणाली का उपयोग करके उचित पार्सर कक्षाओं में भेजता है।
पार्स () विधि
ParseToString () के साथ, आप पार्सर इंटरफ़ेस के पार्स () विधि का भी उपयोग कर सकते हैं। इस विधि का प्रोटोटाइप नीचे दिखाया गया है।
parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)
निम्न तालिका उन चार वस्तुओं को सूचीबद्ध करती है जिन्हें यह पैरामीटर के रूप में स्वीकार करता है।
अनु क्रमांक। | वस्तु और विवरण |
---|---|
1 | InputStream stream कोई भी इनपुटस्ट्रीम ऑब्जेक्ट जिसमें फ़ाइल की सामग्री है |
2 | ContentHandler handler Tika इस हैंडलर को XHTML सामग्री के रूप में दस्तावेज़ पास करता है, उसके बाद SAX API का उपयोग करके दस्तावेज़ को संसाधित किया जाता है। यह एक दस्तावेज़ में सामग्री के कुशल पोस्टप्रोसेसिंग प्रदान करता है। |
3 | Metadata metadata मेटाडेटा ऑब्जेक्ट को स्रोत और दस्तावेज़ मेटाडेटा के लक्ष्य के रूप में उपयोग किया जाता है। |
4 | ParseContext context यह ऑब्जेक्ट उन मामलों में उपयोग किया जाता है जहां क्लाइंट एप्लिकेशन पार्सिंग प्रक्रिया को अनुकूलित करना चाहता है। |
उदाहरण
नीचे दिया गया एक उदाहरण है जो दिखाता है कि पार्स () पद्धति का उपयोग कैसे किया जाता है।
Step 1 -
पार्सर इंटरफ़ेस के पार्स () पद्धति का उपयोग करने के लिए, इस इंटरफ़ेस के कार्यान्वयन को प्रदान करने वाली कक्षाओं में से किसी को भी तत्काल।
PDF, Parsser, OfficeParser, XMLParser आदि जैसे अलग-अलग पार्सर कक्षाएं हैं। आप इनमें से किसी भी व्यक्तिगत दस्तावेज़ पार्सर का उपयोग कर सकते हैं। वैकल्पिक रूप से, आप या तो कंपोजिटपैर्सर या ऑटोडेक्टपेपर का उपयोग कर सकते हैं जो सभी पार्सर कक्षाओं का आंतरिक रूप से उपयोग करता है और एक उपयुक्त पार्सर का उपयोग करके दस्तावेज़ की सामग्री को निकालता है।
Parser parser = new AutoDetectParser();
(or)
Parser parser = new CompositeParser();
(or)
object of any individual parsers given in Tika Library
Step 2 -
हैंडलर क्लास ऑब्जेक्ट बनाएं। नीचे दिए गए तीन सामग्री हैंडलर हैं -
अनु क्रमांक। | कक्षा और विवरण |
---|---|
1 | BodyContentHandler यह वर्ग एक्सएचटीएमएल आउटपुट के मुख्य भाग को चुनता है और उस सामग्री को आउटपुट लेखक या आउटपुट स्ट्रीम में लिखता है। तब यह XHTML सामग्री को किसी अन्य सामग्री हैंडलर आवृत्ति पर पुनर्निर्देशित करता है। |
2 | LinkContentHandler यह वर्ग एक्सएचटीएमएल दस्तावेज़ के सभी एच-रेफ टैग का पता लगाता है और उन पर वेब क्रॉलर जैसे उपकरणों के उपयोग के लिए आगे बढ़ता है। |
3 | TeeContentHandler यह वर्ग एक साथ कई उपकरणों का उपयोग करने में मदद करता है। |
चूंकि हमारा लक्ष्य एक दस्तावेज़ से पाठ सामग्री निकालने के लिए है, बॉडी कॉन्टेंटहैंडलर को तुरंत दिखाए जैसा कि नीचे दिखाया गया है -
BodyContentHandler handler = new BodyContentHandler( );
Step 3 -
जैसा कि नीचे दिखाया गया है मेटाडेटा ऑब्जेक्ट बनाएं -
Metadata metadata = new Metadata();
Step 4 -
किसी भी इनपुट स्ट्रीम ऑब्जेक्ट को बनाएं, और अपनी फ़ाइल को पास करें जिसे इसे निकाला जाना चाहिए।
FileInputstream
फ़ाइल पथ को पैरामीटर के रूप में पास करके किसी फ़ाइल ऑब्जेक्ट को त्वरित करें और इस ऑब्जेक्ट को FileInputStream क्लास कंस्ट्रक्टर के पास दें।
Note - फ़ाइल ऑब्जेक्ट को दिए गए पथ में रिक्त स्थान नहीं होना चाहिए।
इन इनपुट स्ट्रीम क्लासेस के साथ समस्या यह है कि वे रैंडम एक्सेस रीड्स का समर्थन नहीं करते हैं, जिन्हें कुछ फ़ाइल स्वरूपों को कुशलतापूर्वक संसाधित करना आवश्यक है। इस समस्या को हल करने के लिए, Tika TikaInputStream प्रदान करता है।
File file = new File(filepath)
FileInputStream inputstream = new FileInputStream(file);
(or)
InputStream stream = TikaInputStream.get(new File(filename));
Step 5 -
एक पार्स संदर्भ वस्तु बनाएं जैसा कि नीचे दिखाया गया है -
ParseContext context =new ParseContext();
Step 6 -
पार्सर ऑब्जेक्ट को त्वरित करें, पार्स विधि को लागू करें, और आवश्यक सभी वस्तुओं को पास करें, जैसा कि नीचे दिए गए प्रोटोटाइप में दिखाया गया है -
parser.parse(inputstream, handler, metadata, context);
नीचे दिए गए विषय में पार्सर इंटरफ़ेस का उपयोग करके सामग्री निष्कर्षण का कार्यक्रम है -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class ParserExtraction {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//Assume sample.txt is in your current directory
File file = new File("sample.txt");
//parse method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//parsing the file
parser.parse(inputstream, handler, metadata, context);
System.out.println("File content : " + Handler.toString());
}
}
उपरोक्त कोड को ParserExtraction.java के रूप में सहेजें और कमांड प्रॉम्प्ट से चलाएं -
javac ParserExtraction.java
java ParserExtraction
नीचे दिए गए नमूने की सामग्री है
Hi students welcome to tutorialspoint
यदि आप उपरोक्त कार्यक्रम को निष्पादित करते हैं, तो यह आपको निम्नलिखित आउटपुट देगा -
File content : Hi students welcome to tutorialspoint