TIKA - डॉक्यूमेंट टाइप डिटेक्शन

MIME मानक

दस्तावेज़ प्रकारों की पहचान के लिए बहुउद्देशीय इंटरनेट मेल एक्सटेंशन (MIME) मानक सर्वोत्तम उपलब्ध मानक हैं। इन मानकों का ज्ञान आंतरिक बातचीत के दौरान ब्राउज़र की मदद करता है।

जब भी ब्राउज़र एक मीडिया फ़ाइल का सामना करता है, तो वह अपनी सामग्री प्रदर्शित करने के लिए इसके साथ उपलब्ध एक संगत सॉफ़्टवेयर चुनता है। यदि इसमें किसी विशेष मीडिया फ़ाइल को चलाने के लिए कोई उपयुक्त एप्लिकेशन नहीं है, तो यह उपयोगकर्ता को इसके लिए उपयुक्त प्लगइन सॉफ़्टवेयर प्राप्त करने की सलाह देता है।

Tika में टाइप डिटेक्शन

टीका MIME में उपलब्ध कराए गए सभी इंटरनेट मीडिया प्रकारों का समर्थन करता है। जब भी किसी फ़ाइल को Tika से गुजारा जाता है, तो वह फ़ाइल और उसके दस्तावेज़ प्रकार का पता लगा लेती है। मीडिया प्रकारों का पता लगाने के लिए, टीका आंतरिक रूप से निम्नलिखित तंत्र का उपयोग करता है।

फाइल एक्सटेंशन्स

फ़ाइल एक्सटेंशन की जाँच एक फ़ाइल के प्रारूप का पता लगाने के लिए सबसे सरल और सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। कई एप्लिकेशन और ऑपरेटिंग सिस्टम इन एक्सटेंशन के लिए समर्थन प्रदान करते हैं। नीचे दिखाए गए कुछ ज्ञात फ़ाइल प्रकारों का विस्तार है।

फ़ाइल का नाम extention
छवि .jpg
ऑडियो ।एमपी 3
जावा संग्रह फ़ाइल .jar
जावा वर्ग फ़ाइल ।कक्षा

सामग्री-प्रकार संकेत

जब भी आप डेटाबेस से किसी फ़ाइल को पुनः प्राप्त करते हैं या किसी अन्य दस्तावेज़ में संलग्न करते हैं, तो आप फ़ाइल का नाम या एक्सटेंशन खो सकते हैं। ऐसे मामलों में, फ़ाइल के साथ आपूर्ति की जाने वाली मेटाडेटा का उपयोग फ़ाइल एक्सटेंशन का पता लगाने के लिए किया जाता है।

मैजिक बाइट

किसी फ़ाइल के कच्चे बाइट्स का अवलोकन करना, आप प्रत्येक फ़ाइल के लिए कुछ अद्वितीय वर्ण पैटर्न पा सकते हैं। कुछ फाइलों में विशेष बाइट उपसर्ग होते हैं जिन्हें कहा जाता हैmagic bytes फ़ाइल प्रकार की पहचान करने के उद्देश्य से एक फ़ाइल में विशेष रूप से बनाया और शामिल किया गया है

उदाहरण के लिए, आप एक CA फ़ाइल में CA FE BA BE (हेक्साडेसिमल प्रारूप) और एक पीडीएफ फाइल में पीडीएफ (ASCII प्रारूप) पा सकते हैं। Tika इस जानकारी का उपयोग फाइल के मीडिया प्रकार की पहचान करने के लिए करता है।

चरित्र एनकोडिंग

विभिन्न प्रकार के चरित्र एन्कोडिंग का उपयोग करके सादे पाठ के साथ फाइल एन्कोडेड हैं। यहां मुख्य चुनौती फाइलों में प्रयुक्त चरित्र एन्कोडिंग के प्रकार की पहचान करना है। Tika चरित्र एन्कोडिंग तकनीकों का अनुसरण करता हैBom markers तथा Byte Frequencies सादे पाठ सामग्री द्वारा उपयोग किए जाने वाले एन्कोडिंग सिस्टम की पहचान करना।

XML रूट अक्षर

XML दस्तावेज़ों का पता लगाने के लिए, Tika xml दस्तावेज़ों को पार्स करता है और उन रूट एलीमेंट्स, नेमस्पेस, और संदर्भित स्कीमा जैसी जानकारी को निकालता है, जहाँ से सही मीडिया प्रकार की फाइलें मिल सकती हैं।

फेस क्लास का उपयोग करके डिटेक्शन टाइप करें

detect()दस्तावेज़ प्रकार का पता लगाने के लिए मुखौटा वर्ग की विधि का उपयोग किया जाता है। यह विधि एक फ़ाइल को इनपुट के रूप में स्वीकार करती है। नीचे दिखाया गया टीका मुखौटा वर्ग के साथ दस्तावेज़ प्रकार का पता लगाने के लिए एक उदाहरण कार्यक्रम है।

import java.io.File;

import org.apache.tika.Tika;

public class Typedetection {

   public static void main(String[] args) throws Exception {

      //assume example.mp3 is in your current directory
      File file = new File("example.mp3");//
      
      //Instantiating tika facade class 
      Tika tika = new Tika();
      
      //detecting the file type using detect method
      String filetype = tika.detect(file);
      System.out.println(filetype);
   }
}

उपरोक्त कोड को TypeDetection.java के रूप में सहेजें और इसे कमांड प्रॉम्प्ट से निम्न कमांड का उपयोग करके चलाएं -

javac TypeDetection.java
java TypeDetection 

audio/mpeg