तिका - अवलोकन
क्या है अपाचे टीका?
अपाचे टिका एक पुस्तकालय है जिसका उपयोग विभिन्न फ़ाइल स्वरूपों से दस्तावेज़ प्रकार का पता लगाने और सामग्री निष्कर्षण के लिए किया जाता है।
आंतरिक रूप से, टीका डेटा का पता लगाने और निकालने के लिए मौजूदा विभिन्न दस्तावेज़ पार्सर और दस्तावेज़ प्रकार का पता लगाने की तकनीक का उपयोग करता है।
Tika का उपयोग करके, एक निश्चित प्रकार के स्प्रेडशीट, पाठ दस्तावेज़, चित्र, PDF और यहां तक कि मल्टीमीडिया इनपुट प्रारूपों से कुछ हद तक मेटाडेटा के साथ-साथ दोनों संरचित पाठ को निकालने के लिए एक सार्वभौमिक प्रकार डिटेक्टर और सामग्री चिमटा विकसित कर सकते हैं।
Tika विभिन्न फ़ाइल स्वरूपों को पार्स करने के लिए एक एकल जेनेरिक API प्रदान करता है। यह प्रत्येक दस्तावेज़ प्रकार के लिए मौजूदा विशेष पार्सर पुस्तकालयों का उपयोग करता है।
इन सभी पार्सर पुस्तकालयों को एक एकल इंटरफेस के तहत समझाया जाता है Parser interface।
क्यों टीका?
Filext.com के अनुसार, लगभग 15k से 51k सामग्री प्रकार हैं, और यह संख्या दिन-प्रतिदिन बढ़ रही है। डेटा को कुछ स्वरूपों में पाठ दस्तावेज़ों, एक्सेल स्प्रेडशीट, PDF, छवियों और मल्टीमीडिया फ़ाइलों जैसे विभिन्न स्वरूपों में संग्रहीत किया जा रहा है। इसलिए, इन दस्तावेज़ प्रकारों से डेटा के आसान निष्कर्षण के लिए खोज इंजन और सामग्री प्रबंधन प्रणालियों जैसे अनुप्रयोगों को अतिरिक्त समर्थन की आवश्यकता होती है। Apache Tika कई फ़ाइल स्वरूपों से डेटा का पता लगाने और निकालने के लिए एक सामान्य API प्रदान करके इस उद्देश्य को पूरा करती है।
अपाचे टीका एप्लीकेशन
विभिन्न अनुप्रयोग हैं जो अपाचे टीका का उपयोग करते हैं। यहां हम कुछ प्रमुख अनुप्रयोगों पर चर्चा करेंगे जो अपाचे टीका पर बहुत अधिक निर्भर करते हैं।
खोज यन्त्र
डिजिटल दस्तावेजों की पाठ्य सामग्री को अनुक्रमित करने के लिए सर्च इंजन विकसित करते समय टीका का व्यापक रूप से उपयोग किया जाता है।
खोज इंजन वेब से सूचना और अनुक्रमित दस्तावेजों को खोजने के लिए डिज़ाइन की गई सूचना प्रसंस्करण प्रणाली है।
क्रॉलर एक खोज इंजन का एक महत्वपूर्ण घटक है जो वेब के माध्यम से उन दस्तावेज़ों को लाने के लिए क्रॉल करता है जिन्हें कुछ अनुक्रमित तकनीक का उपयोग करके अनुक्रमित किया जाना है। इसके बाद, क्रॉलर इन अनुक्रमित दस्तावेजों को निष्कर्षण घटक में स्थानांतरित करता है।
निष्कर्षण घटक का कर्तव्य दस्तावेज़ से पाठ और मेटाडेटा निकालना है। इस तरह की निकाली गई सामग्री और मेटाडेटा एक खोज इंजन के लिए बहुत उपयोगी हैं। इस निष्कर्षण घटक में टीका है।
निकाली गई सामग्री को फिर खोज इंजन के अनुक्रमणिका में भेजा जाता है जो इसका उपयोग खोज सूचकांक बनाने में करता है। इसके अलावा, खोज इंजन कई अन्य तरीकों से भी निकाले गए सामग्री का उपयोग करता है।
दस्तावेज़ विश्लेषण
कृत्रिम बुद्धिमत्ता के क्षेत्र में, शब्दार्थ स्तर पर स्वचालित रूप से दस्तावेजों का विश्लेषण करने और उनसे सभी प्रकार के डेटा निकालने के कुछ उपकरण हैं।
इस तरह के अनुप्रयोगों में, दस्तावेजों को दस्तावेज की निकाली गई सामग्री में प्रमुख शब्दों के आधार पर वर्गीकृत किया जाता है।
ये उपकरण सादा पाठ से डिजिटल दस्तावेजों में भिन्न होने वाले दस्तावेजों का विश्लेषण करने के लिए सामग्री निष्कर्षण के लिए टीका का उपयोग करते हैं।
डिजिटल एसेट मैनेजमेंट
कुछ संगठन डिजिटल परिसंपत्ति प्रबंधन (डीएएम) नामक एक विशेष एप्लिकेशन का उपयोग करके अपनी डिजिटल संपत्ति जैसे फोटोग्राफ, ईबुक, ड्राइंग, संगीत और वीडियो का प्रबंधन करते हैं।
ऐसे एप्लिकेशन विभिन्न दस्तावेजों को वर्गीकृत करने के लिए दस्तावेज़ प्रकार डिटेक्टरों और मेटाडेटा एक्सट्रैक्टर की सहायता लेते हैं।
सामग्री विश्लेषण
अमेज़ॅन जैसी वेबसाइट अपनी रुचि के अनुसार व्यक्तिगत उपयोगकर्ताओं को अपनी वेबसाइट की नई जारी की गई सामग्री की सलाह देती हैं। ऐसा करने के लिए, ये वेबसाइट अनुसरण करती हैंmachine learning techniques, या उपयोगकर्ताओं की पसंद और हितों जैसी आवश्यक जानकारी निकालने के लिए फेसबुक जैसी सोशल मीडिया वेबसाइटों की मदद लें। यह एकत्रित जानकारी HTML टैग या अन्य प्रारूपों के रूप में होगी, जिनके लिए आगे सामग्री प्रकार का पता लगाने और निष्कर्षण की आवश्यकता होती है।
किसी दस्तावेज़ के सामग्री विश्लेषण के लिए, हमारे पास ऐसी तकनीकें हैं जो मशीन सीखने की तकनीकों को लागू करती हैं जैसे कि UIMA तथा Mahout। ये प्रौद्योगिकियां दस्तावेजों में डेटा को क्लस्टर करने और विश्लेषण करने में उपयोगी हैं।
Apache Mahoutक्लाउड कंप्यूटिंग प्लेटफॉर्म - अपाचे Hadoop पर एमएल एल्गोरिदम प्रदान करने वाला एक फ्रेमवर्क है। Mahout कुछ क्लस्टरिंग और फ़िल्टरिंग तकनीकों का पालन करके एक वास्तुकला प्रदान करता है। इस वास्तुकला का अनुसरण करते हुए, प्रोग्रामर अपने स्वयं के एमएल एल्गोरिदम को विभिन्न पाठ और मेटाडेटा संयोजनों को लेने के लिए सिफारिशें लिख सकते हैं। इन एल्गोरिदमों को इनपुट प्रदान करने के लिए, हाल के संस्करण, बाइनरी सामग्री से पाठ और मेटाडेटा निकालने के लिए टीका का उपयोग करते हैं।
Apache UIMAविभिन्न प्रोग्रामिंग भाषाओं का विश्लेषण और प्रक्रिया करता है और यूआईएमए एनोटेशन का उत्पादन करता है। आंतरिक रूप से यह दस्तावेज़ पाठ और मेटाडाटा निकालने के लिए टीका एनोटेटर का उपयोग करता है।
इतिहास
साल | विकास |
---|---|
2006 | टिका के विचार को ल्यूसीन परियोजना प्रबंधन समिति के समक्ष पेश किया गया था। |
2006 | टीका की अवधारणा और जैकबबिट प्रोजेक्ट में इसकी उपयोगिता पर चर्चा की गई। |
2007 | टीका ने अपाचे इनक्यूबेटर में प्रवेश किया। |
2008 | संस्करण 0.1 और 0.2 जारी किए गए और टीका ने इनक्यूबेटर से ल्यूसीन उप-परियोजना में स्नातक किया। |
2009 | संस्करण 0.3, 0.4 और 0.5 जारी किए गए थे। |
2010 | संस्करण 0.6 और 0.7 जारी किए गए और टीका को शीर्ष-स्तरीय अपाचे परियोजना में स्नातक किया गया। |
2011 | Tika 1.0 का विमोचन किया गया और उसी वर्ष Tika "Tika in Action" पुस्तक का विमोचन भी किया गया। |