TIKA - भाषा का पता लगाने
भाषा का पता लगाने की आवश्यकता
भाषा के आधार पर दस्तावेजों के वर्गीकरण के लिए उन्हें एक बहुभाषी वेबसाइट में लिखा जाता है, एक भाषा पहचान उपकरण की आवश्यकता होती है। इस टूल को भाषा एनोटेशन (मेटाडेटा) के बिना दस्तावेजों को स्वीकार करना चाहिए और भाषा का पता लगाकर दस्तावेज़ के मेटाडेटा में उस जानकारी को जोड़ना चाहिए।
प्रोफाइलिंग कॉर्पस के लिए एल्गोरिदम
कॉर्पस क्या है?
किसी दस्तावेज़ की भाषा का पता लगाने के लिए, एक भाषा प्रोफ़ाइल का निर्माण किया जाता है और ज्ञात भाषाओं के प्रोफ़ाइल के साथ तुलना की जाती है। इन ज्ञात भाषाओं के पाठ सेट को a के रूप में जाना जाता हैcorpus।
एक कॉर्पस लिखित भाषा के ग्रंथों का एक संग्रह है जो बताता है कि वास्तविक स्थितियों में भाषा का उपयोग कैसे किया जाता है।
कॉर्पस को किताबों, टेपों और इंटरनेट जैसे अन्य डेटा संसाधनों से विकसित किया गया है। कॉर्पस की सटीकता रूपरेखा एल्गोरिथ्म पर निर्भर करती है जिसका उपयोग हम कॉर्पस को फ्रेम करने के लिए करते हैं।
प्रोफाइलिंग एल्गोरिदम क्या हैं?
भाषाओं का पता लगाने का सामान्य तरीका शब्दकोशों का उपयोग करना है। दिए गए पाठ में दिए गए शब्दों का उपयोग उन शब्दों से किया जाएगा जो शब्दकोशों में हैं।
किसी भाषा में प्रयुक्त आम शब्दों की एक सूची किसी विशेष भाषा का पता लगाने के लिए सबसे सरल और प्रभावी कॉर्पस होगी, उदाहरण के लिए, लेख a, an, the अंग्रेजी में।
कॉर्पस के रूप में वर्ड सेट का उपयोग करना
शब्द सेट का उपयोग करते हुए, दो कॉर्पोरा के बीच की दूरी को खोजने के लिए एक सरल एल्गोरिथ्म तैयार किया गया है, जो मिलान शब्दों की आवृत्तियों के बीच अंतर के योग के बराबर होगा।
इस तरह के एल्गोरिदम निम्नलिखित समस्याओं से पीड़ित हैं -
चूँकि शब्दों के मिलान की आवृत्ति बहुत कम होती है, एल्गोरिथ्म कुछ वाक्यों वाले छोटे पाठों के साथ कुशलता से काम नहीं कर सकता। इसे सटीक मिलान के लिए बहुत अधिक पाठ की आवश्यकता है।
यह यौगिक वाक्यों वाली भाषाओं के लिए शब्द सीमाओं का पता नहीं लगा सकता है, और जिनके पास कोई शब्द डिवाइडर नहीं है जैसे रिक्त स्थान या विराम चिह्न।
शब्द सेट को कॉर्पस के रूप में उपयोग करने में इन कठिनाइयों के कारण, व्यक्तिगत पात्रों या चरित्र समूहों पर विचार किया जाता है।
कॉर्पस के रूप में कैरेक्टर सेट का उपयोग करना
चूँकि आमतौर पर किसी भाषा में उपयोग किए जाने वाले वर्ण संख्या में परिमित होते हैं, इसलिए वर्णों के बजाय शब्द आवृत्तियों के आधार पर एक एल्गोरिथ्म लागू करना आसान होता है। यह एल्गोरिथ्म एक या बहुत कम भाषाओं में उपयोग किए जाने वाले कुछ वर्ण सेटों के मामले में और भी बेहतर काम करता है।
यह एल्गोरिथ्म निम्नलिखित कमियों से ग्रस्त है -
दो भाषाओं को समान चरित्र आवृत्तियों में अंतर करना मुश्किल है।
कई भाषाओं द्वारा उपयोग किए गए वर्ण सेट (जैसे कॉर्पस) की मदद से किसी भाषा की पहचान करने के लिए कोई विशिष्ट उपकरण या एल्गोरिथ्म नहीं है।
एन-ग्राम एल्गोरिथम
ऊपर बताई गई कमियों ने प्रोफाइलिंग कॉर्पस के लिए दिए गए लंबाई के चरित्र दृश्यों के उपयोग के एक नए दृष्टिकोण को जन्म दिया। पात्रों के ऐसे अनुक्रम को सामान्य रूप से एन-ग्राम कहा जाता है, जहां एन चरित्र अनुक्रम की लंबाई का प्रतिनिधित्व करता है।
एन-ग्राम एल्गोरिथ्म भाषा का पता लगाने के लिए एक प्रभावी दृष्टिकोण है, विशेष रूप से अंग्रेजी जैसी यूरोपीय भाषाओं के मामले में।
यह एल्गोरिथ्म लघु ग्रंथों के साथ ठीक काम करता है।
यद्यपि अधिक आकर्षक विशेषताओं वाले बहुभाषी दस्तावेज़ में कई भाषाओं का पता लगाने के लिए उन्नत भाषा प्रोफाइलिंग एल्गोरिदम हैं, टीका 3-ग्राम एल्गोरिथ्म का उपयोग करता है, क्योंकि यह अधिकांश व्यावहारिक स्थितियों में उपयुक्त है।
टीका में भाषा का पता लगाना
ISO 639-1 द्वारा मानकीकृत सभी 184 मानक भाषाओं में से, Tika 18 भाषाओं का पता लगा सकती है। Tika में भाषा का पता लगाने का उपयोग किया जाता हैgetLanguage() की विधि LanguageIdentifierकक्षा। यह विधि स्ट्रिंग प्रारूप में भाषा का कोड नाम लौटाती है। नीचे दी गई 18 भाषा-कोड जोड़ियों की सूची है जिसे टीका द्वारा पता लगाया गया है -
da-डेनिश | de-जर्मन | एट-एस्टोनियाई | अल-यूनानी |
en-अंग्रेजी | एस-स्पेनिश | fi-फिनिश | fr-फ्रेंच |
हू-हंगरी | है-आईस्लैंडिक् | यह इतालवी | nl-डच |
कोई नार्वे | pl-पॉलिश | pt-पुर्तगाली | आरयू-रूसी |
sv-स्वीडिश | वें-थाई |
त्वरित करते हुए LanguageIdentifier वर्ग, आपको निकाले जाने वाले सामग्री के स्ट्रिंग प्रारूप को पास करना चाहिए, या ए LanguageProfile वर्ग वस्तु।
LanguageIdentifier object = new LanguageIdentifier(“this is english”);
नीचे दिया गया है, टिक में भाषा का पता लगाने के लिए उदाहरण कार्यक्रम।
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.language.LanguageIdentifier;
import org.xml.sax.SAXException;
public class LanguageDetection {
public static void main(String args[])throws IOException, SAXException, TikaException {
LanguageIdentifier identifier = new LanguageIdentifier("this is english ");
String language = identifier.getLanguage();
System.out.println("Language of the given content is : " + language);
}
}
उपरोक्त कोड को इस प्रकार सेव करें LanguageDetection.java और इसे कमांड प्रॉम्प्ट से निम्न कमांड का उपयोग करके चलाएं -
javac LanguageDetection.java
java LanguageDetection
यदि आप उपरोक्त कार्यक्रम को निष्पादित करते हैं तो यह निम्नलिखित आउटपु को देता है
Language of the given content is : en
एक दस्तावेज़ की भाषा का पता लगाने
किसी दिए गए दस्तावेज़ की भाषा का पता लगाने के लिए, आपको इसे पार्स () पद्धति का उपयोग करके पार्स करना होगा। पार्स () विधि सामग्री को पार्स करती है और इसे हैंडलर ऑब्जेक्ट में संग्रहीत करती है, जिसे तर्क में से एक के रूप में पारित किया गया था। के निर्माण के लिए हैंडलर ऑब्जेक्ट के स्ट्रिंग प्रारूप को पास करेंLanguageIdentifier नीचे दिखाए अनुसार कक्षा -
parser.parse(inputstream, handler, metadata, context);
LanguageIdentifier object = new LanguageIdentifier(handler.toString());
नीचे दिया गया पूरा कार्यक्रम है जो यह दर्शाता है कि किसी दस्तावेज़ की भाषा का पता कैसे लगाया जाए -
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.language.*;
import org.xml.sax.SAXException;
public class DocumentLanguageDetection {
public static void main(final String[] args) throws IOException, SAXException, TikaException {
//Instantiating a file object
File file = new File("Example.txt");
//Parser method parameters
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream content = new FileInputStream(file);
//Parsing the given document
parser.parse(content, handler, metadata, new ParseContext());
LanguageIdentifier object = new LanguageIdentifier(handler.toString());
System.out.println("Language name :" + object.getLanguage());
}
}
उपरोक्त कोड को SetMetadata.java के रूप में सहेजें और कमांड प्रॉम्प्ट से चलाएं -
javac SetMetadata.java
java SetMetadata
नीचे दिया गया है Example.txt की सामग्री।
Hi students welcome to tutorialspoint
यदि आप उपरोक्त कार्यक्रम को निष्पादित करते हैं, तो यह आपको निम्न आउटपुट देगा -
Language name :en
Tika जार के साथ, Tika एक ग्राफिकल यूजर इंटरफेस एप्लिकेशन (GUI) और एक कमांड लाइन इंटरफेस (CLI) एप्लिकेशन प्रदान करता है। आप अन्य जावा अनुप्रयोगों की तरह कमांड प्रॉम्प्ट से भी एक Tika एप्लिकेशन निष्पादित कर सकते हैं।