ल्यूसिने - क्विक गाइड
Lucene एक सरल अभी तक शक्तिशाली जावा-आधारित है Searchपुस्तकालय। इसका उपयोग किसी भी एप्लिकेशन में खोज क्षमता को जोड़ने के लिए किया जा सकता है। ल्यूसीन एक ओपन-सोर्स प्रोजेक्ट है। यह स्केलेबल है। इस उच्च-प्रदर्शन लाइब्रेरी का उपयोग वस्तुतः किसी भी प्रकार के पाठ को अनुक्रमित करने और खोजने के लिए किया जाता है। ल्यूसिन लाइब्रेरी मुख्य संचालन प्रदान करती है जो किसी भी खोज एप्लिकेशन द्वारा आवश्यक होती है। अनुक्रमण और खोज।
अनुप्रयोग कैसे काम करता है?
एक खोज एप्लिकेशन निम्न में से सभी या कुछ ऑपरेशन करता है -
कदम | शीर्षक | विवरण |
---|---|---|
1 | Acquire Raw Content |
किसी भी खोज एप्लिकेशन का पहला चरण लक्ष्य सामग्री को इकट्ठा करना है, जिस पर खोज एप्लिकेशन का संचालन किया जाना है। |
2 | Build the document |
अगला कदम कच्चे माल से दस्तावेज़ (ओं) का निर्माण करना है, जिसे खोज एप्लिकेशन आसानी से समझ और व्याख्या कर सकता है। |
3 | Analyze the document |
अनुक्रमण प्रक्रिया शुरू होने से पहले, दस्तावेज़ का विश्लेषण किया जाना चाहिए कि पाठ के किस भाग को अनुक्रमित किया जाना है। यह प्रक्रिया वह जगह है जहां दस्तावेज़ का विश्लेषण किया जाता है। |
4 | Indexing the document |
एक बार दस्तावेज़ों का निर्माण और विश्लेषण करने के बाद, अगला चरण उन्हें अनुक्रमित करना है ताकि दस्तावेज़ की संपूर्ण सामग्री के बजाय कुछ दस्तावेज़ों के आधार पर इस दस्तावेज़ को पुनः प्राप्त किया जा सके। अनुक्रमण प्रक्रिया एक पुस्तक के अंत में अनुक्रमणिका के समान है जहां आम शब्दों को उनके पृष्ठ संख्याओं के साथ दिखाया जाता है ताकि इन शब्दों को पूरी पुस्तक खोजने के बजाय जल्दी से ट्रैक किया जा सके। |
5 | User Interface for Search |
एक बार जब अनुक्रमित का एक डेटाबेस तैयार हो जाता है तो आवेदन किसी भी खोज कर सकता है। किसी उपयोगकर्ता को खोज करने की सुविधा के लिए, एप्लिकेशन को एक उपयोगकर्ता प्रदान करना होगाa mean या a user interface जहां उपयोगकर्ता पाठ दर्ज कर सकता है और खोज प्रक्रिया शुरू कर सकता है। |
6 | Build Query |
एक बार जब कोई उपयोगकर्ता किसी पाठ को खोजने के लिए अनुरोध करता है, तो अनुप्रयोग को उस पाठ का उपयोग करके एक क्वेरी ऑब्जेक्ट तैयार करना चाहिए जिसका उपयोग प्रासंगिक विवरण प्राप्त करने के लिए सूचकांक डेटाबेस की पूछताछ के लिए किया जा सकता है। |
7 | Search Query |
किसी क्वेरी ऑब्जेक्ट का उपयोग करके, संबंधित विवरण और सामग्री दस्तावेज़ प्राप्त करने के लिए इंडेक्स डेटाबेस की जाँच की जाती है। |
8 | Render Results |
एक बार परिणाम प्राप्त होने के बाद, एप्लिकेशन को उपयोगकर्ता इंटरफ़ेस का उपयोग करके उपयोगकर्ता को परिणाम दिखाने का तरीका तय करना चाहिए। पहली नज़र में कितनी जानकारी दिखाई जानी है। |
इन बुनियादी कार्यों के अलावा, एक खोज एप्लिकेशन भी प्रदान कर सकता है administration user interfaceऔर उपयोगकर्ता प्रोफाइल के आधार पर खोज के स्तर को नियंत्रित करने के लिए एप्लिकेशन के व्यवस्थापकों की सहायता करें। खोज परिणामों की विश्लेषिकी किसी भी खोज अनुप्रयोग का एक अन्य महत्वपूर्ण और उन्नत पहलू है।
खोज अनुप्रयोग में ल्यूसिन की भूमिका
ल्यूसिन ऊपर वर्णित चरण 2 से चरण 7 में भूमिका निभाता है और आवश्यक संचालन करने के लिए कक्षाएं प्रदान करता है। संक्षेप में, Lucene किसी भी खोज अनुप्रयोग का दिल है और अनुक्रमण और खोज से संबंधित महत्वपूर्ण संचालन प्रदान करता है। सामग्रियों को प्राप्त करना और परिणाम प्रदर्शित करना आवेदन भाग को संभालने के लिए छोड़ दिया जाता है।
अगले अध्याय में, हम Lucene Search Library का उपयोग करके एक सरल खोज एप्लिकेशन का प्रदर्शन करेंगे।
यह ट्यूटोरियल आपको इस बारे में मार्गदर्शन देगा कि स्प्रिंग फ्रेमवर्क के साथ अपना काम शुरू करने के लिए विकास का माहौल कैसे तैयार करें। यह ट्यूटोरियल आपको यह भी सिखाएगा कि स्प्रिंग फ्रेमवर्क सेट करने से पहले अपनी मशीन पर JDK, Tomcat और Eclipse को कैसे सेटअप करें -
चरण 1 - जावा डेवलपमेंट किट (JDK) सेटअप
आप Oracle के जावा साइट से एसडीके का नवीनतम संस्करण डाउनलोड कर सकते हैं: जावा एसई डाउनलोड । आपको डाउनलोड की गई फ़ाइलों में जेडीके स्थापित करने के निर्देश मिलेंगे; सेटअप को स्थापित करने और कॉन्फ़िगर करने के लिए दिए गए निर्देशों का पालन करें। अंत में जावा और जेवैक, जिसमें आमतौर पर java_install_dir / bin और java_install_dir हैं, निर्देशिका को संदर्भित करने के लिए PATH और JAVA_HOME वातावरण चर सेट करें।
यदि आप Windows चला रहे हैं और JDK को C: \ jdk1.6.0_15 में स्थापित कर रहे हैं, तो आपको अपनी C: \ autoexec.bat फ़ाइल में निम्न पंक्ति डालनी होगी।
set PATH = C:\jdk1.6.0_15\bin;%PATH%
set JAVA_HOME = C:\jdk1.6.0_15
वैकल्पिक रूप से, Windows NT / 2000 / XP पर, आप राइट-क्लिक भी कर सकते हैं My Computer, चुनते हैं Properties, फिर Advanced, फिर Environment Variables। फिर, आप अद्यतन करेंगेPATH मूल्य और दबाएँ OK बटन।
यूनिक्स (सोलारिस, लिनक्स, आदि) पर, यदि SDK /usr/local/jdk1.6.0_15 में स्थापित है और आप C शेल का उपयोग करते हैं, तो आप निम्न को अपनी .cshrc फ़ाइल में डाल देंगे।
setenv PATH /usr/local/jdk1.6.0_15/bin:$PATH
setenv JAVA_HOME /usr/local/jdk1.6.0_15
वैकल्पिक रूप से, यदि आप एक का उपयोग करते हैं Integrated Development Environment (IDE) Borland JBuilder, Eclipse, IntelliJ IDEA या Sun ONE स्टूडियो की तरह, एक सरल प्रोग्राम चलाएं और पुष्टि करें कि IDE जानता है कि आपने जावा कहां स्थापित किया है, अन्यथा IDE के दस्तावेज़ में दिए गए अनुसार उचित सेटअप करें।
चरण 2 - ग्रहण आईडीई सेटअप
इस ट्यूटोरियल के सभी उदाहरणों का उपयोग करके लिखा गया है Eclipse IDE। इसलिए मेरा सुझाव है कि आपके पास आपके मशीन पर स्थापित ग्रहण का नवीनतम संस्करण होना चाहिए।
ग्रहण आईडीई स्थापित करने के लिए, से नवीनतम ग्रहण बायनेरिज़ डाउनलोड करें https://www.eclipse.org/downloads/। एक बार जब आप इंस्टॉलेशन डाउनलोड कर लेते हैं, तो बाइनरी वितरण को सुविधाजनक स्थान पर अनपैक कर दें। उदाहरण के लिए, मेंC:\eclipse on windows, या /usr/local/eclipse on Linux/Unix और अंत में पथ चर को उचित रूप से सेट करें।
विंडोज़ मशीन पर निम्न आदेशों को निष्पादित करके ग्रहण शुरू किया जा सकता है, या आप बस डबल क्लिक कर सकते हैं eclipse.exe
%C:\eclipse\eclipse.exe
यूनिक्स (सोलारिस, लिनक्स, आदि) मशीन पर निम्नलिखित आदेशों को निष्पादित करके ग्रहण शुरू किया जा सकता है -
$/usr/local/eclipse/eclipse
एक सफल स्टार्टअप के बाद, इसे निम्नलिखित परिणाम प्रदर्शित करना चाहिए -
चरण 3 - सेटअप ल्यूसीन फ्रेमवर्क लाइब्रेरी
यदि स्टार्टअप सफल होता है, तो आप अपने ल्यूसिन ढांचे को स्थापित करने के लिए आगे बढ़ सकते हैं। अपनी मशीन पर फ्रेमवर्क को डाउनलोड करने और स्थापित करने के सरल चरण निम्नलिखित हैं।
https://archive.apache.org/dist/lucene/java/3.6.2/
एक विकल्प बनाएं कि क्या आप विंडोज, या यूनिक्स पर ल्यूसीन स्थापित करना चाहते हैं और फिर विंडोज के लिए .zip फ़ाइल और यूनिक्स के लिए .tz फ़ाइल डाउनलोड करने के लिए अगले चरण पर जाएं।
ल्यूसीन फ्रेमवर्क बायनेरिज़ के उपयुक्त संस्करण को डाउनलोड करें https://archive.apache.org/dist/lucene/java/।
इस ट्यूटोरियल को लिखने के समय, मैंने अपनी विंडोज मशीन पर lucene-3.6.2.zip डाउनलोड किया और जब आप डाउनलोड की गई फ़ाइल को अनज़िप कर लेते हैं, तो यह आपको निम्नानुसार सी: \ lucene-3.6.2 के अंदर निर्देशिका संरचना प्रदान करेगी।
आपको निर्देशिका में सभी ल्यूसिन पुस्तकालय मिलेंगे C:\lucene-3.6.2। सुनिश्चित करें कि आपने अपना CLASSPATH चर इस निर्देशिका पर ठीक से सेट किया है अन्यथा, आपको अपना आवेदन चलाते समय समस्या का सामना करना पड़ेगा। यदि आप ग्रहण का उपयोग कर रहे हैं, तो CLASSPATH को सेट करने की आवश्यकता नहीं है क्योंकि सभी सेटिंग ग्रहण के माध्यम से की जाएंगी।
एक बार जब आप इस अंतिम चरण के साथ हो जाते हैं, तो आप अपने पहले ल्यूसीन उदाहरण के लिए आगे बढ़ने के लिए तैयार हैं, जिसे आप अगले अध्याय में देखेंगे।
इस अध्याय में, हम ल्यूसीन फ्रेमवर्क के साथ वास्तविक प्रोग्रामिंग सीखेंगे। इससे पहले कि आप Lucene फ्रेमवर्क का उपयोग करके अपना पहला उदाहरण लिखना शुरू करें, आपको यह सुनिश्चित करना होगा कि आपने Lucene - पर्यावरण सेटअप ट्यूटोरियल में स्पष्ट रूप से अपना Lucene वातावरण सेट किया है । यह अनुशंसा की जाती है कि आपके पास ग्रहण आईडीई का कार्यसाधक ज्ञान हो।
आइए अब हम एक सरल खोज एप्लिकेशन लिखकर आगे बढ़ते हैं जो खोज परिणामों की संख्या को प्रिंट करेगा। हम इस प्रक्रिया के दौरान बनाए गए अनुक्रमितों की सूची भी देखेंगे।
चरण 1 - जावा प्रोजेक्ट बनाएं
पहला कदम ग्रहण आईडीई का उपयोग करके एक सरल जावा प्रोजेक्ट बनाना है। विकल्प का पालन करेंFile > New -> Project और अंत में चयन करें Java Projectविज़ार्ड सूची से विज़ार्ड। अब अपने प्रोजेक्ट का नाम बताइएLuceneFirstApplication विज़ार्ड विंडो का उपयोग निम्नानुसार है -
एक बार जब आपका प्रोजेक्ट सफलतापूर्वक बन जाता है, तो आपके पास निम्नलिखित सामग्री होगी Project Explorer -
चरण 2 - आवश्यक पुस्तकालय जोड़ें
आइए अब हम अपनी परियोजना में ल्यूसिन कोर फ्रेमवर्क लाइब्रेरी जोड़ें। ऐसा करने के लिए, अपने प्रोजेक्ट के नाम पर राइट क्लिक करेंLuceneFirstApplication और फिर संदर्भ मेनू में उपलब्ध निम्न विकल्प का पालन करें: Build Path -> Configure Build Path निम्नानुसार जावा बिल्ड पाथ विंडो प्रदर्शित करने के लिए -
अब उपयोग करें Add External JARs के तहत उपलब्ध बटन Libraries Lucene स्थापना निर्देशिका से निम्नलिखित कोर JAR जोड़ने के लिए टैब -
- lucene-core-3.6.2
चरण 3 - स्रोत फ़ाइलें बनाएँ
आइए अब हम वास्तविक स्रोत फाइल बनाते हैं LuceneFirstApplicationपरियोजना। पहले हमें एक पैकेज बनाने की आवश्यकता है जिसे कहा जाता हैcom.tutorialspoint.lucene. ऐसा करने के लिए, पैकेज एक्सप्लोरर अनुभाग में src पर राइट-क्लिक करें और विकल्प का पालन करें: New -> Package।
आगे हम बनाएंगे LuceneTester.java और अन्य जावा वर्गों के तहत com.tutorialspoint.lucene पैकेज।
LuceneConstants.java
इस वर्ग का उपयोग विभिन्न स्थिरांक प्रदान करने के लिए किया जाता है, जिसका उपयोग नमूना अनुप्रयोग में किया जाता है।
package com.tutorialspoint.lucene;
public class LuceneConstants {
public static final String CONTENTS = "contents";
public static final String FILE_NAME = "filename";
public static final String FILE_PATH = "filepath";
public static final int MAX_SEARCH = 10;
}
TextFileFilter.java
इस वर्ग का उपयोग एक के रूप में किया जाता है .txt file फिल्टर।
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
public class TextFileFilter implements FileFilter {
@Override
public boolean accept(File pathname) {
return pathname.getName().toLowerCase().endsWith(".txt");
}
}
Indexer.java
इस वर्ग का उपयोग कच्चे डेटा को अनुक्रमित करने के लिए किया जाता है ताकि हम ल्यूसिन लाइब्रेरी का उपयोग करके इसे खोज योग्य बना सकें।
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Indexer {
private IndexWriter writer;
public Indexer(String indexDirectoryPath) throws IOException {
//this directory will contain the indexes
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
//create the indexer
writer = new IndexWriter(indexDirectory,
new StandardAnalyzer(Version.LUCENE_36),true,
IndexWriter.MaxFieldLength.UNLIMITED);
}
public void close() throws CorruptIndexException, IOException {
writer.close();
}
private Document getDocument(File file) throws IOException {
Document document = new Document();
//index file contents
Field contentField = new Field(LuceneConstants.CONTENTS, new FileReader(file));
//index file name
Field fileNameField = new Field(LuceneConstants.FILE_NAME,
file.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED);
//index file path
Field filePathField = new Field(LuceneConstants.FILE_PATH,
file.getCanonicalPath(),Field.Store.YES,Field.Index.NOT_ANALYZED);
document.add(contentField);
document.add(fileNameField);
document.add(filePathField);
return document;
}
private void indexFile(File file) throws IOException {
System.out.println("Indexing "+file.getCanonicalPath());
Document document = getDocument(file);
writer.addDocument(document);
}
public int createIndex(String dataDirPath, FileFilter filter)
throws IOException {
//get all files in the data directory
File[] files = new File(dataDirPath).listFiles();
for (File file : files) {
if(!file.isDirectory()
&& !file.isHidden()
&& file.exists()
&& file.canRead()
&& filter.accept(file)
){
indexFile(file);
}
}
return writer.numDocs();
}
}
Searcher.java
इंडेक्सर द्वारा अनुरोधित सामग्री को खोजने के लिए बनाई गई अनुक्रमणिका को खोजने के लिए इस वर्ग का उपयोग किया जाता है।
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Searcher {
IndexSearcher indexSearcher;
QueryParser queryParser;
Query query;
public Searcher(String indexDirectoryPath)
throws IOException {
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
indexSearcher = new IndexSearcher(indexDirectory);
queryParser = new QueryParser(Version.LUCENE_36,
LuceneConstants.CONTENTS,
new StandardAnalyzer(Version.LUCENE_36));
}
public TopDocs search( String searchQuery)
throws IOException, ParseException {
query = queryParser.parse(searchQuery);
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
public Document getDocument(ScoreDoc scoreDoc)
throws CorruptIndexException, IOException {
return indexSearcher.doc(scoreDoc.doc);
}
public void close() throws IOException {
indexSearcher.close();
}
}
LuceneTester.java
ल्यूसीन लाइब्रेरी की अनुक्रमण और खोज क्षमता का परीक्षण करने के लिए इस वर्ग का उपयोग किया जाता है।
package com.tutorialspoint.lucene;
import java.io.IOException;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
public class LuceneTester {
String indexDir = "E:\\Lucene\\Index";
String dataDir = "E:\\Lucene\\Data";
Indexer indexer;
Searcher searcher;
public static void main(String[] args) {
LuceneTester tester;
try {
tester = new LuceneTester();
tester.createIndex();
tester.search("Mohan");
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
}
}
private void createIndex() throws IOException {
indexer = new Indexer(indexDir);
int numIndexed;
long startTime = System.currentTimeMillis();
numIndexed = indexer.createIndex(dataDir, new TextFileFilter());
long endTime = System.currentTimeMillis();
indexer.close();
System.out.println(numIndexed+" File indexed, time taken: "
+(endTime-startTime)+" ms");
}
private void search(String searchQuery) throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
TopDocs hits = searcher.search(searchQuery);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime));
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.println("File: "
+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
}
चरण 4 - डेटा और इंडेक्स निर्देशिका निर्माण
हमने record1.txt से record10.txt के 10 पाठ फ़ाइलों का उपयोग किया है जिसमें छात्रों के नाम और अन्य विवरण हैं और उन्हें निर्देशिका में रखा गया है E:\Lucene\Data। डेटा का परीक्षण करें । एक सूचकांक निर्देशिका पथ के रूप में बनाया जाना चाहिएE:\Lucene\Index। इस प्रोग्राम को चलाने के बाद, आप उस फ़ोल्डर में बनाई गई इंडेक्स फाइलों की सूची देख सकते हैं।
चरण 5 - कार्यक्रम चलाना
एक बार जब आप स्रोत, कच्चे डेटा, डेटा निर्देशिका और इंडेक्स डायरेक्टरी के निर्माण के साथ हो जाते हैं, तो आप अपने प्रोग्राम को संकलित करने और चलाने के लिए तैयार होते हैं। ऐसा करने के लिए, रखेंLuceneTester.Java फ़ाइल टैब सक्रिय है और या तो उपयोग करें Run ग्रहण आईडीई या उपयोग में उपलब्ध विकल्प Ctrl + F11 संकलन और चलाने के लिए अपने LuceneTesterआवेदन। यदि आवेदन सफलतापूर्वक चलता है, तो यह ग्रहण आईडीई के कंसोल में निम्न संदेश को प्रिंट करेगा -
Indexing E:\Lucene\Data\record1.txt
Indexing E:\Lucene\Data\record10.txt
Indexing E:\Lucene\Data\record2.txt
Indexing E:\Lucene\Data\record3.txt
Indexing E:\Lucene\Data\record4.txt
Indexing E:\Lucene\Data\record5.txt
Indexing E:\Lucene\Data\record6.txt
Indexing E:\Lucene\Data\record7.txt
Indexing E:\Lucene\Data\record8.txt
Indexing E:\Lucene\Data\record9.txt
10 File indexed, time taken: 109 ms
1 documents found. Time :0
File: E:\Lucene\Data\record4.txt
एक बार जब आप प्रोग्राम को सफलतापूर्वक चला लेंगे, तो आपके पास निम्नलिखित सामग्री होगी index directory -
अनुक्रमण प्रक्रिया ल्यूसिने द्वारा प्रदान की गई मुख्य क्रियाओं में से एक है। निम्न आरेख अनुक्रमण प्रक्रिया और कक्षाओं के उपयोग को दिखाता है।IndexWriter अनुक्रमण प्रक्रिया का सबसे महत्वपूर्ण और मुख्य घटक है।
हम जोड़ते हैं Document(s) युक्त Field(s) IndexWriter जो विश्लेषण करता है Document(s) का उपयोग करते हुए Analyzer और फिर आवश्यक के रूप में अनुक्रमणिका बनाता / खोलें / संपादित करता है और उन्हें स्टोर / अपडेट करता है Directory। IndexWriter को इंडेक्स को अपडेट या बनाने के लिए उपयोग किया जाता है। इसका उपयोग अनुक्रमित पढ़ने के लिए नहीं किया जाता है।
अनुक्रमण कक्षाएं
अनुक्रमण प्रक्रिया के दौरान आमतौर पर उपयोग की जाने वाली कक्षाओं की सूची निम्न है।
क्र.सं. | कक्षा और विवरण |
---|---|
1 | IndexWriter यह वर्ग एक मुख्य घटक के रूप में कार्य करता है जो अनुक्रमण प्रक्रिया के दौरान अनुक्रमणिका बनाता / अद्यतन करता है। |
2 | निर्देशिका यह वर्ग अनुक्रमणिका के संग्रहण स्थान का प्रतिनिधित्व करता है। |
3 | विश्लेषक यह वर्ग एक दस्तावेज़ का विश्लेषण करने और पाठ से टोकन / शब्द प्राप्त करने के लिए जिम्मेदार है जिसे अनुक्रमित किया जाना है। किए गए विश्लेषण के बिना IndexWriter इंडेक्स नहीं बना सकता है। |
4 | डाक्यूमेंट यह वर्ग फ़ील्ड के साथ एक आभासी दस्तावेज़ का प्रतिनिधित्व करता है जहाँ फ़ील्ड एक ऐसी वस्तु है जिसमें भौतिक दस्तावेज़ की सामग्री, उसका मेटा डेटा इत्यादि हो सकते हैं। विश्लेषक केवल एक दस्तावेज को समझ सकता है। |
5 | मैदान यह सबसे कम इकाई या अनुक्रमण प्रक्रिया का प्रारंभिक बिंदु है। यह कुंजी मूल्य जोड़ी संबंध का प्रतिनिधित्व करता है जहां एक कुंजी का उपयोग अनुक्रमित होने के मूल्य की पहचान करने के लिए किया जाता है। आइए मान लें कि किसी दस्तावेज़ की सामग्री का प्रतिनिधित्व करने के लिए उपयोग किए जाने वाले क्षेत्र में "सामग्री" के रूप में कुंजी होगी और मान में दस्तावेज़ के भाग या सभी पाठ या संख्यात्मक सामग्री हो सकती हैं। Lucene केवल टेक्स्ट या न्यूमेरिक कंटेंट को ही इंडेक्स कर सकता है। |
खोज की प्रक्रिया फिर से ल्यूसीन द्वारा प्रदान की गई मुख्य कार्यात्मकताओं में से एक है। इसका प्रवाह अनुक्रमण प्रक्रिया के समान है। ल्यूसिन की बुनियादी खोज को निम्नलिखित वर्गों का उपयोग करके बनाया जा सकता है जिसे सभी खोज से संबंधित कार्यों के लिए नींव की कक्षाओं के रूप में भी कहा जा सकता है।
कक्षाएँ खोजना
खोज प्रक्रिया के दौरान आमतौर पर उपयोग की जाने वाली कक्षाओं की सूची निम्न है।
क्र.सं. | कक्षा और विवरण |
---|---|
1 | IndexSearcher यह वर्ग एक मुख्य घटक के रूप में कार्य करता है जो अनुक्रमण प्रक्रिया के बाद बनाए गए अनुक्रमित को पढ़ता / खोजता है। यह निर्देशिका उदाहरण लेता है जिसमें अनुक्रमित स्थान होता है। |
2 | अवधि यह वर्ग खोज की सबसे निचली इकाई है। यह फील्ड में अनुक्रमण प्रक्रिया के समान है। |
3 | सवाल क्वेरी एक अमूर्त वर्ग है और इसमें विभिन्न उपयोगिता विधियां हैं और सभी प्रकार के प्रश्नों का जनक है जो ल्यूसिन खोज प्रक्रिया के दौरान उपयोग करता है। |
4 | TermQuery टर्मिविए सबसे अधिक उपयोग की जाने वाली क्वेरी ऑब्जेक्ट है और कई जटिल प्रश्नों की नींव है जो ल्यूसिन का उपयोग कर सकते हैं। |
5 | TopDocs TopDocs शीर्ष N खोज परिणामों को इंगित करता है जो खोज मानदंडों से मेल खाता है। यह दस्तावेजों का संकेत देने वाला एक साधारण कंटेनर है जो एक खोज परिणाम का आउटपुट है। |
अनुक्रमण प्रक्रिया ल्यूसिने द्वारा प्रदान की गई मुख्य कार्यक्षमता में से एक है। निम्नलिखित आरेख वर्गों की अनुक्रमण प्रक्रिया और उपयोग को दिखाता है। IndexWriter इंडेक्सिंग प्रक्रिया का सबसे महत्वपूर्ण और मुख्य घटक है।
हम IndexWriter के लिए फ़ील्ड (ओं) वाले डॉक्यूमेंट (ओं) को जोड़ते हैं जो एनालाइज़र का उपयोग करके डॉक्यूमेंट का विश्लेषण करते हैं और फिर आवश्यक के रूप में इंडेक्स बनाते हैं / बनाते हैं और उन्हें डायरेक्ट्री में स्टोर / अपडेट करते हैं । IndexWriter को इंडेक्स को अपडेट या बनाने के लिए उपयोग किया जाता है। इसका उपयोग अनुक्रमित पढ़ने के लिए नहीं किया जाता है।
अब हम आपको मूल उदाहरण का उपयोग करके अनुक्रमण प्रक्रिया को समझने के लिए किक स्टार्ट करने के लिए चरण दर चरण प्रक्रिया दिखाएंगे।
एक दस्तावेज़ बनाएँ
टेक्स्ट फ़ाइल से लुसी दस्तावेज़ प्राप्त करने के लिए एक विधि बनाएँ।
विभिन्न प्रकार के फ़ील्ड बनाएं जो कुंजी मूल्य जोड़े हैं जिनमें कुंजी और नाम के रूप में मानों को अनुक्रमित किया जाना है।
फ़ील्ड का विश्लेषण किया जाना है या नहीं। हमारे मामले में, केवल सामग्री का विश्लेषण किया जाना है क्योंकि इसमें डेटा जैसे कि ए, ए,,, इत्यादि शामिल हो सकते हैं, जिनकी खोज अभियानों में आवश्यकता नहीं है।
दस्तावेज़ ऑब्जेक्ट में नए बनाए गए फ़ील्ड जोड़ें और इसे कॉलर विधि पर लौटाएं।
private Document getDocument(File file) throws IOException {
Document document = new Document();
//index file contents
Field contentField = new Field(LuceneConstants.CONTENTS,
new FileReader(file));
//index file name
Field fileNameField = new Field(LuceneConstants.FILE_NAME,
file.getName(),
Field.Store.YES,Field.Index.NOT_ANALYZED);
//index file path
Field filePathField = new Field(LuceneConstants.FILE_PATH,
file.getCanonicalPath(),
Field.Store.YES,Field.Index.NOT_ANALYZED);
document.add(contentField);
document.add(fileNameField);
document.add(filePathField);
return document;
}
एक IndexWriter बनाएँ
IndexWriter वर्ग एक मुख्य घटक के रूप में कार्य करता है जो अनुक्रमण प्रक्रिया के दौरान अनुक्रमणिका बनाता / अद्यतन करता है। IndexWriter बनाने के लिए इन चरणों का पालन करें -
Step 1 - IndexWriter का ऑब्जेक्ट बनाएं।
Step 2 - एक ल्यूसीन निर्देशिका बनाएं जो उस स्थान को इंगित करे जहां सूचकांक संग्रहीत किए जाने हैं।
Step 3 - अनुक्रमणिका निर्देशिका के साथ बनाई गई IndexWriter ऑब्जेक्ट को प्रारंभ करें, एक मानक विश्लेषक जिसमें संस्करण जानकारी और अन्य आवश्यक / वैकल्पिक पैरामीटर हैं।
private IndexWriter writer;
public Indexer(String indexDirectoryPath) throws IOException {
//this directory will contain the indexes
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
//create the indexer
writer = new IndexWriter(indexDirectory,
new StandardAnalyzer(Version.LUCENE_36),true,
IndexWriter.MaxFieldLength.UNLIMITED);
}
अनुक्रमण प्रक्रिया प्रारंभ करें
निम्नलिखित कार्यक्रम दिखाता है कि अनुक्रमण प्रक्रिया कैसे शुरू करें -
private void indexFile(File file) throws IOException {
System.out.println("Indexing "+file.getCanonicalPath());
Document document = getDocument(file);
writer.addDocument(document);
}
उदाहरण अनुप्रयोग
अनुक्रमण प्रक्रिया का परीक्षण करने के लिए, हमें एक ल्यूसीन एप्लिकेशन परीक्षण बनाने की आवश्यकता है।
कदम | विवरण |
---|---|
1 | एक पैकेज के तहत LuceneFirstApplication नाम के साथ एक प्रोजेक्ट बनाएं । Lucene - First Application Chapter में बताया गया है । इंडेक्सिंग प्रक्रिया को समझने के लिए आप ल्यूसीन - फर्स्ट एप्लीकेशन चैप्टर जैसे प्रोजेक्ट का भी इस्तेमाल कर सकते हैं । |
2 | LuceneConstants.java, TextFileFilter.java और Indexer.java बनाएँ जैसा कि Lucene - First Application Chapter में बताया गया है । शेष फाइलों को अपरिवर्तित रखें। |
3 | नीचे बताए अनुसार LuceneTester.java बनाएं । |
4 | यह सुनिश्चित करने के लिए कि व्यावसायिक तर्क आवश्यकताओं के अनुसार काम कर रहा है, आवेदन को साफ और निर्मित करें। |
LuceneConstants.java
इस वर्ग का उपयोग विभिन्न स्थिरांक प्रदान करने के लिए किया जाता है, जिसका उपयोग नमूना अनुप्रयोग में किया जाता है।
package com.tutorialspoint.lucene;
public class LuceneConstants {
public static final String CONTENTS = "contents";
public static final String FILE_NAME = "filename";
public static final String FILE_PATH = "filepath";
public static final int MAX_SEARCH = 10;
}
TextFileFilter.java
इस वर्ग का उपयोग एक के रूप में किया जाता है .txt फ़ाइल फ़िल्टर।
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
public class TextFileFilter implements FileFilter {
@Override
public boolean accept(File pathname) {
return pathname.getName().toLowerCase().endsWith(".txt");
}
}
Indexer.java
इस वर्ग का उपयोग कच्चे डेटा को अनुक्रमित करने के लिए किया जाता है ताकि हम ल्यूसिन लाइब्रेरी का उपयोग करके इसे खोज योग्य बना सकें।
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Indexer {
private IndexWriter writer;
public Indexer(String indexDirectoryPath) throws IOException {
//this directory will contain the indexes
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
//create the indexer
writer = new IndexWriter(indexDirectory,
new StandardAnalyzer(Version.LUCENE_36),true,
IndexWriter.MaxFieldLength.UNLIMITED);
}
public void close() throws CorruptIndexException, IOException {
writer.close();
}
private Document getDocument(File file) throws IOException {
Document document = new Document();
//index file contents
Field contentField = new Field(LuceneConstants.CONTENTS,
new FileReader(file));
//index file name
Field fileNameField = new Field(LuceneConstants.FILE_NAME,
file.getName(),
Field.Store.YES,Field.Index.NOT_ANALYZED);
//index file path
Field filePathField = new Field(LuceneConstants.FILE_PATH,
file.getCanonicalPath(),
Field.Store.YES,Field.Index.NOT_ANALYZED);
document.add(contentField);
document.add(fileNameField);
document.add(filePathField);
return document;
}
private void indexFile(File file) throws IOException {
System.out.println("Indexing "+file.getCanonicalPath());
Document document = getDocument(file);
writer.addDocument(document);
}
public int createIndex(String dataDirPath, FileFilter filter)
throws IOException {
//get all files in the data directory
File[] files = new File(dataDirPath).listFiles();
for (File file : files) {
if(!file.isDirectory()
&& !file.isHidden()
&& file.exists()
&& file.canRead()
&& filter.accept(file)
){
indexFile(file);
}
}
return writer.numDocs();
}
}
LuceneTester.java
इस वर्ग का उपयोग ल्यूसिन पुस्तकालय की अनुक्रमण क्षमता का परीक्षण करने के लिए किया जाता है।
package com.tutorialspoint.lucene;
import java.io.IOException;
public class LuceneTester {
String indexDir = "E:\\Lucene\\Index";
String dataDir = "E:\\Lucene\\Data";
Indexer indexer;
public static void main(String[] args) {
LuceneTester tester;
try {
tester = new LuceneTester();
tester.createIndex();
} catch (IOException e) {
e.printStackTrace();
}
}
private void createIndex() throws IOException {
indexer = new Indexer(indexDir);
int numIndexed;
long startTime = System.currentTimeMillis();
numIndexed = indexer.createIndex(dataDir, new TextFileFilter());
long endTime = System.currentTimeMillis();
indexer.close();
System.out.println(numIndexed+" File indexed, time taken: "
+(endTime-startTime)+" ms");
}
}
डेटा और इंडेक्स डायरेक्टरी क्रिएशन
हमने record1.txt से record10.txt के 10 पाठ फ़ाइलों का उपयोग किया है जिसमें छात्रों के नाम और अन्य विवरण हैं और उन्हें निर्देशिका में रखा गया है E:\Lucene\Data. डेटा का परीक्षण करें । एक सूचकांक निर्देशिका पथ के रूप में बनाया जाना चाहिएE:\Lucene\Index। इस प्रोग्राम को चलाने के बाद, आप उस फ़ोल्डर में बनाई गई इंडेक्स फाइलों की सूची देख सकते हैं।
कार्यक्रम चला रहे हैं
एक बार जब आप स्रोत, कच्चे डेटा, डेटा निर्देशिका और इंडेक्स डायरेक्टरी के निर्माण के साथ हो जाते हैं, तो आप इस प्रोग्राम को संकलित और चलाकर आगे बढ़ सकते हैं। ऐसा करने के लिए, LuceneTester.Java फ़ाइल टैब को सक्रिय रखें और या तो उपयोग करेंRun ग्रहण आईडीई या उपयोग में उपलब्ध विकल्प Ctrl + F11 संकलन और चलाने के लिए अपने LuceneTesterआवेदन। यदि आपका आवेदन सफलतापूर्वक चलता है, तो यह ग्रहण आईडीई के कंसोल में निम्न संदेश को प्रिंट करेगा -
Indexing E:\Lucene\Data\record1.txt
Indexing E:\Lucene\Data\record10.txt
Indexing E:\Lucene\Data\record2.txt
Indexing E:\Lucene\Data\record3.txt
Indexing E:\Lucene\Data\record4.txt
Indexing E:\Lucene\Data\record5.txt
Indexing E:\Lucene\Data\record6.txt
Indexing E:\Lucene\Data\record7.txt
Indexing E:\Lucene\Data\record8.txt
Indexing E:\Lucene\Data\record9.txt
10 File indexed, time taken: 109 ms
एक बार जब आप प्रोग्राम को सफलतापूर्वक चला लेंगे, तो आपके पास निम्नलिखित सामग्री होगी index directory −
इस अध्याय में, हम अनुक्रमण के चार प्रमुख कार्यों पर चर्चा करेंगे। ये ऑपरेशन विभिन्न समय पर उपयोगी होते हैं और पूरे सॉफ्टवेयर सर्च एप्लिकेशन में उपयोग किए जाते हैं।
अनुक्रमण संचालन
अनुक्रमण प्रक्रिया के दौरान आमतौर पर उपयोग किए जाने वाले कार्यों की एक सूची निम्नलिखित है।
क्र.सं. | ऑपरेशन का वर्णन |
---|---|
1 | दस्तावेज़ जोड़ें यह ऑपरेशन नए उपलब्ध सामग्री पर अनुक्रमित बनाने के लिए अनुक्रमण प्रक्रिया के प्रारंभिक चरण में उपयोग किया जाता है। |
2 | दस्तावेज़ अद्यतन करें अपडेट किए गए सामग्रियों में परिवर्तनों को प्रतिबिंबित करने के लिए इंडेक्स को अपडेट करने के लिए इस ऑपरेशन का उपयोग किया जाता है। यह सूचकांक को फिर से बनाने के समान है। |
3 | दस्तावेज़ हटाएँ यह ऑपरेशन उन दस्तावेजों को बाहर करने के लिए अनुक्रमित को अद्यतन करने के लिए उपयोग किया जाता है जिन्हें अनुक्रमित / खोज करने की आवश्यकता नहीं है। |
4 | क्षेत्र विकल्प फ़ील्ड विकल्प एक तरीका निर्दिष्ट करते हैं या उन तरीकों को नियंत्रित करते हैं जिनमें फ़ील्ड की सामग्री को खोज योग्य बनाया जाना है। |
खोज की प्रक्रिया ल्यूसिने द्वारा प्रदान की गई मुख्य कार्यात्मकताओं में से एक है। निम्नलिखित आरेख प्रक्रिया और इसके उपयोग को दिखाता है। IndexSearcher खोज प्रक्रिया के मुख्य घटकों में से एक है।
हम सबसे पहले निर्देशिका युक्त अनुक्रमित बनाते हैं और फिर इसे IndexSearcher के पास भेजते हैं जो IndexReader का उपयोग करके निर्देशिका को खोलता है । फिर हम एक शब्द के साथ एक क्वेरी बनाते हैं और खोजकर्ता को क्वेरी पास करके IndexSearcher का उपयोग करके एक खोज करते हैं । IndexSearcher एक रिटर्न TopDocs वस्तु जिनमें से दस्तावेज़ आईडी (रों) के साथ खोज का विवरण होता है दस्तावेज़ जो तलाशी अभियान का परिणाम है।
अब हम आपको एक चरण-वार दृष्टिकोण दिखाएंगे और मूल उदाहरण का उपयोग करके अनुक्रमण प्रक्रिया को समझने में आपकी सहायता करेंगे।
एक QueryParser बनाएँ
QueryParser वर्ग ने उपयोगकर्ता को लुसीन के समझने योग्य प्रारूप क्वेरी में इनपुट दर्ज किया। QueryParser बनाने के लिए इन चरणों का पालन करें -
Step 1 - QueryParser का ऑब्जेक्ट बनाएं।
Step 2 - वर्जन जानकारी और इंडेक्स नाम वाले एक मानक विश्लेषक के साथ बनाई गई क्वेरीपैरसर ऑब्जेक्ट को आरम्भ करें, जिस पर यह क्वेरी चलाई जानी है।
QueryParser queryParser;
public Searcher(String indexDirectoryPath) throws IOException {
queryParser = new QueryParser(Version.LUCENE_36,
LuceneConstants.CONTENTS,
new StandardAnalyzer(Version.LUCENE_36));
}
एक IndexSearcher बनाएँ
IndexSearcher वर्ग एक प्रमुख घटक के रूप में कार्य करता है जो खोजकर्ता अनुक्रमणिका को अनुक्रमण प्रक्रिया के दौरान बनाता है। IndexSearcher बनाने के लिए इन चरणों का पालन करें -
Step 1 - IndexSearcher की ऑब्जेक्ट बनाएं।
Step 2 - एक ल्यूसीन निर्देशिका बनाएं जो उस स्थान को इंगित करे जहां सूचकांक संग्रहीत किए जाने हैं।
Step 3 - अनुक्रमणिका निर्देशिका के साथ बनाई गई IndexSearcher ऑब्जेक्ट को प्रारंभ करें।
IndexSearcher indexSearcher;
public Searcher(String indexDirectoryPath) throws IOException {
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
indexSearcher = new IndexSearcher(indexDirectory);
}
खोज करो
खोज करने के लिए इन चरणों का पालन करें -
Step 1 - QueryParser के माध्यम से खोज अभिव्यक्ति पार्स करके एक क्वेरी ऑब्जेक्ट बनाएं।
Step 2 - IndexSearcher.search () विधि को कॉल करके खोज करें।
Query query;
public TopDocs search( String searchQuery) throws IOException, ParseException {
query = queryParser.parse(searchQuery);
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
दस्तावेज़ प्राप्त करें
निम्न प्रोग्राम दिखाता है कि दस्तावेज़ कैसे प्राप्त करें।
public Document getDocument(ScoreDoc scoreDoc)
throws CorruptIndexException, IOException {
return indexSearcher.doc(scoreDoc.doc);
}
IndexSearcher बंद करें
निम्न प्रोग्राम दिखाता है कि IndexSearcher को कैसे बंद किया जाए।
public void close() throws IOException {
indexSearcher.close();
}
उदाहरण अनुप्रयोग
आइए हम खोज प्रक्रिया का परीक्षण करने के लिए एक परीक्षण ल्यूसीन एप्लिकेशन बनाएं।
कदम | विवरण |
---|---|
1 | एक पैकेज के तहत LuceneFirstApplication नाम के साथ एक प्रोजेक्ट बनाएं । Lucene - First Application Chapter में बताया गया है । आप खोज प्रक्रिया को समझने के लिए ल्यूसीन - फर्स्ट एप्लिकेशन चैप्टर जैसे प्रोजेक्ट का भी उपयोग कर सकते हैं । |
2 | LuceneConstants.java, TextFileFilter.java और Searcher.java बनाएँ जैसा कि Lucene - First Application Chapter में बताया गया है । शेष फाइलों को अपरिवर्तित रखें। |
3 | नीचे बताए अनुसार LuceneTester.java बनाएं । |
4 | यह सुनिश्चित करने के लिए एप्लिकेशन को क्लीन एंड बिल्ड करें कि व्यावसायिक तर्क आवश्यकताओं के अनुसार काम कर रहा है। |
LuceneConstants.java
इस वर्ग का उपयोग विभिन्न स्थिरांक प्रदान करने के लिए किया जाता है, जिसका उपयोग नमूना अनुप्रयोग में किया जाता है।
package com.tutorialspoint.lucene;
public class LuceneConstants {
public static final String CONTENTS = "contents";
public static final String FILE_NAME = "filename";
public static final String FILE_PATH = "filepath";
public static final int MAX_SEARCH = 10;
}
TextFileFilter.java
इस वर्ग का उपयोग एक के रूप में किया जाता है .txt फ़ाइल फ़िल्टर।
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.FileFilter;
public class TextFileFilter implements FileFilter {
@Override
public boolean accept(File pathname) {
return pathname.getName().toLowerCase().endsWith(".txt");
}
}
Searcher.java
इस वर्ग का उपयोग कच्चे डेटा पर बने इंडेक्स को पढ़ने के लिए किया जाता है और ल्यूसिन लाइब्रेरी का उपयोग करके डेटा की खोज करता है।
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Searcher {
IndexSearcher indexSearcher;
QueryParser queryParser;
Query query;
public Searcher(String indexDirectoryPath) throws IOException {
Directory indexDirectory =
FSDirectory.open(new File(indexDirectoryPath));
indexSearcher = new IndexSearcher(indexDirectory);
queryParser = new QueryParser(Version.LUCENE_36,
LuceneConstants.CONTENTS,
new StandardAnalyzer(Version.LUCENE_36));
}
public TopDocs search( String searchQuery)
throws IOException, ParseException {
query = queryParser.parse(searchQuery);
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
public Document getDocument(ScoreDoc scoreDoc)
throws CorruptIndexException, IOException {
return indexSearcher.doc(scoreDoc.doc);
}
public void close() throws IOException {
indexSearcher.close();
}
}
LuceneTester.java
इस वर्ग का उपयोग ल्यूसिन पुस्तकालय की खोज क्षमता का परीक्षण करने के लिए किया जाता है।
package com.tutorialspoint.lucene;
import java.io.IOException;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
public class LuceneTester {
String indexDir = "E:\\Lucene\\Index";
String dataDir = "E:\\Lucene\\Data";
Searcher searcher;
public static void main(String[] args) {
LuceneTester tester;
try {
tester = new LuceneTester();
tester.search("Mohan");
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
}
}
private void search(String searchQuery) throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
TopDocs hits = searcher.search(searchQuery);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) +" ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
}
डेटा और इंडेक्स डायरेक्टरी क्रिएशन
हमने 10 पाठ फ़ाइलों को record1.txt के नाम से रिकॉर्ड 10 करने के लिए उपयोग किया है। जिसमें छात्रों के नाम और अन्य विवरण हैं और उन्हें निर्देशिका E: \ Lucene \ Data में डाल दिया है। डेटा का परीक्षण करें । अनुक्रमणिका निर्देशिका पथ को E: \ Lucene \ Index के रूप में बनाया जाना चाहिए। अध्याय में अनुक्रमण कार्यक्रम चलाने के बादLucene - Indexing Process, आप उस फ़ोल्डर में बनाई गई सूचकांक फ़ाइलों की सूची देख सकते हैं।
कार्यक्रम चला रहे हैं
एक बार जब आप स्रोत, कच्चे डेटा, डेटा डायरेक्टरी, इंडेक्स डायरेक्टरी और इंडेक्स के निर्माण के साथ हो जाते हैं, तो आप अपने प्रोग्राम को संकलित और चलाकर आगे बढ़ सकते हैं। ऐसा करने के लिए, रखेंLuceneTester.Java फ़ाइल टैब सक्रिय है और ग्रहण आईडीई में उपलब्ध रन विकल्प का उपयोग करें या उपयोग करें Ctrl + F11 संकलन और चलाने के लिए अपने LuceneTesterapplication। यदि आपका आवेदन सफलतापूर्वक चलता है, तो यह ग्रहण आईडीई के कंसोल में निम्न संदेश को प्रिंट करेगा -
1 documents found. Time :29 ms
File: E:\Lucene\Data\record4.txt
हमने पिछले अध्याय में देखा है Lucene - Search Operation, लुसीन खोज करने के लिए IndexSearcher का उपयोग करता है और यह इनपुट के रूप में QueryParser द्वारा बनाई गई क्वेरी ऑब्जेक्ट का उपयोग करता है। इस अध्याय में, हम विभिन्न प्रकार की क्वेरी ऑब्जेक्ट्स और उन्हें प्रोग्राम बनाने के विभिन्न तरीकों पर चर्चा करने जा रहे हैं। विभिन्न प्रकार की क्वेरी ऑब्जेक्ट बनाने से खोज की जाने वाली किस्म पर नियंत्रण प्राप्त होता है।
उन्नत खोज के एक मामले पर विचार करें, जो कई अनुप्रयोगों द्वारा प्रदान किया जाता है जहां उपयोगकर्ताओं को खोज परिणामों को परिभाषित करने के लिए कई विकल्प दिए जाते हैं। क्वेरी प्रोग्रामिंग द्वारा, हम इसे बहुत आसानी से प्राप्त कर सकते हैं।
निम्नलिखित क्वेरी प्रकारों की सूची दी गई है जिनके बारे में हम चर्चा करेंगे।
क्र.सं. | कक्षा और विवरण |
---|---|
1 | TermQuery यह वर्ग एक मुख्य घटक के रूप में कार्य करता है जो अनुक्रमण प्रक्रिया के दौरान अनुक्रमणिका बनाता / अद्यतन करता है। |
2 | TermRangeQuery TermRangeQuery का उपयोग तब किया जाता है जब पाठ की शर्तों को खोजा जाता है। |
3 | PrefixQuery PrefixQuery का उपयोग दस्तावेजों से मेल खाने के लिए किया जाता है, जिसका सूचकांक एक निर्दिष्ट स्ट्रिंग से शुरू होता है। |
4 | BooleanQuery BooleanQuery का उपयोग उन दस्तावेज़ों को खोजने के लिए किया जाता है, जिनका उपयोग करके कई प्रश्नों का परिणाम होता है AND, OR या NOT ऑपरेटरों। |
5 | PhraseQuery वाक्यांश क्वेरी का उपयोग उन दस्तावेज़ों को खोजने के लिए किया जाता है जिनमें शब्दों का एक विशेष क्रम होता है। |
6 | WildCardQuery किसी भी वर्ण अनुक्रम के लिए '*' जैसे वाइल्डकार्ड का उपयोग करके दस्तावेजों को खोजने के लिए वाइल्डकार्ड का उपयोग किया जाता है? किसी एक पात्र से मेल खाना। |
7 | FuzzyQuery FuzzyQuery का उपयोग फजी कार्यान्वयन का उपयोग करके दस्तावेज़ों को खोजने के लिए किया जाता है जो संपादित दूरी एल्गोरिथ्म पर आधारित एक अनुमानित खोज है। |
8 | MatchAllDocsQuery MatchAllDocsQuery जैसा कि नाम से पता चलता है कि सभी दस्तावेजों से मेल खाता है। |
हमारे पिछले अध्यायों में से एक में, हमने देखा है कि ल्यूसिन इंडेक्सवर्टर का उपयोग एनालाइज़र का उपयोग करके दस्तावेज़ का विश्लेषण करने के लिए करता है और फिर आवश्यकतानुसार अनुक्रमणिका बनाता / खोलता / संपादित करता है। इस अध्याय में, हम विभिन्न प्रकार के एनालाइज़र ऑब्जेक्ट्स और अन्य संबंधित ऑब्जेक्ट्स पर चर्चा करने जा रहे हैं जो विश्लेषण प्रक्रिया के दौरान उपयोग किए जाते हैं। विश्लेषण प्रक्रिया और कैसे विश्लेषक काम करते हैं, इसे समझना आपको इस बात पर बहुत जानकारी देगा कि ल्यूसीन दस्तावेजों को कैसे अनुक्रमित करता है।
निम्नलिखित वस्तुओं की सूची है जिन पर हम नियत समय में चर्चा करेंगे।
क्र.सं. | कक्षा और विवरण |
---|---|
1 | टोकन टोकन किसी दस्तावेज़ में प्रासंगिक मेटाडेटा (स्थिति, प्रारंभ ऑफसेट, समाप्ति ऑफसेट, टोकन प्रकार और इसकी स्थिति वृद्धि) जैसे प्रासंगिक विवरणों के साथ पाठ या शब्द का प्रतिनिधित्व करता है। |
2 | TokenStream TokenStream विश्लेषण प्रक्रिया का एक आउटपुट है और इसमें टोकन की एक श्रृंखला शामिल है। यह एक अमूर्त वर्ग है। |
3 | विश्लेषक यह हर प्रकार के एनालाइज़र के लिए एक सार आधार वर्ग है। |
4 | WhitespaceAnalyzer यह विश्लेषक व्हॉट्सएप पर आधारित दस्तावेज़ में पाठ को विभाजित करता है। |
5 | SimpleAnalyzer यह विश्लेषक गैर-अक्षर वर्णों के आधार पर दस्तावेज़ में पाठ को विभाजित करता है और पाठ को लोअरकेस में रखता है। |
6 | StopAnalyzer यह एनालाइजर सिंपल एनालाइजर की तरह काम करता है और आम शब्दों को हटा देता है 'a', 'an', 'the', आदि। |
7 | StandardAnalyzer यह सबसे परिष्कृत विश्लेषक है और नाम, ईमेल पते आदि को संभालने में सक्षम है। यह प्रत्येक टोकन को कम करता है और यदि कोई हो तो सामान्य शब्दों और विराम चिह्नों को हटा देता है। |
इस अध्याय में, हम उस क्रमबद्ध क्रम में देखेंगे जिसमें ल्यूसिन डिफ़ॉल्ट रूप से खोज परिणाम देता है या आवश्यकतानुसार उसमें हेरफेर किया जा सकता है।
प्रासंगिकता द्वारा क्रमबद्ध करना
यह Lucene द्वारा उपयोग किया जाने वाला डिफ़ॉल्ट सॉर्टिंग मोड है। Lucene शीर्ष पर सबसे अधिक प्रासंगिक हिट द्वारा परिणाम प्रदान करता है।
private void sortUsingRelevance(String searchQuery)
throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
//create a term to search file name
Term term = new Term(LuceneConstants.FILE_NAME, searchQuery);
//create the term query object
Query query = new FuzzyQuery(term);
searcher.setDefaultFieldSortScoring(true, false);
//do the search
TopDocs hits = searcher.search(query,Sort.RELEVANCE);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) + "ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.print("Score: "+ scoreDoc.score + " ");
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
IndexOrder द्वारा छंटनी
इस सॉर्टिंग मोड का उपयोग ल्यूसिने द्वारा किया जाता है। यहां, खोजे गए परिणामों में पहला दस्तावेज अनुक्रमित पहले दिखाया गया है।
private void sortUsingIndex(String searchQuery)
throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
//create a term to search file name
Term term = new Term(LuceneConstants.FILE_NAME, searchQuery);
//create the term query object
Query query = new FuzzyQuery(term);
searcher.setDefaultFieldSortScoring(true, false);
//do the search
TopDocs hits = searcher.search(query,Sort.INDEXORDER);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) + "ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.print("Score: "+ scoreDoc.score + " ");
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
उदाहरण अनुप्रयोग
हमें छँटाई प्रक्रिया का परीक्षण करने के लिए एक परीक्षण ल्यूसीन एप्लिकेशन बनाएँ।
कदम | विवरण |
---|---|
1 | एक पैकेज के तहत LuceneFirstApplication नाम के साथ एक प्रोजेक्ट बनाएं । Lucene - First Application Chapter में बताया गया है । आप खोज प्रक्रिया को समझने के लिए ल्यूसीन - फर्स्ट एप्लिकेशन चैप्टर जैसे प्रोजेक्ट का भी उपयोग कर सकते हैं । |
2 | LuceneConstants.java और Searcher.java बनाएँ जैसा कि Lucene - First Application Chapter में बताया गया है । शेष फाइलों को अपरिवर्तित रखें। |
3 | नीचे बताए अनुसार LuceneTester.java बनाएं । |
4 | व्यापार तर्क को सुनिश्चित करने के लिए आवेदन को स्वच्छ और निर्माण करें और आवश्यकताओं के अनुसार काम कर रहे हैं। |
LuceneConstants.java
इस वर्ग का उपयोग विभिन्न स्थिरांक प्रदान करने के लिए किया जाता है, जिसका उपयोग नमूना अनुप्रयोग में किया जाता है।
package com.tutorialspoint.lucene;
public class LuceneConstants {
public static final String CONTENTS = "contents";
public static final String FILE_NAME = "filename";
public static final String FILE_PATH = "filepath";
public static final int MAX_SEARCH = 10;
}
Searcher.java
इस वर्ग का उपयोग कच्चे डेटा पर बने इंडेक्स को पढ़ने के लिए किया जाता है और ल्यूसिन लाइब्रेरी का उपयोग करके डेटा की खोज करता है।
package com.tutorialspoint.lucene;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
public class Searcher {
IndexSearcher indexSearcher;
QueryParser queryParser;
Query query;
public Searcher(String indexDirectoryPath) throws IOException {
Directory indexDirectory
= FSDirectory.open(new File(indexDirectoryPath));
indexSearcher = new IndexSearcher(indexDirectory);
queryParser = new QueryParser(Version.LUCENE_36,
LuceneConstants.CONTENTS,
new StandardAnalyzer(Version.LUCENE_36));
}
public TopDocs search( String searchQuery)
throws IOException, ParseException {
query = queryParser.parse(searchQuery);
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
public TopDocs search(Query query)
throws IOException, ParseException {
return indexSearcher.search(query, LuceneConstants.MAX_SEARCH);
}
public TopDocs search(Query query,Sort sort)
throws IOException, ParseException {
return indexSearcher.search(query,
LuceneConstants.MAX_SEARCH,sort);
}
public void setDefaultFieldSortScoring(boolean doTrackScores,
boolean doMaxScores) {
indexSearcher.setDefaultFieldSortScoring(
doTrackScores,doMaxScores);
}
public Document getDocument(ScoreDoc scoreDoc)
throws CorruptIndexException, IOException {
return indexSearcher.doc(scoreDoc.doc);
}
public void close() throws IOException {
indexSearcher.close();
}
}
LuceneTester.java
इस वर्ग का उपयोग ल्यूसिन पुस्तकालय की खोज क्षमता का परीक्षण करने के लिए किया जाता है।
package com.tutorialspoint.lucene;
import java.io.IOException;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.TopDocs;
public class LuceneTester {
String indexDir = "E:\\Lucene\\Index";
String dataDir = "E:\\Lucene\\Data";
Indexer indexer;
Searcher searcher;
public static void main(String[] args) {
LuceneTester tester;
try {
tester = new LuceneTester();
tester.sortUsingRelevance("cord3.txt");
tester.sortUsingIndex("cord3.txt");
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
}
}
private void sortUsingRelevance(String searchQuery)
throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
//create a term to search file name
Term term = new Term(LuceneConstants.FILE_NAME, searchQuery);
//create the term query object
Query query = new FuzzyQuery(term);
searcher.setDefaultFieldSortScoring(true, false);
//do the search
TopDocs hits = searcher.search(query,Sort.RELEVANCE);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) + "ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.print("Score: "+ scoreDoc.score + " ");
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
private void sortUsingIndex(String searchQuery)
throws IOException, ParseException {
searcher = new Searcher(indexDir);
long startTime = System.currentTimeMillis();
//create a term to search file name
Term term = new Term(LuceneConstants.FILE_NAME, searchQuery);
//create the term query object
Query query = new FuzzyQuery(term);
searcher.setDefaultFieldSortScoring(true, false);
//do the search
TopDocs hits = searcher.search(query,Sort.INDEXORDER);
long endTime = System.currentTimeMillis();
System.out.println(hits.totalHits +
" documents found. Time :" + (endTime - startTime) + "ms");
for(ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = searcher.getDocument(scoreDoc);
System.out.print("Score: "+ scoreDoc.score + " ");
System.out.println("File: "+ doc.get(LuceneConstants.FILE_PATH));
}
searcher.close();
}
}
डेटा और इंडेक्स डायरेक्टरी क्रिएशन
हमने record1.txt से record10.txt के 10 पाठ फ़ाइलों का उपयोग किया है जिसमें छात्रों के नाम और अन्य विवरण हैं और उन्हें निर्देशिका में रखा गया है E:\Lucene\Data. डेटा का परीक्षण करें । अनुक्रमणिका निर्देशिका पथ को E: \ Lucene \ Index के रूप में बनाया जाना चाहिए। अध्याय में अनुक्रमण कार्यक्रम चलाने के बादLucene - Indexing Process, आप उस फ़ोल्डर में बनाई गई सूचकांक फ़ाइलों की सूची देख सकते हैं।
कार्यक्रम चला रहे हैं
एक बार जब आप स्रोत, कच्चे डेटा, डेटा निर्देशिका, इंडेक्स डायरेक्टरी और इंडेक्स के निर्माण के साथ हो जाते हैं, तो आप अपने प्रोग्राम को संकलित और चला सकते हैं। ऐसा करने के लिए, रखेंLuceneTester.Java फ़ाइल टैब सक्रिय है और ग्रहण आईडीई में उपलब्ध रन विकल्प का उपयोग करें या उपयोग करें Ctrl + F11 संकलन और चलाने के लिए अपने LuceneTesterआवेदन। यदि आपका आवेदन सफलतापूर्वक चलता है, तो यह ग्रहण आईडीई के कंसोल में निम्न संदेश को प्रिंट करेगा -
10 documents found. Time :31ms
Score: 1.3179655 File: E:\Lucene\Data\record3.txt
Score: 0.790779 File: E:\Lucene\Data\record1.txt
Score: 0.790779 File: E:\Lucene\Data\record2.txt
Score: 0.790779 File: E:\Lucene\Data\record4.txt
Score: 0.790779 File: E:\Lucene\Data\record5.txt
Score: 0.790779 File: E:\Lucene\Data\record6.txt
Score: 0.790779 File: E:\Lucene\Data\record7.txt
Score: 0.790779 File: E:\Lucene\Data\record8.txt
Score: 0.790779 File: E:\Lucene\Data\record9.txt
Score: 0.2635932 File: E:\Lucene\Data\record10.txt
10 documents found. Time :0ms
Score: 0.790779 File: E:\Lucene\Data\record1.txt
Score: 0.2635932 File: E:\Lucene\Data\record10.txt
Score: 0.790779 File: E:\Lucene\Data\record2.txt
Score: 1.3179655 File: E:\Lucene\Data\record3.txt
Score: 0.790779 File: E:\Lucene\Data\record4.txt
Score: 0.790779 File: E:\Lucene\Data\record5.txt
Score: 0.790779 File: E:\Lucene\Data\record6.txt
Score: 0.790779 File: E:\Lucene\Data\record7.txt
Score: 0.790779 File: E:\Lucene\Data\record8.txt
Score: 0.790779 File: E:\Lucene\Data\record9.txt