एनएलपी - सूचना पुनर्प्राप्ति
सूचना पुनर्प्राप्ति (आईआर) को एक सॉफ्टवेयर प्रोग्राम के रूप में परिभाषित किया जा सकता है जो संगठन, भंडारण, पुनर्प्राप्ति और दस्तावेज़ रिपॉजिटरी से विशेष रूप से पाठ्य जानकारी के मूल्यांकन से संबंधित है। सिस्टम उपयोगकर्ताओं को उन सूचनाओं को खोजने में सहायता करता है जिनकी उन्हें आवश्यकता होती है लेकिन यह स्पष्ट रूप से प्रश्नों के उत्तर नहीं देता है। यह दस्तावेजों के अस्तित्व और स्थान को सूचित करता है जिसमें आवश्यक जानकारी शामिल हो सकती है। उपयोगकर्ता की आवश्यकता को पूरा करने वाले दस्तावेजों को प्रासंगिक दस्तावेज कहा जाता है। एक संपूर्ण IR सिस्टम केवल प्रासंगिक दस्तावेजों को पुनः प्राप्त करेगा।
निम्नलिखित चित्र की सहायता से, हम सूचना पुनर्प्राप्ति (IR) की प्रक्रिया को समझ सकते हैं -
उपरोक्त आरेख से यह स्पष्ट है कि एक उपयोगकर्ता जिसे जानकारी की आवश्यकता है, उसे प्राकृतिक भाषा में क्वेरी के रूप में एक अनुरोध तैयार करना होगा। फिर आईआर सिस्टम आवश्यक जानकारी के बारे में, दस्तावेजों के रूप में, प्रासंगिक आउटपुट को पुनः प्राप्त करके जवाब देगा।
सूचना पुनर्प्राप्ति (आईआर) प्रणाली में शास्त्रीय समस्या
IR शोध का मुख्य लक्ष्य दस्तावेजों के भंडार से जानकारी प्राप्त करने के लिए एक मॉडल विकसित करना है। यहां, हम एक शास्त्रीय समस्या पर चर्चा करने जा रहे हैं, जिसका नाम हैad-hoc retrieval problemआईआर प्रणाली से संबंधित है।
तदर्थ पुनर्प्राप्ति में, उपयोगकर्ता को आवश्यक जानकारी का वर्णन करने वाली प्राकृतिक भाषा में एक क्वेरी दर्ज करनी चाहिए। फिर आईआर सिस्टम वांछित जानकारी से संबंधित आवश्यक दस्तावेज वापस कर देगा। उदाहरण के लिए, मान लें कि हम इंटरनेट पर कुछ खोज रहे हैं और यह कुछ सटीक पृष्ठ देता है जो हमारी आवश्यकता के अनुसार प्रासंगिक हैं लेकिन कुछ गैर-प्रासंगिक पृष्ठ भी हो सकते हैं। यह तदर्थ पुनर्प्राप्ति समस्या के कारण है।
एड-हॉक रिट्रीवल के पहलू
अनुगमन तदर्थ पुनर्प्राप्ति के कुछ पहलू हैं जो आईआर शोध में संबोधित किए गए हैं -
प्रासंगिकता फ़ीडबैक की सहायता से उपयोगकर्ता किसी क्वेरी के मूल सूत्रीकरण को कैसे सुधार सकते हैं?
डेटाबेस मर्जिंग को कैसे लागू करें, अर्थात, अलग-अलग टेक्स्ट डेटाबेस के परिणामों को एक परिणाम सेट में कैसे मिलाया जा सकता है?
आंशिक रूप से दूषित डेटा को कैसे संभालें? कौन से मॉडल उसी के लिए उपयुक्त हैं?
सूचना पुनर्प्राप्ति (आईआर) मॉडल
गणितीय रूप से, कई वैज्ञानिक क्षेत्रों में मॉडल का उपयोग वास्तविक दुनिया में कुछ घटना को समझने के उद्देश्य से किया जाता है। सूचना पुनर्प्राप्ति का एक मॉडल भविष्यवाणी करता है और बताता है कि किसी उपयोगकर्ता को दी गई क्वेरी की प्रासंगिकता में क्या मिलेगा। IR मॉडल मूल रूप से एक पैटर्न है जो पुनर्प्राप्ति प्रक्रिया के उपर्युक्त पहलुओं को परिभाषित करता है और इसमें निम्नलिखित शामिल हैं -
दस्तावेजों के लिए एक मॉडल।
प्रश्नों के लिए एक मॉडल।
एक मिलान फ़ंक्शन जो प्रश्नों की तुलना दस्तावेजों से करता है।
गणितीय रूप से, एक पुनर्प्राप्ति मॉडल में निम्न शामिल हैं -
D - दस्तावेजों के लिए प्रतिनिधित्व।
R - प्रश्नों के लिए प्रतिनिधित्व।
F - डी, क्यू के लिए मॉडलिंग ढांचा और उनके बीच संबंध।
R (q,di)- एक समानता फ़ंक्शन जो क्वेरी के संबंध में दस्तावेजों का आदेश देता है। इसे रैंकिंग भी कहा जाता है।
सूचना पुनर्प्राप्ति के प्रकार (आईआर) मॉडल
एक सूचना मॉडल (IR) मॉडल को निम्नलिखित तीन मॉडलों में वर्गीकृत किया जा सकता है -
क्लासिकल IR मॉडल
आईआर मॉडल को लागू करना सबसे सरल और आसान है। यह मॉडल गणितीय ज्ञान पर आधारित है जिसे आसानी से पहचाना और समझा गया था। बूलियन, वेक्टर और प्रोबेबिलिस्टिक तीन शास्त्रीय आईआर मॉडल हैं।
गैर-शास्त्रीय आईआर मॉडल
यह पूरी तरह से शास्त्रीय आईआर मॉडल के विपरीत है। इस तरह के आईआर मॉडल समानता, संभावना, बूलियन संचालन के अलावा अन्य सिद्धांतों पर आधारित हैं। सूचना तर्क मॉडल, स्थिति सिद्धांत मॉडल और इंटरैक्शन मॉडल गैर-शास्त्रीय आईआर मॉडल के उदाहरण हैं।
वैकल्पिक आईआर मॉडल
यह कुछ अन्य क्षेत्रों से कुछ विशिष्ट तकनीकों का उपयोग करने वाले शास्त्रीय आईआर मॉडल की वृद्धि है। क्लस्टर मॉडल, फ़ज़ी मॉडल और अव्यक्त अर्थ इंडेक्सिंग (LSI) मॉडल वैकल्पिक IR मॉडल का उदाहरण हैं।
सूचना पुनर्प्राप्ति (आईआर) प्रणालियों की डिजाइन विशेषताएं
आइए अब IR सिस्टम की डिज़ाइन विशेषताओं के बारे में जानें -
उलटा सूचकांक
अधिकांश IR सिस्टम की प्राथमिक डेटा संरचना उल्टे सूचकांक के रूप में होती है। हम एक औंधा सूचकांक को एक डेटा संरचना के रूप में परिभाषित कर सकते हैं जो सूची, हर शब्द के लिए, सभी दस्तावेज जो इसमें होते हैं और दस्तावेज़ में आवृत्तियों की आवृत्ति होती है। किसी क्वेरी शब्द के 'हिट्स' को खोजना आसान बनाता है।
शब्द उन्मूलन बंद करो
रोक शब्द वे उच्च आवृत्ति शब्द हैं जिन्हें समझा जाता है कि वे खोज के लिए उपयोगी नहीं हैं। उनके पास शब्दार्थ भार कम है। इस तरह के सभी शब्द एक सूची में हैं जिन्हें स्टॉप लिस्ट कहा जाता है। उदाहरण के लिए, लेख "a", "a", "the और prepositions जैसे" in "," of "," for "," at "आदि स्टॉप शब्दों के उदाहरण हैं। स्टॉप लिस्ट द्वारा उल्टे सूचकांक का आकार काफी कम किया जा सकता है। जिपफ के नियम के अनुसार, कुछ दर्जन शब्दों को कवर करने वाली स्टॉप लिस्ट उल्टे सूचकांक के आकार को लगभग आधा कर देती है। दूसरी ओर, कभी-कभी स्टॉप शब्द का उन्मूलन शब्द के उन्मूलन का कारण हो सकता है जो खोज के लिए उपयोगी है। उदाहरण के लिए, यदि हम "विटामिन ए" से वर्णमाला "ए" को खत्म करते हैं तो इसका कोई महत्व नहीं होगा।
स्टेमिंग
रूपात्मक विश्लेषण का सरलीकृत रूप, स्टेमिंग, शब्दों के सिरों को काटकर शब्दों के आधार रूप को निकालने की विधर्मी प्रक्रिया है। उदाहरण के लिए, हंसते हुए, हंसते हुए, हंसते हुए शब्दों को मूल शब्द हंसी के लिए उपजाया जाएगा।
हमारे बाद के अनुभागों में, हम कुछ महत्वपूर्ण और उपयोगी आईआर मॉडल के बारे में चर्चा करेंगे।
बूलियन मॉडल
यह सबसे पुराना सूचना पुनर्प्राप्ति (IR) मॉडल है। मॉडल सेट सिद्धांत और बूलियन बीजगणित पर आधारित है, जहां दस्तावेज़ शर्तों के सेट हैं और क्वेरीज़ शर्तों पर बूलियन अभिव्यक्ति हैं। बुलियन मॉडल को निम्न के रूप में परिभाषित किया जा सकता है -
D- शब्दों का एक सेट, अर्थात, एक दस्तावेज़ में मौजूद अनुक्रमण शब्द। यहां, प्रत्येक पद या तो मौजूद है (1) या अनुपस्थित (0)।
Q - एक बूलियन अभिव्यक्ति, जहां शब्द सूचकांक की शर्तें हैं और ऑपरेटर तार्किक उत्पाद हैं - और, तार्किक राशि - या तार्किक अंतर - नहीं
F - बूलियन बीजगणित शब्दों के सेट के साथ-साथ दस्तावेजों के सेट पर
अगर हम प्रासंगिक प्रतिक्रिया के बारे में बात करते हैं, तो बुलियन आईआर मॉडल में प्रासंगिकता की भविष्यवाणी निम्नानुसार परिभाषित की जा सकती है -
R - एक दस्तावेज को क्वेरी अभिव्यक्ति के लिए प्रासंगिक माना जाता है यदि और केवल अगर यह क्वेरी अभिव्यक्ति को संतुष्ट करता है जैसे -
((ℎ) ˄ ˄ ˜ ˄)
हम इस मॉडल को एक दस्तावेज़ के सेट की एक अस्पष्ट परिभाषा के रूप में एक क्वेरी शब्द द्वारा समझा सकते हैं।
उदाहरण के लिए, क्वेरी शब्द “economic” शब्द के साथ अनुक्रमित दस्तावेज़ों के सेट को परिभाषित करता है “economic”।
अब, बूलियन और ऑपरेटर के साथ शब्दों के संयोजन के बाद परिणाम क्या होगा? यह एक दस्तावेज सेट को परिभाषित करेगा जो किसी भी एक पद के दस्तावेज़ सेट से छोटा या बराबर है। उदाहरण के लिए, शर्तों के साथ क्वेरी“social” तथा “economic”उन दस्तावेज़ों के दस्तावेज़ सेट करेगा जो दोनों शर्तों के साथ अनुक्रमित हैं। दूसरे शब्दों में, दस्तावेज़ दोनों सेटों के प्रतिच्छेदन के साथ निर्धारित होता है।
अब, बूलियन या ऑपरेटर के साथ शब्दों के संयोजन के बाद परिणाम क्या होगा? यह एक दस्तावेज सेट को परिभाषित करेगा जो किसी भी एक पद के दस्तावेज़ सेट से बड़ा या बराबर है। उदाहरण के लिए, शर्तों के साथ क्वेरी“social” या “economic” उन दस्तावेजों के दस्तावेजों का उत्पादन करेगा जो या तो शब्द के साथ अनुक्रमित हैं “social” या “economic”। दूसरे शब्दों में, दस्तावेज़ दोनों सेटों के मिलन के साथ निर्धारित होता है।
बूलियन मोड के लाभ
बुलियन मॉडल के फायदे इस प्रकार हैं -
सबसे सरल मॉडल, जो सेट पर आधारित है।
समझने और लागू करने में आसान।
यह केवल सटीक मिलान को पुनः प्राप्त करता है
यह उपयोगकर्ता, सिस्टम पर नियंत्रण की भावना देता है।
बूलियन मॉडल के नुकसान
बूलियन मॉडल के नुकसान इस प्रकार हैं -
मॉडल की समानता फ़ंक्शन बूलियन है। इसलिए, कोई आंशिक मैच नहीं होगा। यह उपयोगकर्ताओं के लिए कष्टप्रद हो सकता है।
इस मॉडल में, बूलियन ऑपरेटर उपयोग एक महत्वपूर्ण शब्द की तुलना में बहुत अधिक प्रभाव रखता है।
क्वेरी भाषा अभिव्यंजक है, लेकिन यह जटिल भी है।
पुनः प्राप्त दस्तावेजों के लिए कोई रैंकिंग नहीं।
वेक्टर अंतरिक्ष मॉडल
बूलियन मॉडल के उपरोक्त नुकसानों के कारण, जेरार्ड सैलटन और उनके सहयोगियों ने एक मॉडल का सुझाव दिया, जो लुहान की समानता की कसौटी पर आधारित है। Luhn राज्यों द्वारा तैयार की गई समानता की कसौटी, "दिए गए तत्वों और उनके वितरण में अधिक से अधिक दो प्रतिनिधित्व सहमत हैं, उच्चतर उनके समान जानकारी का प्रतिनिधित्व करने की संभावना होगी।"
वेक्टर स्पेस मॉडल के बारे में अधिक समझने के लिए निम्नलिखित महत्वपूर्ण बिंदुओं पर विचार करें -
सूचकांक निरूपण (दस्तावेज) और प्रश्नों को वैक्टर के रूप में माना जाता है जो एक उच्च आयामी यूक्लिडियन स्थान में एम्बेडेड होते हैं।
क्वेरी वेक्टर के लिए दस्तावेज़ वेक्टर की समानता माप आमतौर पर उन दोनों के बीच के कोण का कोसाइन होता है।
कोसिन समानता का माप सूत्र
कोसाइन एक सामान्यीकृत डॉट उत्पाद है, जिसकी गणना निम्न सूत्र की सहायता से की जा सकती है -
$ $ स्कोर \ lgroup \ vec {d} \ vec {q} \ rgroup = \ frac {\ _ sum_ {k = 1} ^ m d_ {k} \: q_ {k}} {\ sqrt \ _ sum_ {k_। = 1} ^ m \ lgroup d_ {k} \ rgroup ^ 2} \:। \ Sqrt {\ _ sum_ {k = 1} ^ m} m \ lgroup q_ {k} \ rgroup ^ 2}}
$ $ स्कोर \ lgroup \ vec {d} \ vec {q} \ rgroup = 1 \: जब \: d = q $ $
$ $ स्कोर \ lgroup \ vec {d} \ vec {q} \ rgroup = 0 \: जब \: d \: और \: q \: शेयर \: नहीं \: आइटम $ $
क्वेरी और दस्तावेज़ के साथ वेक्टर अंतरिक्ष प्रतिनिधित्व
क्वेरी और दस्तावेजों को दो-आयामी वेक्टर अंतरिक्ष द्वारा दर्शाया गया है। शर्तें हैंcar तथा insurance। वेक्टर स्पेस में एक क्वेरी और तीन दस्तावेज़ हैं।
शर्तों कार और बीमा के जवाब में शीर्ष क्रम का दस्तावेज़ दस्तावेज़ होगा d2 क्योंकि कोण q तथा d2सबसे छोटा है। इसके पीछे कारण यह है कि दोनों अवधारणा कार और बीमा d 2 में मुख्य हैं और इसलिए उच्च भार हैं। दूसरी तरफ,d1 तथा d3 दोनों शब्दों का भी उल्लेख करें लेकिन प्रत्येक मामले में, उनमें से एक दस्तावेज में एक केंद्रीय रूप से महत्वपूर्ण शब्द नहीं है।
शब्द भार
शब्द भार का अर्थ है वेक्टर अंतरिक्ष में शर्तों पर भार। शब्द का वजन जितना अधिक होगा, अधिक से अधिक शब्द cosine पर प्रभाव होगा। अधिक वजन मॉडल में अधिक महत्वपूर्ण शब्दों को सौंपा जाना चाहिए। अब यह सवाल उठता है कि हम इसे कैसे मॉडल बना सकते हैं।
ऐसा करने का एक तरीका यह है कि किसी दस्तावेज़ में शब्दों को उसके शब्द भार के रूप में गिना जाए। हालांकि, क्या आपको लगता है कि यह प्रभावी तरीका होगा?
एक अन्य विधि, जो अधिक प्रभावी है, का उपयोग करना है term frequency (tfij), document frequency (dfi) तथा collection frequency (cfi)।
टर्म फ़्रीक्वेंसी (tf ij )
इसे होने वाली घटनाओं की संख्या के रूप में परिभाषित किया जा सकता है wi में dj। टर्म फ़्रीक्वेंसी द्वारा कैप्चर की गई जानकारी यह है कि दिए गए दस्तावेज़ के भीतर कोई शब्द कितना सामर्थ्यपूर्ण है या दूसरे शब्दों में हम कह सकते हैं कि शब्द की आवृत्ति जितनी अधिक होती है, उतने शब्द उस दस्तावेज़ की सामग्री का अच्छा विवरण होते हैं।
दस्तावेज़ आवृत्ति (df i )
यह संग्रह में दस्तावेजों की कुल संख्या के रूप में परिभाषित किया जा सकता है, जिसमें मैं होता है। यह अनौपचारिकता का सूचक है। शब्दार्थक केंद्रित शब्द के विपरीत शब्दार्थ में कई बार शब्द केंद्रित रूप से आएंगे।
संग्रह आवृत्ति (cf i )
इसे होने वाली घटनाओं की कुल संख्या के रूप में परिभाषित किया जा सकता है wi संग्रह में।
गणितीय रूप से, $ df_ {i} \ leq cf_ {i} \: और \: \ sum_ {j} tf_ {ij} = cf_ {i} $
दस्तावेज़ आवृत्ति भार के रूप
आइए अब हम दस्तावेज़ आवृत्ति भार के विभिन्न रूपों के बारे में जानें। रूपों का वर्णन नीचे दिया गया है -
टर्म फ्रिक्वेंसी फैक्टर
इसे टर्म फ़्रीक्वेंसी फ़ैक्टर के रूप में भी वर्गीकृत किया गया है, जिसका अर्थ है कि यदि कोई शब्द t किसी दस्तावेज़ में अक्सर एक क्वेरी होती है tउस दस्तावेज़ को पुनः प्राप्त करना चाहिए। हम शब्द का संयोजन कर सकते हैंterm frequency (tfij) तथा document frequency (dfi) निम्नानुसार एक वजन में -
$ $ वजन \ बा (i, j \ _) = \ _ {केस {} (1 + लॉग (tf_ {ij})) लॉग \ frac {N} {df_ {i}} \: if \: tf_ {i j} \: \ geq1 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \। : \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: अगर:: \: tf_ {i, j} \: = ० \ अंत {मामलों } $$
यहाँ N कुल दस्तावेजों की संख्या है।
उलटा दस्तावेज़ फ़्रिक्वेंसी (आईडीएफ)
यह डॉक्यूमेंट फ़्रीक्वेंसी वेटिंग का एक और रूप है जिसे अक्सर आइडीएफ वेटिंग या उलटा डॉक्यूमेंट फ़्रीक्वेंसी वेटिंग कहा जाता है। आईडीएफ वेटिंग का महत्वपूर्ण बिंदु यह है कि संग्रह के दौरान शब्द की कमी इसके महत्व का एक माप है और महत्व घटना की आवृत्ति के विपरीत आनुपातिक है।
गणित के अनुसार,
$$ idf_ {t} = log \ left (1+ \ frac {N} {n_ {t}} \ _ \ _)
$$ idf_ {t} = log \ left (\ frac {N-n_ {t}} {n_ {t}} \ right) $$
यहाँ,
एन = संग्रह में दस्तावेज
n t = टर्म टी वाले दस्तावेज
उपयोगकर्ता क्वेरी सुधार
किसी भी सूचना पुनर्प्राप्ति प्रणाली का प्राथमिक लक्ष्य सटीकता होना चाहिए - उपयोगकर्ता की आवश्यकता के अनुसार प्रासंगिक दस्तावेज तैयार करना। हालांकि, यहां जो सवाल उठता है वह यह है कि हम उपयोगकर्ता की क्वेरी गठन शैली में सुधार करके आउटपुट कैसे सुधार सकते हैं। निश्चित रूप से, किसी भी IR प्रणाली का उत्पादन उपयोगकर्ता की क्वेरी पर निर्भर है और एक अच्छी तरह से स्वरूपित क्वेरी अधिक सटीक परिणाम देगा। उपयोगकर्ता की मदद से उसकी / उसकी क्वेरी में सुधार कर सकते हैंrelevance feedback, किसी भी आईआर मॉडल का एक महत्वपूर्ण पहलू।
प्रासंगिकता प्रतिक्रिया
प्रासंगिकता प्रतिक्रिया उस आउटपुट को लेती है जो शुरू में दिए गए क्वेरी से वापस आ जाता है। इस प्रारंभिक आउटपुट का उपयोग उपयोगकर्ता जानकारी को इकट्ठा करने और यह जानने के लिए किया जा सकता है कि क्या यह आउटपुट नई क्वेरी करने के लिए प्रासंगिक है या नहीं। फीडबैक को इस प्रकार वर्गीकृत किया जा सकता है -
स्पष्ट प्रतिक्रिया
इसे फीडबैक के रूप में परिभाषित किया जा सकता है जो प्रासंगिकता के मूल्यांकनकर्ताओं से प्राप्त होता है। ये मूल्यांकनकर्ता क्वेरी से प्राप्त दस्तावेज़ की प्रासंगिकता का भी संकेत देंगे। क्वेरी पुनर्प्राप्ति प्रदर्शन को बेहतर बनाने के लिए, प्रासंगिक प्रतिक्रिया जानकारी को मूल क्वेरी के साथ प्रक्षेपित करने की आवश्यकता है।
मूल्यांकनकर्ता या सिस्टम के अन्य उपयोगकर्ता निम्नलिखित प्रासंगिक प्रणालियों का उपयोग करके प्रासंगिकता को स्पष्ट रूप से इंगित कर सकते हैं -
Binary relevance system - यह प्रासंगिकता प्रतिक्रिया प्रणाली इंगित करती है कि एक दस्तावेज़ किसी दिए गए प्रश्न के लिए प्रासंगिक (1) या अप्रासंगिक (0) है।
Graded relevance system- श्रेणीबद्ध प्रासंगिकता फीडबैक प्रणाली संख्याओं, अक्षरों या विवरणों का उपयोग करके ग्रेडिंग के आधार पर किसी दिए गए प्रश्न के लिए एक दस्तावेज़ की प्रासंगिकता को इंगित करती है। विवरण "प्रासंगिक नहीं", "कुछ प्रासंगिक", "बहुत प्रासंगिक" या "प्रासंगिक" जैसा हो सकता है।
अप्रत्यक्ष प्रतिक्रिया
यह फीडबैक है जो उपयोगकर्ता के व्यवहार से जुड़ा हुआ है। व्यवहार में किसी दस्तावेज़ को देखने में बिताए गए उपयोगकर्ता की अवधि शामिल है, कौन सा दस्तावेज़ देखने के लिए चुना गया है और कौन सा नहीं है, पृष्ठ ब्राउज़िंग और स्क्रॉलिंग क्रियाएं, आदि। अंतर्निहित प्रतिक्रिया के सबसे अच्छे उदाहरणों में से एक।dwell time, जो उपयोगकर्ता द्वारा खोज परिणाम में लिंक किए गए पृष्ठ को देखने में कितना समय खर्च करता है, इसका एक उपाय है।
छद्म प्रतिक्रिया
इसे ब्लाइंड फीडबैक भी कहा जाता है। यह स्वचालित स्थानीय विश्लेषण के लिए एक विधि प्रदान करता है। प्रासंगिकता प्रतिक्रिया का मैनुअल हिस्सा छद्म प्रासंगिकता प्रतिक्रिया की मदद से स्वचालित है ताकि उपयोगकर्ता को विस्तारित बातचीत के बिना पुनर्प्राप्ति प्रदर्शन में सुधार हो। इस प्रतिक्रिया प्रणाली का मुख्य लाभ यह है कि इसे स्पष्ट प्रासंगिकता प्रतिक्रिया प्रणाली की तरह मूल्यांकनकर्ताओं की आवश्यकता नहीं होती है।
इस प्रतिक्रिया को लागू करने के लिए निम्नलिखित चरणों पर विचार करें -
Step 1- सबसे पहले, प्रारंभिक प्रश्न द्वारा लौटाए गए परिणाम को प्रासंगिक परिणाम के रूप में लिया जाना चाहिए। प्रासंगिक परिणाम की सीमा शीर्ष 10-50 परिणामों में होनी चाहिए।
Step 2 - अब, उदाहरण के लिए आवृत्ति (tf) -inverse दस्तावेज़ आवृत्ति (आईडीएफ) वजन के लिए दस्तावेजों से शीर्ष 20-30 शर्तों का चयन करें।
Step 3- इन शर्तों को क्वेरी में जोड़ें और लौटे दस्तावेजों से मिलान करें। फिर सबसे अधिक प्रासंगिक दस्तावेज लौटाएं।