डाटा माइनिंग - माइनिंग टेक्स्ट डेटा
पाठ डेटाबेस दस्तावेजों के विशाल संग्रह से मिलकर बनता है। वे इन सूचनाओं को समाचार स्रोतों, पुस्तकों, डिजिटल पुस्तकालयों, ई-मेल संदेशों, वेब पेजों आदि जैसे कई स्रोतों से एकत्र करते हैं। सूचना की मात्रा में वृद्धि के कारण, पाठ डेटाबेस तेजी से बढ़ रहे हैं। कई पाठ डेटाबेस में, डेटा अर्ध-संरचित है।
उदाहरण के लिए, एक दस्तावेज़ में कुछ संरचित फ़ील्ड शामिल हो सकते हैं, जैसे शीर्षक, लेखक, प्रकाशन_डेट आदि। लेकिन संरचना डेटा के साथ-साथ दस्तावेज़ में असंरचित पाठ घटक भी होते हैं, जैसे कि सार और सामग्री। दस्तावेजों में क्या हो सकता है यह जानने के बिना, डेटा से उपयोगी जानकारी का विश्लेषण और निकालने के लिए प्रभावी प्रश्न तैयार करना मुश्किल है। उपयोगकर्ताओं को दस्तावेजों की तुलना करने और उनके महत्व और प्रासंगिकता को रैंक करने के लिए उपकरणों की आवश्यकता होती है। इसलिए, पाठ खनन लोकप्रिय हो गया है और डेटा खनन में एक आवश्यक विषय है।
सूचना पुनर्प्राप्ति
सूचना पुनर्प्राप्ति बड़ी संख्या में पाठ-आधारित दस्तावेजों से सूचना की पुनर्प्राप्ति से संबंधित है। कुछ डेटाबेस सिस्टम आमतौर पर सूचना पुनर्प्राप्ति प्रणालियों में मौजूद नहीं होते हैं क्योंकि दोनों विभिन्न प्रकार के डेटा को संभालते हैं। सूचना पुनर्प्राप्ति प्रणाली के उदाहरणों में शामिल हैं -
- ऑनलाइन लाइब्रेरी कैटलॉग सिस्टम
- ऑनलाइन दस्तावेज़ प्रबंधन प्रणाली
- वेब सर्च सिस्टम आदि।
Note- सूचना पुनर्प्राप्ति प्रणाली में मुख्य समस्या उपयोगकर्ता के प्रश्न के आधार पर दस्तावेज़ संग्रह में प्रासंगिक दस्तावेजों का पता लगाना है। इस तरह की उपयोगकर्ता की क्वेरी में कुछ कीवर्ड होते हैं जो एक सूचना की आवश्यकता का वर्णन करते हैं।
ऐसी खोज समस्याओं में, उपयोगकर्ता एक संग्रह से प्रासंगिक जानकारी को बाहर निकालने की पहल करता है। यह उचित है जब उपयोगकर्ता को तदर्थ जानकारी की आवश्यकता होती है, अर्थात, अल्पकालिक आवश्यकता। लेकिन अगर उपयोगकर्ता को दीर्घकालिक जानकारी की आवश्यकता है, तो पुनर्प्राप्ति प्रणाली भी उपयोगकर्ता के लिए किसी भी नव सूचना आइटम को धकेलने की पहल कर सकती है।
सूचना तक इस तरह की पहुंच को सूचना फ़िल्टरिंग कहा जाता है। और संबंधित प्रणालियों को फ़िल्टरिंग सिस्टम या अनुशंसित सिस्टम के रूप में जाना जाता है।
पाठ पुनर्प्राप्ति के लिए बुनियादी उपाय
हमें एक सिस्टम की सटीकता की जांच करने की आवश्यकता है जब यह उपयोगकर्ता के इनपुट के आधार पर कई दस्तावेजों को पुनर्प्राप्त करता है। किसी क्वेरी के लिए प्रासंगिक दस्तावेज़ों के सेट को {Relevant} के रूप में और पुन: प्राप्त दस्तावेज़ को {Retrieved} के रूप में दर्शाया जाता है। प्रासंगिक और पुनर्प्राप्त किए गए दस्तावेज़ों के सेट को {Relevant} Ret {Retrieved} के रूप में दर्शाया जा सकता है। इसे Venn आरेख के रूप में निम्नानुसार दिखाया जा सकता है -
पाठ पुनर्प्राप्ति की गुणवत्ता का आकलन करने के लिए तीन मौलिक उपाय हैं -
- Precision
- Recall
- F-score
शुद्धता
परिशुद्धता प्राप्त दस्तावेजों का प्रतिशत है जो वास्तव में क्वेरी के लिए प्रासंगिक हैं। परिशुद्धता के रूप में परिभाषित किया जा सकता है -
Precision= |{Relevant} ∩ {Retrieved}| / |{Retrieved}|
याद
याद उन दस्तावेजों का प्रतिशत है जो क्वेरी के लिए प्रासंगिक हैं और वास्तव में पुनर्प्राप्त किए गए थे। स्मरण के रूप में परिभाषित किया गया है -
Recall = |{Relevant} ∩ {Retrieved}| / |{Relevant}|
एफ स्कोर
एफ-स्कोर आमतौर पर इस्तेमाल किया जाने वाला व्यापार है। सूचना पुनर्प्राप्ति प्रणाली को अक्सर सटीक या इसके विपरीत व्यापार बंद करने की आवश्यकता होती है। एफ-स्कोर को रिकॉल या सटीक के हार्मोनिक मतलब के रूप में परिभाषित किया गया है -
F-score = recall x precision / (recall + precision) / 2