डाटा माइनिंग - कार्य
डेटा माइनिंग उस तरह के पैटर्न से संबंधित है, जिनका खनन किया जा सकता है। खनन किए जाने वाले डेटा के प्रकार के आधार पर, डेटा माइनिंग में शामिल कार्यों की दो श्रेणियां हैं -
- Descriptive
- वर्गीकरण और भविष्यवाणी
वर्णनात्मक कार्य
वर्णनात्मक फ़ंक्शन डेटाबेस में डेटा के सामान्य गुणों से संबंधित है। यहाँ वर्णनात्मक कार्यों की सूची दी गई है -
- कक्षा / संकल्पना विवरण
- बार-बार पैटर्न का खनन
- संघों का खनन
- सहसंबंधों का खनन
- क्लस्टरों का खनन
कक्षा / संकल्पना विवरण
क्लास / कॉन्सेप्ट से तात्पर्य उन आंकड़ों से है जो कक्षाओं या अवधारणाओं से जुड़े होते हैं। उदाहरण के लिए, एक कंपनी में, बिक्री के लिए वस्तुओं के वर्ग में कंप्यूटर और प्रिंटर शामिल हैं, और ग्राहकों की अवधारणाओं में बड़े खर्च करने वाले और बजट खर्च करने वाले शामिल हैं। किसी वर्ग या अवधारणा के ऐसे विवरणों को वर्ग / अवधारणा विवरण कहा जाता है। इन विवरणों को निम्नलिखित दो तरीकों से प्राप्त किया जा सकता है -
Data Characterization- यह अध्ययन के तहत कक्षा के डेटा को संक्षेप करने के लिए संदर्भित करता है। अध्ययन के तहत इस वर्ग को लक्ष्य वर्ग कहा जाता है।
Data Discrimination - यह किसी पूर्वनिर्धारित समूह या वर्ग के साथ वर्ग के मानचित्रण या वर्गीकरण को संदर्भित करता है।
बार-बार पैटर्न का खनन
बार-बार आने वाले पैटर्न वे पैटर्न होते हैं जो अक्सर ट्रांजेक्शनल डेटा में होते हैं। यहाँ अक्सर तरह के पैटर्न की सूची है -
Frequent Item Set - यह उन वस्तुओं के समूह को संदर्भित करता है जो अक्सर एक साथ दिखाई देते हैं, उदाहरण के लिए, दूध और ब्रेड।
Frequent Subsequence - पैटर्न का एक क्रम जो अक्सर होता है जैसे कि कैमरा खरीदना मेमोरी कार्ड द्वारा होता है।
Frequent Sub Structure - सबस्ट्रक्चर अलग-अलग संरचनात्मक रूपों, जैसे कि ग्राफ़, पेड़, या जाली को संदर्भित करता है, जिसे आइटम-सेट या बाद के साथ जोड़ा जा सकता है।
एसोसिएशन का खनन
एसोसिएशनों का उपयोग खुदरा बिक्री में उन पैटर्न की पहचान करने के लिए किया जाता है जो अक्सर एक साथ खरीदे जाते हैं। यह प्रक्रिया डेटा के बीच संबंध को उजागर करने और एसोसिएशन के नियमों को निर्धारित करने की प्रक्रिया को संदर्भित करती है।
उदाहरण के लिए, एक रिटेलर एक एसोसिएशन नियम बनाता है जो दर्शाता है कि 70% समय दूध ब्रेड के साथ बेचा जाता है और केवल 30% बिस्कुट को ब्रेड के साथ बेचा जाता है।
सहसंबंधों का खनन
यह एक तरह का अतिरिक्त विश्लेषण है जो संबद्ध-विशेषता-मूल्य जोड़े के बीच या दो आइटम सेट के बीच दिलचस्प सांख्यिकीय सहसंबंधों को उजागर करने के लिए किया जाता है ताकि यह विश्लेषण किया जा सके कि क्या उनका सकारात्मक, नकारात्मक या एक दूसरे पर कोई प्रभाव नहीं है।
क्लस्टरों का खनन
क्लस्टर इसी तरह की वस्तुओं के समूह को संदर्भित करता है। क्लस्टर विश्लेषण से तात्पर्य उन वस्तुओं के समूह से है जो एक दूसरे से बहुत मिलते जुलते हैं लेकिन अन्य समूहों में मौजूद वस्तुओं से बहुत भिन्न हैं।
वर्गीकरण और भविष्यवाणी
वर्गीकरण एक मॉडल खोजने की प्रक्रिया है जो डेटा कक्षाओं या अवधारणाओं का वर्णन करता है। उद्देश्य इस मॉडल का उपयोग उन वस्तुओं के वर्ग की भविष्यवाणी करने में सक्षम है, जिनके वर्ग लेबल अज्ञात हैं। यह व्युत्पन्न मॉडल प्रशिक्षण डेटा के सेट के विश्लेषण पर आधारित है। व्युत्पन्न मॉडल निम्नलिखित रूपों में प्रस्तुत किया जा सकता है -
- वर्गीकरण (IF-THEN) नियम
- निर्णय के पेड़
- गणितीय सूत्र
- तंत्रिका जाल
इन प्रक्रियाओं में शामिल कार्यों की सूची इस प्रकार है -
Classification- यह उन वस्तुओं के वर्ग की भविष्यवाणी करता है जिनका वर्ग लेबल अज्ञात है। इसका उद्देश्य एक व्युत्पन्न मॉडल खोजना है जो डेटा कक्षाओं या अवधारणाओं का वर्णन और अंतर करता है। व्युत्पन्न मॉडल प्रशिक्षण डेटा के विश्लेषण सेट यानी डेटा ऑब्जेक्ट पर आधारित है जिसका क्लास लेबल अच्छी तरह से जाना जाता है।
Prediction- इसका उपयोग कक्षा के लेबल के बजाय लापता या अनुपलब्ध संख्यात्मक डेटा मूल्यों की भविष्यवाणी करने के लिए किया जाता है। प्रतिगमन विश्लेषण आमतौर पर भविष्यवाणी के लिए उपयोग किया जाता है। उपलब्ध आंकड़ों के आधार पर वितरण के रुझानों की पहचान के लिए भी भविष्यवाणी का उपयोग किया जा सकता है।
Outlier Analysis - आउटलेयर को डेटा ऑब्जेक्ट के रूप में परिभाषित किया जा सकता है जो उपलब्ध डेटा के सामान्य व्यवहार या मॉडल का अनुपालन नहीं करते हैं।
Evolution Analysis - एवोल्यूशन विश्लेषण उन वस्तुओं के लिए विवरण और मॉडल नियमितताओं या रुझानों को संदर्भित करता है जिनका व्यवहार समय के साथ बदलता है।
डाटा माइनिंग टास्क प्रिमिटिव
- हम डेटा माइनिंग कार्य को डेटा माइनिंग क्वेरी के रूप में निर्दिष्ट कर सकते हैं।
- यह क्वेरी सिस्टम का इनपुट है।
- डेटा माइनिंग कार्य प्रिमिटिव के संदर्भ में डेटा माइनिंग क्वेरी को परिभाषित किया गया है।
Note- ये आदिम हमें डेटा खनन प्रणाली के साथ इंटरैक्टिव तरीके से संवाद करने की अनुमति देते हैं। यहाँ डेटा खनन कार्य प्रधानों की सूची दी गई है -
- कार्य संबंधित डेटा का खनन किया जाना है।
- खनन करने के लिए ज्ञान की तरह।
- खोज प्रक्रिया में उपयोग किया जाने वाला पृष्ठभूमि ज्ञान।
- पैटर्न के मूल्यांकन के लिए दिलचस्प उपाय और सीमाएं।
- खोजे गए पैटर्न को देखने के लिए प्रतिनिधित्व।
कार्य संबंधित डेटा का खनन किया जाना है
यह डेटाबेस का वह भाग है जिसमें उपयोगकर्ता रुचि रखता है। इस भाग में निम्नलिखित शामिल हैं -
- डेटाबेस विशेषताएँ
- ब्याज के डेटा वेयरहाउस आयाम
खनन करने के लिए ज्ञान की तरह
यह प्रदर्शन किए जाने वाले कार्यों के प्रकार को संदर्भित करता है। ये कार्य हैं -
- Characterization
- Discrimination
- एसोसिएशन और सहसंबंध विश्लेषण
- Classification
- Prediction
- Clustering
- बाह्य विश्लेषण
- विकास विश्लेषण
पृष्ठभूमि का ज्ञान
पृष्ठभूमि ज्ञान डेटा को अमूर्तता के कई स्तरों पर खनन करने की अनुमति देता है। उदाहरण के लिए, अवधारणा पदानुक्रम पृष्ठभूमि ज्ञान में से एक है जो डेटा को अमूर्त के कई स्तरों पर खनन करने की अनुमति देता है।
पैटर्न के मूल्यांकन के लिए दिलचस्प उपाय और सीमाएं
इसका उपयोग ज्ञान की खोज की प्रक्रिया द्वारा खोजे जाने वाले प्रतिमानों के मूल्यांकन के लिए किया जाता है। विभिन्न प्रकार के ज्ञान के लिए अलग-अलग दिलचस्प उपाय हैं।
खोजे गए पैटर्न को देखने के लिए प्रतिनिधित्व
यह उस रूप को संदर्भित करता है जिसमें खोजे गए पैटर्न प्रदर्शित किए जाने हैं। इन अभ्यावेदन में निम्नलिखित शामिल हो सकते हैं। -
- Rules
- Tables
- Charts
- Graphs
- निर्णय के पेड़
- Cubes