डाटा माइनिंग - मूल्यांकन
डेटा वेयरहाउस
एक डेटा वेयरहाउस प्रबंधन की निर्णय लेने की प्रक्रिया का समर्थन करने के लिए निम्नलिखित विशेषताओं को प्रदर्शित करता है -
Subject Oriented- डेटा वेयरहाउस विषय उन्मुख है क्योंकि यह हमें संगठन के चालू संचालन के बजाय किसी विषय के बारे में जानकारी प्रदान करता है। ये विषय उत्पाद, ग्राहक, आपूर्तिकर्ता, बिक्री, राजस्व आदि हो सकते हैं। डेटा वेयरहाउस चालू परिचालन पर ध्यान केंद्रित नहीं करता है, बल्कि यह निर्णय लेने के लिए मॉडलिंग और डेटा के विश्लेषण पर केंद्रित है।
Integrated - डेटा वेयरहाउस का निर्माण विषम स्रोतों से डेटा के एकीकरण द्वारा किया जाता है जैसे कि रिलेशनल डेटाबेस, फ़्लैट फ़ाइल्स आदि। यह एकीकरण डेटा के प्रभावी विश्लेषण को बढ़ाता है।
Time Variant- डेटा वेयरहाउस में एकत्रित डेटा की पहचान एक विशेष समय अवधि के साथ की जाती है। डेटा वेयरहाउस में डेटा ऐतिहासिक दृष्टिकोण से जानकारी प्रदान करता है।
Non-volatile- नॉनवॉलेस्टिक का मतलब है जब नया डेटा इसमें जोड़ा जाता है तो पिछला डेटा नहीं हटाया जाता है। डेटा वेयरहाउस को ऑपरेशनल डेटाबेस से अलग रखा जाता है इसलिए डेटा डेटाबेस में ऑपरेशनल डेटाबेस में बार-बार बदलाव परिलक्षित नहीं होता है।
विवरण भण्डारण
डेटा वेयरहाउसिंग डेटा वेयरहाउस के निर्माण और उपयोग की प्रक्रिया है। एक डेटा वेयरहाउस का निर्माण कई विषम स्रोतों से डेटा को एकीकृत करके किया जाता है। यह विश्लेषणात्मक रिपोर्टिंग, संरचित और / या तदर्थ प्रश्नों और निर्णय लेने का समर्थन करता है।
डेटा वेयरहाउसिंग में डेटा सफाई, डेटा एकीकरण और डेटा समेकन शामिल हैं। विषम डेटाबेस को एकीकृत करने के लिए, हमारे पास निम्नलिखित दो दृष्टिकोण हैं -
- क्वेरी प्रेरित दृष्टिकोण
- अद्यतन प्रेरित दृष्टिकोण
प्रश्न-चालित दृष्टिकोण
यह विषम डेटाबेसों को एकीकृत करने के लिए पारंपरिक दृष्टिकोण है। इस दृष्टिकोण का उपयोग कई विषम डेटाबेस के शीर्ष पर रैपर और इंटीग्रेटर्स के निर्माण के लिए किया जाता है। इन इंटीग्रेटर्स को मध्यस्थों के रूप में भी जाना जाता है।
क्वेरी ड्रिवेन अप्रोच की प्रक्रिया
जब कोई क्वेरी क्लाइंट पक्ष को जारी की जाती है, तो मेटाडेटा शब्दकोश क्वेरी को क्वेरी में अनुवादित करता है, जिसमें शामिल व्यक्तिगत विषम साइट के लिए उपयुक्त है।
अब इन क्वेरी को मैप किया जाता है और स्थानीय क्वेरी प्रोसेसर को भेजा जाता है।
विषम स्थलों से परिणाम एक वैश्विक उत्तर सेट में एकीकृत होते हैं।
नुकसान
इस दृष्टिकोण के निम्नलिखित नुकसान हैं -
क्वेरी ड्रिवन दृष्टिकोण को जटिल एकीकरण और फ़िल्टरिंग प्रक्रियाओं की आवश्यकता है।
यह बहुत ही अक्षम है और लगातार प्रश्नों के लिए बहुत महंगा है।
एकत्रीकरण की आवश्यकता वाले प्रश्नों के लिए यह दृष्टिकोण महंगा है।
अद्यतन-प्रेरित दृष्टिकोण
आज के डेटा वेयरहाउस सिस्टम पहले से चर्चा किए गए पारंपरिक दृष्टिकोण के बजाय अपडेट-संचालित दृष्टिकोण का पालन करते हैं। अपडेट-संचालित दृष्टिकोण में, कई विषम स्रोतों से जानकारी अग्रिम में एकीकृत की जाती है और एक गोदाम में संग्रहीत की जाती है। यह जानकारी प्रत्यक्ष क्वेरी और विश्लेषण के लिए उपलब्ध है।
लाभ
इस दृष्टिकोण के निम्नलिखित फायदे हैं -
यह दृष्टिकोण उच्च प्रदर्शन प्रदान करता है।
डेटा को पहले से ही सिमेंटिक डेटा स्टोर में कॉपी, संसाधित, एकीकृत, एनोटेट, संक्षेप और पुनर्गठन किया जा सकता है।
क्वेरी संसाधन को स्थानीय स्रोतों पर प्रसंस्करण के साथ इंटरफ़ेस की आवश्यकता नहीं होती है।
डेटा वेयरहाउसिंग (OLAP) से डेटा माइनिंग (OLAM) तक
ऑनलाइन एनालिटिकल माइनिंग ऑनलाइन एनालिटिकल प्रोसेसिंग के साथ डेटा माइनिंग और माइनिंग नॉलेज के साथ बहुआयामी डेटाबेस में एकीकृत करता है। यहाँ वह चित्र है जो OLAP और OLAM दोनों के एकीकरण को दर्शाता है -
OLAM का महत्व
निम्नलिखित कारणों से OLAM महत्वपूर्ण है -
High quality of data in data warehouses- डेटा खनन उपकरण को एकीकृत, सुसंगत और साफ किए गए डेटा पर काम करना आवश्यक है। डेटा के प्रीप्रोसेसिंग में ये कदम बहुत महंगा है। इस तरह के प्रीप्रोसेसिंग द्वारा निर्मित डेटा वेयरहाउस OLAP और डेटा खनन के लिए उच्च गुणवत्ता वाले डेटा के मूल्यवान स्रोत हैं।
Available information processing infrastructure surrounding data warehouses - सूचना प्रसंस्करण अवसंरचना का तात्पर्य कई विषम डेटाबेस, वेब-एक्सेसिंग और सेवा सुविधाओं, रिपोर्टिंग और OLAP विश्लेषण उपकरणों तक पहुंच, एकीकरण, समेकन और परिवर्तन से है।
OLAP−based exploratory data analysis- प्रभावी डेटा माइनिंग के लिए खोजपूर्ण डेटा विश्लेषण आवश्यक है। OLAM डेटा खनन के लिए डेटा के विभिन्न सबसेट पर और अमूर्त के विभिन्न स्तरों पर सुविधा प्रदान करता है।
Online selection of data mining functions - कई डेटा माइनिंग फ़ंक्शंस के साथ ओएलएपी को एकीकृत करना और ऑनलाइन एनालिटिकल माइनिंग से यूज़र्स को मनचाहा डेटा माइनिंग फ़ंक्शंस सिलेक्ट करना और डायनेमिक रूप से डेटा माइनिंग स्वैप करना।