डेटा माइनिंग - थीम्स
डेटा माइनिंग की सैद्धांतिक नींव
डेटा माइनिंग की सैद्धांतिक नींव में निम्नलिखित अवधारणाएं शामिल हैं -
Data Reduction- इस सिद्धांत का मूल विचार डेटा प्रतिनिधित्व को कम करना है जो बहुत बड़े डेटाबेस पर प्रश्नों के त्वरित अनुमानित उत्तर प्राप्त करने की आवश्यकता के जवाब में गति के लिए सटीकता को ट्रेड करता है। डेटा में कमी की कुछ तकनीकें इस प्रकार हैं -
विलक्षण मान अपघटन
Wavelets
Regression
लॉग-लीनियर मॉडल
Histograms
Clustering
Sampling
सूचकांक पेड़ों का निर्माण
Data Compression - इस सिद्धांत का मूल विचार निम्नलिखित के संदर्भ में एन्कोडिंग द्वारा दिए गए डेटा को संपीड़ित करना है -
Bits
एसोसिएशन के नियम
निर्णय के पेड़
Clusters
Pattern Discovery- इस सिद्धांत का मूल विचार एक डेटाबेस में होने वाले पैटर्न की खोज करना है। इस सिद्धांत में योगदान देने वाले क्षेत्र निम्नलिखित हैं -
मशीन लर्निंग
तंत्रिका नेटवर्क
एसोसिएशन खनन
अनुक्रमिक पैटर्न मिलान
Clustering
Probability Theory- यह सिद्धांत सांख्यिकीय सिद्धांत पर आधारित है। इस सिद्धांत के पीछे मूल विचार यादृच्छिक चर के संयुक्त संभाव्यता वितरण की खोज करना है।
Probability Theory - इस सिद्धांत के अनुसार, डेटा माइनिंग उन पैटर्नों को खोजता है जो केवल इस हद तक दिलचस्प हैं कि उनका उपयोग कुछ उद्यम की निर्णय लेने की प्रक्रिया में किया जा सकता है।
Microeconomic View- इस सिद्धांत के अनुसार, एक डेटाबेस स्कीमा में डेटा और पैटर्न होते हैं जो एक डेटाबेस में संग्रहीत होते हैं। इसलिए, डेटा माइनिंग डेटाबेस पर इंडक्शन करने का कार्य है।
Inductive databases- डेटाबेस-उन्मुख तकनीकों के अलावा, डेटा विश्लेषण के लिए सांख्यिकीय तकनीक उपलब्ध हैं। इन तकनीकों को वैज्ञानिक डेटा और आर्थिक और सामाजिक विज्ञान से डेटा के लिए भी लागू किया जा सकता है।
सांख्यिकीय डेटा खनन
सांख्यिकीय डेटा खनन तकनीकों में से कुछ इस प्रकार हैं -
Regression- प्रतिगमन विधियों का उपयोग एक या एक से अधिक भविष्य कहनेवाला चर से प्रतिक्रिया चर के मूल्य का अनुमान लगाने के लिए किया जाता है जहां चर संख्यात्मक होते हैं। नीचे सूचीबद्ध हैं प्रतिगमन के रूप -
Linear
Multiple
Weighted
Polynomial
Nonparametric
Robust
Generalized Linear Models - सामान्यीकृत रैखिक मॉडल में शामिल हैं -
रसद प्रतिगमन
पोइसन रिग्रेशन
मॉडल का सामान्यीकरण एक श्रेणीबद्ध प्रतिक्रिया चर को भविष्यवाणियों के एक सेट से संबंधित होने की अनुमति देता है, जो रैखिक प्रतिगमन का उपयोग करके संख्यात्मक प्रतिक्रिया चर के मॉडलिंग के समान है।
Analysis of Variance - यह तकनीक विश्लेषण करती है -
संख्यात्मक प्रतिक्रिया चर द्वारा वर्णित दो या अधिक आबादी के लिए प्रायोगिक डेटा।
एक या अधिक श्रेणीबद्ध चर (कारक)।
Mixed-effect Models- इन मॉडलों का उपयोग समूहीकृत डेटा के विश्लेषण के लिए किया जाता है। ये मॉडल एक या अधिक कारकों के अनुसार समूहीकृत डेटा में एक प्रतिक्रिया चर और कुछ सह-चर के बीच संबंध का वर्णन करते हैं।
Factor Analysis- कारक विश्लेषण का उपयोग एक श्रेणीगत प्रतिक्रिया चर की भविष्यवाणी करने के लिए किया जाता है। यह विधि मानती है कि स्वतंत्र चर एक बहुभिन्नरूपी सामान्य वितरण का पालन करते हैं।
Time Series Analysis - समय-श्रृंखला डेटा के विश्लेषण के लिए तरीके निम्नलिखित हैं -
ऑटो-रिग्रेशन मेथड्स।
Univariate ARIMA (ऑटोरिएरिव इंटीग्रेटेड मूविंग एवरेज) मॉडलिंग।
लंबी-स्मृति समय-श्रृंखला मॉडलिंग।
दृश्य डेटा खनन
विजुअल डेटा माइनिंग बड़े डेटा सेट से निहित ज्ञान की खोज के लिए डेटा और / या ज्ञान विज़ुअलाइज़ेशन तकनीकों का उपयोग करता है। विज़ुअल डेटा माइनिंग को निम्नलिखित विषयों के एकीकरण के रूप में देखा जा सकता है -
डेटा विज़ुअलाइज़ेशन
डेटा माइनिंग
विज़ुअल डेटा माइनिंग निम्नलिखित के साथ निकटता से संबंधित है -
कंप्यूटर ग्राफिक्स
मल्टीमीडिया सिस्टम
ह्यूमन कंप्यूटर इंटरेक्शन
पैटर्न मान्यता
उच्च प्रदर्शन कंप्यूटिंग
आम तौर पर डेटा विज़ुअलाइज़ेशन और डेटा माइनिंग को निम्नलिखित तरीकों से एकीकृत किया जा सकता है -
Data Visualization - डेटाबेस या डेटा वेयरहाउस में डेटा को नीचे सूचीबद्ध कई दृश्य रूपों में देखा जा सकता है -
Boxplots
3-डी क्यूब्स
डेटा वितरण चार्ट
Curves
Surfaces
लिंक ग्राफ आदि।
Data Mining Result Visualization- डेटा माइनिंग रिजल्ट विज़ुअलाइज़ेशन दृश्य रूपों में डेटा खनन के परिणामों की प्रस्तुति है। ये दृश्य रूप बिखरे हुए प्लॉट, बॉक्सप्लाट्स आदि हो सकते हैं।
Data Mining Process Visualization- डाटा माइनिंग प्रोसेस विज़ुअलाइज़ेशन डेटा माइनिंग की कई प्रक्रियाओं को प्रस्तुत करता है। यह उपयोगकर्ताओं को यह देखने की अनुमति देता है कि डेटा कैसे निकाला जाता है। यह उपयोगकर्ताओं को यह भी देखने की अनुमति देता है कि किस डेटाबेस या डेटा वेयरहाउस से डेटा को साफ, एकीकृत, प्रीप्रोसेड और खनन किया जाता है।
ऑडियो डेटा खनन
ऑडियो डेटा माइनिंग डेटा के पैटर्न या डेटा माइनिंग परिणामों की विशेषताओं को इंगित करने के लिए ऑडियो सिग्नल का उपयोग करता है। पैटर्न को ध्वनि और संगीत में बदलकर, हम पिचों और धुनों को सुन सकते हैं, चित्रों को देखने के बजाय, ताकि कुछ भी दिलचस्प पहचान सकें।
डाटा माइनिंग और सहयोगी फ़िल्टरिंग
आज उपभोक्ता खरीदारी करते समय कई तरह की वस्तुओं और सेवाओं में आते हैं। लाइव ग्राहक लेनदेन के दौरान, एक सिफ़ारिश प्रणाली उत्पाद की सिफारिशें करके उपभोक्ता की मदद करती है। सहयोगात्मक फ़िल्टरिंग दृष्टिकोण आमतौर पर ग्राहकों को उत्पादों की सिफारिश करने के लिए उपयोग किया जाता है। ये सिफारिशें अन्य ग्राहकों की राय पर आधारित हैं।