डेटा माइनिंग - थीम्स

डेटा माइनिंग की सैद्धांतिक नींव

डेटा माइनिंग की सैद्धांतिक नींव में निम्नलिखित अवधारणाएं शामिल हैं -

Data Reduction- इस सिद्धांत का मूल विचार डेटा प्रतिनिधित्व को कम करना है जो बहुत बड़े डेटाबेस पर प्रश्नों के त्वरित अनुमानित उत्तर प्राप्त करने की आवश्यकता के जवाब में गति के लिए सटीकता को ट्रेड करता है। डेटा में कमी की कुछ तकनीकें इस प्रकार हैं -
- विलक्षण मान अपघटन
- Wavelets
- Regression
- लॉग-लीनियर मॉडल
- Histograms
- Clustering
- Sampling
- सूचकांक पेड़ों का निर्माण
Data Compression - इस सिद्धांत का मूल विचार निम्नलिखित के संदर्भ में एन्कोडिंग द्वारा दिए गए डेटा को संपीड़ित करना है -
- Bits
- एसोसिएशन के नियम
- निर्णय के पेड़
- Clusters
Pattern Discovery- इस सिद्धांत का मूल विचार एक डेटाबेस में होने वाले पैटर्न की खोज करना है। इस सिद्धांत में योगदान देने वाले क्षेत्र निम्नलिखित हैं -
- मशीन लर्निंग
- तंत्रिका नेटवर्क
- एसोसिएशन खनन
- अनुक्रमिक पैटर्न मिलान
- Clustering
Probability Theory- यह सिद्धांत सांख्यिकीय सिद्धांत पर आधारित है। इस सिद्धांत के पीछे मूल विचार यादृच्छिक चर के संयुक्त संभाव्यता वितरण की खोज करना है।
Probability Theory - इस सिद्धांत के अनुसार, डेटा माइनिंग उन पैटर्नों को खोजता है जो केवल इस हद तक दिलचस्प हैं कि उनका उपयोग कुछ उद्यम की निर्णय लेने की प्रक्रिया में किया जा सकता है।
Microeconomic View- इस सिद्धांत के अनुसार, एक डेटाबेस स्कीमा में डेटा और पैटर्न होते हैं जो एक डेटाबेस में संग्रहीत होते हैं। इसलिए, डेटा माइनिंग डेटाबेस पर इंडक्शन करने का कार्य है।
Inductive databases- डेटाबेस-उन्मुख तकनीकों के अलावा, डेटा विश्लेषण के लिए सांख्यिकीय तकनीक उपलब्ध हैं। इन तकनीकों को वैज्ञानिक डेटा और आर्थिक और सामाजिक विज्ञान से डेटा के लिए भी लागू किया जा सकता है।

सांख्यिकीय डेटा खनन

सांख्यिकीय डेटा खनन तकनीकों में से कुछ इस प्रकार हैं -

Regression- प्रतिगमन विधियों का उपयोग एक या एक से अधिक भविष्य कहनेवाला चर से प्रतिक्रिया चर के मूल्य का अनुमान लगाने के लिए किया जाता है जहां चर संख्यात्मक होते हैं। नीचे सूचीबद्ध हैं प्रतिगमन के रूप -
- Linear
- Multiple
- Weighted
- Polynomial
- Nonparametric
- Robust
Generalized Linear Models - सामान्यीकृत रैखिक मॉडल में शामिल हैं -
- रसद प्रतिगमन
- पोइसन रिग्रेशन
मॉडल का सामान्यीकरण एक श्रेणीबद्ध प्रतिक्रिया चर को भविष्यवाणियों के एक सेट से संबंधित होने की अनुमति देता है, जो रैखिक प्रतिगमन का उपयोग करके संख्यात्मक प्रतिक्रिया चर के मॉडलिंग के समान है।
Analysis of Variance - यह तकनीक विश्लेषण करती है -
- संख्यात्मक प्रतिक्रिया चर द्वारा वर्णित दो या अधिक आबादी के लिए प्रायोगिक डेटा।
- एक या अधिक श्रेणीबद्ध चर (कारक)।
Mixed-effect Models- इन मॉडलों का उपयोग समूहीकृत डेटा के विश्लेषण के लिए किया जाता है। ये मॉडल एक या अधिक कारकों के अनुसार समूहीकृत डेटा में एक प्रतिक्रिया चर और कुछ सह-चर के बीच संबंध का वर्णन करते हैं।
Factor Analysis- कारक विश्लेषण का उपयोग एक श्रेणीगत प्रतिक्रिया चर की भविष्यवाणी करने के लिए किया जाता है। यह विधि मानती है कि स्वतंत्र चर एक बहुभिन्नरूपी सामान्य वितरण का पालन करते हैं।
Time Series Analysis - समय-श्रृंखला डेटा के विश्लेषण के लिए तरीके निम्नलिखित हैं -
- ऑटो-रिग्रेशन मेथड्स।
- Univariate ARIMA (ऑटोरिएरिव इंटीग्रेटेड मूविंग एवरेज) मॉडलिंग।
- लंबी-स्मृति समय-श्रृंखला मॉडलिंग।

दृश्य डेटा खनन

विजुअल डेटा माइनिंग बड़े डेटा सेट से निहित ज्ञान की खोज के लिए डेटा और / या ज्ञान विज़ुअलाइज़ेशन तकनीकों का उपयोग करता है। विज़ुअल डेटा माइनिंग को निम्नलिखित विषयों के एकीकरण के रूप में देखा जा सकता है -

डेटा विज़ुअलाइज़ेशन
डेटा माइनिंग

विज़ुअल डेटा माइनिंग निम्नलिखित के साथ निकटता से संबंधित है -

कंप्यूटर ग्राफिक्स
मल्टीमीडिया सिस्टम
ह्यूमन कंप्यूटर इंटरेक्शन
पैटर्न मान्यता
उच्च प्रदर्शन कंप्यूटिंग

आम तौर पर डेटा विज़ुअलाइज़ेशन और डेटा माइनिंग को निम्नलिखित तरीकों से एकीकृत किया जा सकता है -

Data Visualization - डेटाबेस या डेटा वेयरहाउस में डेटा को नीचे सूचीबद्ध कई दृश्य रूपों में देखा जा सकता है -
- Boxplots
- 3-डी क्यूब्स
- डेटा वितरण चार्ट
- Curves
- Surfaces
- लिंक ग्राफ आदि।
Data Mining Result Visualization- डेटा माइनिंग रिजल्ट विज़ुअलाइज़ेशन दृश्य रूपों में डेटा खनन के परिणामों की प्रस्तुति है। ये दृश्य रूप बिखरे हुए प्लॉट, बॉक्सप्लाट्स आदि हो सकते हैं।
Data Mining Process Visualization- डाटा माइनिंग प्रोसेस विज़ुअलाइज़ेशन डेटा माइनिंग की कई प्रक्रियाओं को प्रस्तुत करता है। यह उपयोगकर्ताओं को यह देखने की अनुमति देता है कि डेटा कैसे निकाला जाता है। यह उपयोगकर्ताओं को यह भी देखने की अनुमति देता है कि किस डेटाबेस या डेटा वेयरहाउस से डेटा को साफ, एकीकृत, प्रीप्रोसेड और खनन किया जाता है।

ऑडियो डेटा खनन

ऑडियो डेटा माइनिंग डेटा के पैटर्न या डेटा माइनिंग परिणामों की विशेषताओं को इंगित करने के लिए ऑडियो सिग्नल का उपयोग करता है। पैटर्न को ध्वनि और संगीत में बदलकर, हम पिचों और धुनों को सुन सकते हैं, चित्रों को देखने के बजाय, ताकि कुछ भी दिलचस्प पहचान सकें।

डाटा माइनिंग और सहयोगी फ़िल्टरिंग

आज उपभोक्ता खरीदारी करते समय कई तरह की वस्तुओं और सेवाओं में आते हैं। लाइव ग्राहक लेनदेन के दौरान, एक सिफ़ारिश प्रणाली उत्पाद की सिफारिशें करके उपभोक्ता की मदद करती है। सहयोगात्मक फ़िल्टरिंग दृष्टिकोण आमतौर पर ग्राहकों को उत्पादों की सिफारिश करने के लिए उपयोग किया जाता है। ये सिफारिशें अन्य ग्राहकों की राय पर आधारित हैं।