डाटा माइनिंग - वर्गीकरण और भविष्यवाणी
डेटा विश्लेषण के दो रूप हैं जिनका उपयोग महत्वपूर्ण कक्षाओं का वर्णन करने वाले मॉडल निकालने या भविष्य के डेटा रुझानों की भविष्यवाणी करने के लिए किया जा सकता है। ये दो रूप इस प्रकार हैं -
- Classification
- Prediction
वर्गीकरण मॉडल श्रेणीबद्ध श्रेणी के लेबल की भविष्यवाणी करते हैं; और भविष्यवाणी मॉडल निरंतर मूल्यवान कार्यों की भविष्यवाणी करते हैं। उदाहरण के लिए, हम बैंक ऋण अनुप्रयोगों को या तो सुरक्षित या जोखिम भरे के रूप में वर्गीकृत करने के लिए एक वर्गीकरण मॉडल का निर्माण कर सकते हैं, या उनकी आय और व्यवसाय को देखते हुए कंप्यूटर उपकरणों पर संभावित ग्राहकों के डॉलर में व्यय की भविष्यवाणी करने के लिए एक भविष्यवाणी मॉडल।
वर्गीकरण क्या है?
निम्नलिखित मामलों के उदाहरण हैं जहां डेटा विश्लेषण कार्य वर्गीकरण है -
एक बैंक ऋण अधिकारी डेटा का विश्लेषण करना चाहता है ताकि यह पता चल सके कि कौन सा ग्राहक (ऋण आवेदक) जोखिम भरा है या कौन से सुरक्षित हैं।
एक कंपनी में एक विपणन प्रबंधक को किसी दिए गए प्रोफ़ाइल के साथ एक ग्राहक का विश्लेषण करने की आवश्यकता होती है, जो एक नया कंप्यूटर खरीदेगा।
उपरोक्त दोनों उदाहरणों में, एक मॉडल या क्लासिफायरियर का निर्माण श्रेणीबद्ध लेबल की भविष्यवाणी करने के लिए किया गया है। ये लेबल ऋण आवेदन डेटा के लिए जोखिम भरे या सुरक्षित हैं और विपणन डेटा के लिए हां या नहीं।
भविष्यवाणी क्या है?
निम्नलिखित मामलों के उदाहरण हैं जहां डेटा विश्लेषण कार्य भविष्यवाणी है -
मान लीजिए कि विपणन प्रबंधक को यह अनुमान लगाने की आवश्यकता है कि किसी दिए गए ग्राहक को अपनी कंपनी में बिक्री के दौरान कितना खर्च करना होगा। इस उदाहरण में हम एक संख्यात्मक मूल्य की भविष्यवाणी करने के लिए परेशान हैं। इसलिए डेटा विश्लेषण कार्य संख्यात्मक भविष्यवाणी का एक उदाहरण है। इस मामले में, एक मॉडल या भविष्यवक्ता का निर्माण किया जाएगा जो एक निरंतर-मूल्यवान-फ़ंक्शन या ऑर्डर किए गए मूल्य की भविष्यवाणी करता है।
Note - प्रतिगमन विश्लेषण एक सांख्यिकीय पद्धति है जिसका उपयोग अक्सर संख्यात्मक भविष्यवाणी के लिए किया जाता है।
वर्गीकरण कैसे काम करता है?
हमने ऊपर चर्चा की है कि बैंक ऋण आवेदन की मदद से, वर्गीकरण के काम को समझते हैं। डेटा वर्गीकरण प्रक्रिया में दो चरण शामिल हैं -
- क्लासिफायर या मॉडल का निर्माण
- वर्गीकरण के लिए वर्गीकरण का उपयोग करना
क्लासिफायर या मॉडल का निर्माण
यह चरण सीखने का चरण या सीखने का चरण है।
इस चरण में वर्गीकरण एल्गोरिदम क्लासिफायरियर का निर्माण करते हैं।
क्लासिफायर डेटाबेस ट्यूप और उनके संबंधित क्लास लेबल से बने प्रशिक्षण सेट से बनाया गया है।
प्रशिक्षण सेट का गठन करने वाले प्रत्येक टपल को एक श्रेणी या वर्ग के रूप में संदर्भित किया जाता है। इन टुपल्स को नमूना, वस्तु या डेटा बिंदुओं के रूप में भी संदर्भित किया जा सकता है।
वर्गीकरण के लिए वर्गीकरण का उपयोग करना
इस चरण में, वर्गीकरण के लिए वर्गीकरण का उपयोग किया जाता है। वर्गीकरण नियमों की सटीकता का अनुमान लगाने के लिए परीक्षण डेटा का उपयोग किया जाता है। यदि सटीकता को स्वीकार्य माना जाता है, तो वर्गीकरण नियमों को नए डेटा ट्यूपल्स पर लागू किया जा सकता है।
वर्गीकरण और भविष्यवाणी के मुद्दे
प्रमुख मुद्दा वर्गीकरण और भविष्यवाणी के लिए डेटा तैयार कर रहा है। डेटा तैयार करने में निम्नलिखित गतिविधियाँ शामिल हैं -
Data Cleaning- डेटा सफाई में शोर और लापता मूल्यों के उपचार को शामिल करना शामिल है। चौरसाई तकनीक को लागू करके शोर को हटा दिया जाता है और लापता मान की समस्या को उस विशेषता के लिए आमतौर पर होने वाले मूल्य के साथ एक लापता मूल्य को बदलकर हल किया जाता है।
Relevance Analysis- डेटाबेस में अप्रासंगिक विशेषताएं भी हो सकती हैं। सहसंबंध विश्लेषण का उपयोग यह जानने के लिए किया जाता है कि क्या दिए गए दो गुण संबंधित हैं।
Data Transformation and reduction - डेटा को निम्न में से किसी भी विधि द्वारा रूपांतरित किया जा सकता है।
Normalization- सामान्यीकरण का उपयोग करके डेटा को रूपांतरित किया जाता है। सामान्यीकरण में दिए गए विशेषता के लिए सभी मानों को छोटा करना शामिल है ताकि उन्हें एक छोटी निर्दिष्ट सीमा के भीतर किया जा सके। सामान्यीकरण का उपयोग तब किया जाता है जब सीखने के चरण में तंत्रिका नेटवर्क या माप से जुड़े तरीकों का उपयोग किया जाता है।
Generalization- डेटा को उच्च अवधारणा में सामान्य करके भी रूपांतरित किया जा सकता है। इस उद्देश्य के लिए हम अवधारणा पदानुक्रमों का उपयोग कर सकते हैं।
Note - डेटा को कुछ अन्य तरीकों जैसे तरंग परिवर्तन, बायनिंग, हिस्टोग्राम विश्लेषण और क्लस्टरिंग द्वारा भी कम किया जा सकता है।
वर्गीकरण और भविष्यवाणी के तरीकों की तुलना
यहाँ वर्गीकरण और भविष्यवाणी के तरीकों की तुलना करने के लिए मापदंड है -
Accuracy- क्लासिफायर की सटीकता क्लासिफायर की क्षमता को संदर्भित करती है। यह कक्षा के लेबल का सही अनुमान लगाता है और भविष्यवक्ता की सटीकता से संकेत मिलता है कि किसी दिए गए भविष्यवक्ता ने नए डेटा के लिए अनुमानित विशेषता के मूल्य का अनुमान लगाया है।
Speed - यह क्लासिफायर या भविष्यवक्ता के निर्माण और उपयोग में कम्प्यूटेशनल लागत को संदर्भित करता है।
Robustness - यह क्लासीफायर या भविष्यवक्ता की क्षमता को संदर्भित करता है जो दिए गए शोर डेटा से सही भविष्यवाणियां करता है।
Scalability- स्केलेबिलिटी क्लासिफायर या भविष्यवक्ता के कुशलता से निर्माण करने की क्षमता को संदर्भित करता है; बड़ी मात्रा में डेटा दिया गया।
Interpretability - यह संदर्भित करता है कि क्लासिफायर या भविष्यवक्ता किस हद तक समझता है।