डेटा खनन - अनुप्रयोग और रुझान

डेटा खनन का व्यापक रूप से विविध क्षेत्रों में उपयोग किया जाता है। आज कई वाणिज्यिक डेटा खनन प्रणाली उपलब्ध हैं और फिर भी इस क्षेत्र में कई चुनौतियाँ हैं। इस ट्यूटोरियल में हम एप्लिकेशन और डेटा माइनिंग के चलन पर चर्चा करेंगे।

डेटा खनन अनुप्रयोग

यहां उन क्षेत्रों की सूची दी गई है जहां डेटा खनन का व्यापक रूप से उपयोग किया जाता है -

  • वित्तीय डेटा विश्लेषण
  • खुदरा उद्योग
  • दूरसंचार उद्योग
  • जैविक डेटा विश्लेषण
  • अन्य वैज्ञानिक अनुप्रयोग
  • अतिक्रमण का पता लगाना

वित्तीय डेटा विश्लेषण

बैंकिंग और वित्तीय उद्योग में वित्तीय डेटा आम तौर पर विश्वसनीय और उच्च गुणवत्ता का होता है जो व्यवस्थित डेटा विश्लेषण और डेटा खनन की सुविधा देता है। कुछ विशिष्ट मामले इस प्रकार हैं -

  • बहुआयामी डेटा विश्लेषण और डेटा खनन के लिए डेटा वेयरहाउस का डिज़ाइन और निर्माण।

  • ऋण भुगतान की भविष्यवाणी और ग्राहक ऋण नीति विश्लेषण।

  • लक्षित विपणन के लिए ग्राहकों का वर्गीकरण और क्लस्टरिंग।

  • मनी लॉन्ड्रिंग और अन्य वित्तीय अपराधों का पता लगाना।

खुदरा उद्योग

रिटेल इंडस्ट्री में डाटा माइनिंग का बहुत अच्छा अनुप्रयोग है क्योंकि यह बिक्री, ग्राहक क्रय इतिहास, माल परिवहन, उपभोग और सेवाओं से बड़ी मात्रा में डेटा एकत्र करता है। यह स्वाभाविक है कि वेब की बढ़ती सहजता, उपलब्धता और लोकप्रियता के कारण एकत्र किए गए डेटा की मात्रा का तेजी से विस्तार होता रहेगा।

खुदरा उद्योग में डेटा माइनिंग से ग्राहक खरीदने के पैटर्न और रुझानों की पहचान करने में मदद मिलती है, जिससे ग्राहक सेवा की गुणवत्ता में सुधार होता है और अच्छी ग्राहक प्रतिधारण और संतुष्टि मिलती है। खुदरा उद्योग में डेटा खनन के उदाहरणों की सूची इस प्रकार है -

  • डेटा माइनिंग के लाभों के आधार पर डेटा वेयरहाउस का डिज़ाइन और निर्माण।

  • बिक्री, ग्राहकों, उत्पादों, समय और क्षेत्र का बहुआयामी विश्लेषण।

  • बिक्री अभियानों की प्रभावशीलता का विश्लेषण।

  • ग्राहक प्रतिधारण।

  • उत्पाद की सिफारिश और वस्तुओं का क्रॉस-रेफरेंसिंग।

दूरसंचार उद्योग

आज दूरसंचार उद्योग सबसे उभरते हुए उद्योगों में से एक है जो फैक्स, पेजर, सेल्युलर फोन, इंटरनेट मैसेंजर, इमेज, ई-मेल, वेब डेटा ट्रांसमिशन आदि जैसी विभिन्न सेवाएं प्रदान करता है। नए कंप्यूटर और संचार तकनीकों के विकास के कारण, दूरसंचार उद्योग तेजी से विस्तार कर रहा है। यही कारण है कि व्यवसाय की सहायता और समझने के लिए डेटा खनन बहुत महत्वपूर्ण हो गया है।

दूरसंचार उद्योग में डेटा खनन से दूरसंचार पैटर्न की पहचान करने, धोखाधड़ी गतिविधियों को पकड़ने, संसाधन का बेहतर उपयोग करने और सेवा की गुणवत्ता में सुधार करने में मदद मिलती है। यहां उन उदाहरणों की सूची दी गई है जिनके लिए डेटा माइनिंग दूरसंचार सेवाओं में सुधार करता है -

  • दूरसंचार डेटा का बहुआयामी विश्लेषण।

  • धोखाधड़ी पैटर्न विश्लेषण।

  • असामान्य पैटर्न की पहचान।

  • बहुआयामी संघ और अनुक्रमिक पैटर्न विश्लेषण।

  • मोबाइल दूरसंचार सेवाएं।

  • दूरसंचार डेटा विश्लेषण में विज़ुअलाइज़ेशन टूल का उपयोग।

जैविक डेटा विश्लेषण

हाल के दिनों में, हमने जीनोलॉजी, प्रोटिओमिक्स, कार्यात्मक जीनोमिक्स और बायोमेडिकल रिसर्च जैसे जीव विज्ञान के क्षेत्र में जबरदस्त वृद्धि देखी है। जैविक डेटा खनन जैव सूचना विज्ञान का एक बहुत महत्वपूर्ण हिस्सा है। जैविक डेटा विश्लेषण के लिए डेटा खनन में योगदान करने वाले पहलू निम्नलिखित हैं -

  • विषम, वितरित जीनोमिक और प्रोटिओमिक डेटाबेस का सिमेंटिक एकीकरण।

  • संरेखण, अनुक्रमण, समानता खोज और तुलनात्मक विश्लेषण कई न्यूक्लियोटाइड अनुक्रम।

  • संरचनात्मक पैटर्न की खोज और आनुवंशिक नेटवर्क और प्रोटीन रास्ते का विश्लेषण।

  • एसोसिएशन और पथ विश्लेषण।

  • आनुवंशिक डेटा विश्लेषण में विज़ुअलाइज़ेशन उपकरण।

अन्य वैज्ञानिक अनुप्रयोग

ऊपर चर्चा किए गए एप्लिकेशन अपेक्षाकृत छोटे और सजातीय डेटा सेट को संभालते हैं, जिसके लिए सांख्यिकीय तकनीक उपयुक्त हैं। भारी मात्रा में डेटा को भू-विज्ञान, खगोल विज्ञान आदि जैसे वैज्ञानिक डोमेन से एकत्र किया गया है, विभिन्न क्षेत्रों जैसे जलवायु और पारिस्थितिकी तंत्र मॉडलिंग, रासायनिक इंजीनियरिंग, द्रव गतिशीलता, आदि में तेजी से संख्यात्मक सिमुलेशन के कारण बड़ी संख्या में डेटा सेट उत्पन्न हो रहे हैं। निम्नलिखित वैज्ञानिक अनुप्रयोगों के क्षेत्र में डेटा खनन के अनुप्रयोग हैं -

  • डेटा वेयरहाउस और डेटा प्रीप्रोसेसिंग।
  • ग्राफ आधारित खनन।
  • विज़ुअलाइज़ेशन और डोमेन विशिष्ट ज्ञान।

अतिक्रमण का पता लगाना

घुसपैठ किसी भी प्रकार की कार्रवाई को संदर्भित करता है जो अखंडता, गोपनीयता या नेटवर्क संसाधनों की उपलब्धता को खतरा देता है। कनेक्टिविटी की इस दुनिया में, सुरक्षा प्रमुख मुद्दा बन गया है। इंटरनेट के बढ़ते उपयोग और नेटवर्क और घुसपैठ और हमला करने के लिए उपकरणों की उपलब्धता के कारण घुसपैठ का पता लगाने के लिए नेटवर्क प्रशासन का एक महत्वपूर्ण घटक बन गया। यहां उन क्षेत्रों की सूची दी गई है जिनमें घुसपैठ का पता लगाने के लिए डेटा माइनिंग तकनीक लागू की जा सकती है -

  • घुसपैठ का पता लगाने के लिए डेटा माइनिंग एल्गोरिदम का विकास।

  • एसोसिएशन और सहसंबंध विश्लेषण, विभेदक विशेषताओं के चयन और निर्माण में मदद करने के लिए एकत्रीकरण।

  • स्ट्रीम डेटा का विश्लेषण।

  • वितरित डाटा माइनिंग।

  • विज़ुअलाइज़ेशन और क्वेरी उपकरण।

डाटा माइनिंग सिस्टम उत्पाद

कई डेटा माइनिंग सिस्टम उत्पाद और डोमेन विशिष्ट डेटा माइनिंग एप्लिकेशन हैं। नए डेटा माइनिंग सिस्टम और एप्लिकेशन को पिछले सिस्टम में जोड़ा जा रहा है। साथ ही, डाटा माइनिंग भाषाओं को मानकीकृत करने का प्रयास किया जा रहा है।

डाटा माइनिंग सिस्टम चुनना

डाटा माइनिंग सिस्टम का चयन निम्नलिखित विशेषताओं पर निर्भर करता है -

  • Data Types- डेटा माइनिंग सिस्टम स्वरूपित पाठ, रिकॉर्ड-आधारित डेटा और संबंधपरक डेटा को संभाल सकता है। डेटा ASCII टेक्स्ट, रिलेशनल डेटाबेस डेटा या डेटा वेयरहाउस डेटा में भी हो सकता है। इसलिए, हमें जांचना चाहिए कि डेटा माइनिंग सिस्टम क्या सटीक प्रारूप को संभाल सकता है।

  • System Issues- हमें विभिन्न ऑपरेटिंग सिस्टम के साथ डेटा माइनिंग सिस्टम की अनुकूलता पर विचार करना चाहिए। एक डेटा माइनिंग सिस्टम केवल एक ऑपरेटिंग सिस्टम या कई पर चल सकता है। डेटा माइनिंग सिस्टम भी हैं जो वेब-आधारित उपयोगकर्ता इंटरफेस प्रदान करते हैं और एक्सएमएल डेटा को इनपुट के रूप में अनुमति देते हैं।

  • Data Sources- डेटा स्रोत उन डेटा प्रारूपों को संदर्भित करते हैं जिनमें डेटा खनन प्रणाली संचालित होगी। कुछ डेटा माइनिंग सिस्टम केवल ASCII टेक्स्ट फ़ाइलों पर काम कर सकते हैं जबकि अन्य कई रिलेशनल स्रोतों पर। डेटा माइनिंग सिस्टम को ODBC कनेक्शन के लिए ODBC कनेक्शन या OLE DB का भी समर्थन करना चाहिए।

  • Data Mining functions and methodologies - कुछ डेटा माइनिंग सिस्टम हैं जो वर्गीकरण के रूप में केवल एक डेटा माइनिंग फ़ंक्शन प्रदान करते हैं, जबकि कुछ कई डेटा माइनिंग फ़ंक्शंस प्रदान करते हैं जैसे कि कॉन्सेप्ट विवरण, खोज-संचालित OLAP विश्लेषण, एसोसिएशन माइनिंग, लिंकेज विश्लेषण, सांख्यिकीय विश्लेषण, वर्गीकरण, भविष्यवाणी, क्लस्टरिंग, बाह्य विश्लेषण, समानता खोज, आदि।

  • Coupling data mining with databases or data warehouse systems- डेटा माइनिंग सिस्टम को डेटाबेस या डेटा वेयरहाउस सिस्टम के साथ जोड़ा जाना चाहिए। युग्मित घटकों को एक समान सूचना प्रसंस्करण वातावरण में एकीकृत किया जाता है। नीचे सूचीबद्ध युग्मन के प्रकार इस प्रकार हैं -

    • कोई कपलिंग नहीं
    • ढीला युग्मन
    • अर्ध तंग युग्मन
    • कसा हुआ संयोजन
  • Scalability - डेटा खनन में दो मापनीयता मुद्दे हैं -

    • Row (Database size) Scalability- एक डेटा माइनिंग सिस्टम को पंक्ति स्केलेबल माना जाता है जब संख्या या पंक्तियों को 10 गुना बढ़ाया जाता है। किसी क्वेरी को निष्पादित करने में 10 से अधिक बार नहीं लगता है।

    • Column (Dimension) Salability - एक डेटा माइनिंग सिस्टम को कॉलम स्केलेबल माना जाता है यदि खनन क्वेरी निष्पादन का समय कॉलम की संख्या के साथ रैखिक रूप से बढ़ता है।

  • Visualization Tools - डाटा माइनिंग में विज़ुअलाइज़ेशन को निम्नानुसार वर्गीकृत किया जा सकता है -

    • डेटा विज़ुअलाइज़ेशन
    • खनन परिणाम दृश्य
    • खनन प्रक्रिया दृश्य
    • दृश्य डेटा खनन
  • Data Mining query language and graphical user interface- उपयोगकर्ता-निर्देशित, इंटरैक्टिव डेटा खनन को बढ़ावा देने के लिए एक आसान-से-उपयोग वाला ग्राफिकल यूजर इंटरफेस महत्वपूर्ण है। रिलेशनल डेटाबेस सिस्टम के विपरीत, डेटा माइनिंग सिस्टम अंतर्निहित डेटा माइनिंग क्वेरी भाषा साझा नहीं करते हैं।

डेटा माइनिंग में रुझान

डेटा माइनिंग कॉन्सेप्ट अभी भी विकसित हो रहे हैं और यहां नवीनतम रुझान हैं जो हमें इस क्षेत्र में देखने को मिलते हैं -

  • आवेदन अन्वेषण।

  • स्केलेबल और इंटरैक्टिव डेटा माइनिंग के तरीके।

  • डेटाबेस सिस्टम, डेटा वेयरहाउस सिस्टम और वेब डेटाबेस सिस्टम के साथ डेटा माइनिंग का एकीकरण।

  • डेटा माइनिंग क्वेरी भाषा का SStandardization।

  • दृश्य डेटा खनन।

  • जटिल प्रकार के डेटा के खनन के लिए नए तरीके।

  • जैविक डेटा खनन।

  • डाटा माइनिंग और सॉफ्टवेयर इंजीनियरिंग।

  • वेब खनन।

  • वितरित डाटा माइनिंग।

  • रियल टाइम डाटा माइनिंग।

  • मल्टी डेटाबेस डेटा माइनिंग।

  • डेटा माइनिंग में गोपनीयता सुरक्षा और सूचना सुरक्षा।