डेटा वेयरहाउस - अवलोकन

डेटा वेयरहाउस से डेटा शामिल होता है multiple heterogeneous data sourcesऔर विश्लेषणात्मक रिपोर्टिंग और निर्णय लेने के लिए उपयोग किया जाता है। डेटा वेयरहाउस एक केंद्रीय स्थान है जहां डेटा को विभिन्न डेटा स्रोतों और अनुप्रयोगों से संग्रहीत किया जाता है।

डेटा वेयरहाउस शब्द का आविष्कार पहली बार बिल इनमॉम द्वारा 1990 में किया गया था। डेटा वेयरहाउस को हमेशा एक ऑपरेशनल डेटाबेस से अलग रखा जाता है।

DW सिस्टम में डेटा परिचालन लेनदेन प्रणालियों से लोड किया जाता है जैसे -

  • Sales
  • Marketing
  • HR
  • SCM, आदि।

सूचना प्रसंस्करण के लिए DW सिस्टम में लोड होने से पहले यह परिचालन डेटा स्टोर या अन्य परिवर्तनों से गुजर सकता है।

डेटा वेयरहाउस का उपयोग सूचना के विश्लेषण और विश्लेषण के लिए किया जाता है और ऐतिहासिक और वर्तमान डेटा दोनों को संग्रहीत करता है। DW प्रणाली में डेटा का उपयोग विश्लेषणात्मक रिपोर्टिंग के लिए किया जाता है, जो बाद में निर्णय लेने के लिए व्यावसायिक विश्लेषकों, बिक्री प्रबंधकों या ज्ञान श्रमिकों द्वारा उपयोग किया जाता है।

उपरोक्त छवि में, आप देख सकते हैं कि डेटा कहां से आ रहा है multiple heterogeneous dataडेटा वेयरहाउस के लिए स्रोत। डेटा वेयरहाउस के लिए सामान्य डेटा स्रोतों में शामिल हैं -

  • संचालन डेटाबेस
  • एसएपी और गैर एसएपी अनुप्रयोग
  • फ्लैट फाइलें (xls, csv, txt फाइलें)

डेटा वेयरहाउस में डेटा बीआई (बिजनेस इंटेलिजेंस) उपयोगकर्ताओं द्वारा विश्लेषणात्मक रिपोर्टिंग, डेटा खनन और विश्लेषण के लिए पहुँचा जाता है। इसका उपयोग व्यापार उपयोगकर्ताओं, बिक्री प्रबंधक, विश्लेषकों द्वारा निर्णय लेने के लिए किया जाता है ताकि भविष्य की रणनीति को परिभाषित किया जा सके।

डेटा वेयरहाउस की विशेषताएं

यह एक केंद्रीय डेटा भंडार है जहां डेटा एक या अधिक विषम डेटा स्रोतों से संग्रहीत किया जाता है। एक DW सिस्टम वर्तमान और ऐतिहासिक डेटा दोनों को संग्रहीत करता है। आम तौर पर एक DW सिस्टम 5-10 साल के ऐतिहासिक डेटा को संग्रहीत करता है। एक DW प्रणाली हमेशा एक परिचालन लेनदेन प्रणाली से अलग रखी जाती है।

DW प्रणाली में डेटा का उपयोग त्रैमासिक से वार्षिक तुलनात्मक तुलना में विभिन्न प्रकार की विश्लेषणात्मक रिपोर्टिंग रेंज के लिए किया जाता है।

डेटा वेयरहाउस बनाम ऑपरेशनल डेटाबेस

डेटा वेयरहाउस और ऑपरेशनल डेटाबेस के बीच अंतर इस प्रकार हैं -

  • एक Operational System ज्ञात कार्यभार और लेनदेन के लिए डिज़ाइन किया गया है जैसे कि उपयोगकर्ता रिकॉर्ड को अपडेट करना, रिकॉर्ड खोजना, आदि। हालांकि, डेटा वेयरहाउस लेनदेन अधिक जटिल हैं और डेटा का एक सामान्य रूप प्रस्तुत करते हैं।

  • एक Operational System किसी संगठन का वर्तमान डेटा शामिल है और डेटा वेयरहाउस में आम तौर पर ऐतिहासिक डेटा होता है।

  • एक Operational Databaseकई लेनदेन के समानांतर प्रसंस्करण का समर्थन करता है। डेटाबेस की संगति बनाए रखने के लिए कंसीडर कंट्रोल और रिकवरी मैकेनिज्म की आवश्यकता होती है।

  • एक Operational Database क्वेरी ऑपरेशन को पढ़ने और संशोधित करने की अनुमति देती है (सम्मिलित करें, हटाएं और अपडेट करें) जबकि OLAP क्वेरी को केवल संग्रहीत डेटा की केवल पढ़ने की आवश्यकता है (कथन का चयन करें)।

डेटा वेयरहाउस की वास्तुकला

डेटा वेयरहाउसिंग में डेटा सफाई, डेटा एकीकरण और डेटा समेकन शामिल हैं। डेटा वेयरहाउस में 3-लेयर आर्किटेक्चर है -

डेटा स्रोत परत

यह परिभाषित करता है कि डेटा किसी डेटा वेयरहाउस में कैसे आता है। इसमें विभिन्न डेटा स्रोत और परिचालन लेनदेन प्रणाली, फ्लैट फाइलें, एप्लिकेशन आदि शामिल हैं।

एकीकरण परत

इसमें ऑपरेशनल डेटा स्टोर और स्टेजिंग क्षेत्र शामिल हैं। स्टेजिंग एरिया का उपयोग डेटा क्लींजिंग, डेटा ट्रांसफॉर्मेशन और विभिन्न स्रोतों से डेटा लोड करने के लिए डेटा वेयरहाउस में किया जाता है। चूंकि विभिन्न डेटा स्रोत विभिन्न समय क्षेत्रों में निष्कर्षण के लिए उपलब्ध हैं, इसलिए स्टेजिंग क्षेत्र का उपयोग डेटा को संग्रहीत करने और बाद में डेटा पर परिवर्तनों को लागू करने के लिए किया जाता है।

प्रस्तुति अंश

इसका उपयोग अंत उपयोगकर्ताओं द्वारा BI रिपोर्टिंग करने के लिए किया जाता है। DW सिस्टम में डेटा को BI उपयोगकर्ताओं द्वारा एक्सेस किया जाता है और रिपोर्टिंग और विश्लेषण के लिए उपयोग किया जाता है।

निम्न चित्र डेटा वेयरहाउस सिस्टम की सामान्य वास्तुकला को दर्शाता है।

डेटा वेयरहाउस की विशेषताएँ

डेटा वेयरहाउस की प्रमुख विशेषताएं निम्नलिखित हैं -

  • Subject Oriented - एक DW प्रणाली में, डेटा को एक व्यावसायिक विषय द्वारा इक्विटी प्लान, शेयर, ऋण आदि जैसे अनुप्रयोगों के बजाय वर्गीकृत और संग्रहीत किया जाता है।

  • Integrated - एक डेटा वेयरहाउस में कई डेटा स्रोतों से डेटा को एकीकृत किया जाता है।

  • Non Volatile- डेटा वेयरहाउस में डेटा गैर-वाष्पशील है। इसका मतलब है कि जब डेटा को DW सिस्टम में लोड किया जाता है, तो इसे परिवर्तित नहीं किया जाता है।

  • Time Variant- एक DW सिस्टम में ट्रांजेक्शनल सिस्टम की तुलना में ऐतिहासिक डेटा होता है जिसमें केवल वर्तमान डेटा होता है। एक डेटा वेयरहाउस में आप 3 महीने, 6 महीने, 1 साल, 5 साल, आदि के लिए डेटा देख सकते हैं।

OLTP बनाम OLAP

सबसे पहले, OLTP का अर्थ है Online Transaction Processing, जबकि OLAP का अर्थ है Online Analytical Processing

एक ओएलटीपी प्रणाली में, बड़ी संख्या में लघु लेनदेन जैसे INSERT, UPDATE और DELETE हैं।

जबकि, ओएलटीपी प्रणाली में, एक प्रभावी उपाय छोटे लेनदेन का प्रसंस्करण समय है और बहुत कम है। यह मल्टी-एक्सेस वातावरण में डेटा अखंडता को नियंत्रित करता है। एक ओएलटीपी प्रणाली के लिए, प्रति सेकंड लेनदेन की संख्या प्रभावशीलता को मापती है। एक ओएलटीपी डेटा वेयरहाउस सिस्टम में वर्तमान और विस्तृत डेटा होता है और यह इकाई मॉडल (3NF) में स्कीमा में बनाए रखा जाता है।

For Example -

एक खुदरा स्टोर में एक दिन-प्रतिदिन की लेनदेन प्रणाली, जहां ग्राहक रिकॉर्ड डाला जाता है, अद्यतन किया जाता है और दैनिक आधार पर हटा दिया जाता है। यह तेजी से क्वेरी प्रसंस्करण प्रदान करता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होते हैं। OLTP डेटाबेस को संग्रहीत करने के लिए उपयोग किया गया स्कीमा इकाई मॉडल है।

एक OLAP प्रणाली में, एक लेनदेन प्रणाली की तुलना में कम लेनदेन होते हैं। निष्पादित क्वेरी प्रकृति में जटिल हैं और इसमें डेटा एकत्रीकरण शामिल है।

एक एकत्रीकरण क्या है?

हम वार्षिक (1 पंक्ति), त्रैमासिक (4 पंक्तियों), मासिक (12 पंक्तियों) या जैसे कुल डेटा के साथ तालिकाओं को बचाते हैं, अगर किसी को एक वर्ष से वर्ष की तुलना करना है, तो केवल एक पंक्ति संसाधित की जाएगी। हालांकि, एक संयुक्त तालिका में यह सभी पंक्तियों की तुलना करेगा। इसे एग्रीगेशन कहते हैं।

ऐसे विभिन्न एकत्रीकरण कार्य हैं जिनका उपयोग ओएलएपी प्रणाली में किया जा सकता है जैसे कि सम, औसत, अधिकतम, न्यूनतम, आदि।

For Example -

SELECT Avg(salary)
FROM employee
WHERE title = 'Programmer';

मुख्य अंतर

ये एक OLAP और OLTP सिस्टम के बीच प्रमुख अंतर हैं।

  • Indexes - एक OLTP सिस्टम में केवल कुछ ही इंडेक्स होते हैं जबकि OLAP सिस्टम में परफॉर्मेंस ऑप्टिमाइज़ेशन के लिए कई इंडेक्स होते हैं।

  • Joins- एक ओएलटीपी प्रणाली में, बड़ी संख्या में जुड़ने और डेटा सामान्यीकृत होते हैं। हालांकि, एक ओएलएपी प्रणाली में कम जोड़ होते हैं और डी-सामान्यीकृत होते हैं।

  • Aggregation - एक OLTP सिस्टम में, डेटा को एकत्र नहीं किया जाता है जबकि OLAP डेटाबेस में अधिक एकत्रीकरण का उपयोग किया जाता है।

  • Normalization - एक OLTP सिस्टम में सामान्यीकृत डेटा होता है, हालाँकि OLAP सिस्टम में डेटा को सामान्य नहीं किया जाता है।

डेटा मार्ट बनाम डेटा वेयरहाउस

डेटा मार्ट एक एकल कार्यात्मक क्षेत्र पर केंद्रित है और डेटा वेयरहाउस के सबसे सरल रूप का प्रतिनिधित्व करता है। एक डेटा वेयरहाउस पर विचार करें जिसमें बिक्री, विपणन, मानव संसाधन और वित्त के लिए डेटा हो। एक डेटा मार्ट बिक्री या विपणन जैसे एकल कार्यात्मक क्षेत्र पर केंद्रित है।

उपरोक्त छवि में, आप डेटा वेयरहाउस और डेटा मार्ट के बीच अंतर देख सकते हैं।

तथ्य बनाम आयाम तालिका

एक तथ्य तालिका उन उपायों का प्रतिनिधित्व करती है जिन पर विश्लेषण किया जाता है। इसमें आयाम कुंजियों के लिए विदेशी कुंजियाँ भी हैं।

For example - हर बिक्री एक तथ्य है।

Cust Id उत्पादन आईडी समय आईडी किटी सोल्ड
1110 25 2 125
1210 28 4 252

आयाम तालिका एक आयाम की विशेषताओं का प्रतिनिधित्व करती है। एक ग्राहक आयाम में Customer_Name, Phone_No, Sex, आदि हो सकते हैं।

Cust Id CUST_NAME फ़ोन लिंग
1110 विप्लव 1113334444 एफ
1210 एडम 2225556666