डेटा वेयरहाउस - अवलोकन
डेटा वेयरहाउस से डेटा शामिल होता है multiple heterogeneous data sourcesऔर विश्लेषणात्मक रिपोर्टिंग और निर्णय लेने के लिए उपयोग किया जाता है। डेटा वेयरहाउस एक केंद्रीय स्थान है जहां डेटा को विभिन्न डेटा स्रोतों और अनुप्रयोगों से संग्रहीत किया जाता है।
डेटा वेयरहाउस शब्द का आविष्कार पहली बार बिल इनमॉम द्वारा 1990 में किया गया था। डेटा वेयरहाउस को हमेशा एक ऑपरेशनल डेटाबेस से अलग रखा जाता है।
DW सिस्टम में डेटा परिचालन लेनदेन प्रणालियों से लोड किया जाता है जैसे -
- Sales
- Marketing
- HR
- SCM, आदि।
सूचना प्रसंस्करण के लिए DW सिस्टम में लोड होने से पहले यह परिचालन डेटा स्टोर या अन्य परिवर्तनों से गुजर सकता है।
डेटा वेयरहाउस का उपयोग सूचना के विश्लेषण और विश्लेषण के लिए किया जाता है और ऐतिहासिक और वर्तमान डेटा दोनों को संग्रहीत करता है। DW प्रणाली में डेटा का उपयोग विश्लेषणात्मक रिपोर्टिंग के लिए किया जाता है, जो बाद में निर्णय लेने के लिए व्यावसायिक विश्लेषकों, बिक्री प्रबंधकों या ज्ञान श्रमिकों द्वारा उपयोग किया जाता है।
उपरोक्त छवि में, आप देख सकते हैं कि डेटा कहां से आ रहा है multiple heterogeneous dataडेटा वेयरहाउस के लिए स्रोत। डेटा वेयरहाउस के लिए सामान्य डेटा स्रोतों में शामिल हैं -
- संचालन डेटाबेस
- एसएपी और गैर एसएपी अनुप्रयोग
- फ्लैट फाइलें (xls, csv, txt फाइलें)
डेटा वेयरहाउस में डेटा बीआई (बिजनेस इंटेलिजेंस) उपयोगकर्ताओं द्वारा विश्लेषणात्मक रिपोर्टिंग, डेटा खनन और विश्लेषण के लिए पहुँचा जाता है। इसका उपयोग व्यापार उपयोगकर्ताओं, बिक्री प्रबंधक, विश्लेषकों द्वारा निर्णय लेने के लिए किया जाता है ताकि भविष्य की रणनीति को परिभाषित किया जा सके।
डेटा वेयरहाउस की विशेषताएं
यह एक केंद्रीय डेटा भंडार है जहां डेटा एक या अधिक विषम डेटा स्रोतों से संग्रहीत किया जाता है। एक DW सिस्टम वर्तमान और ऐतिहासिक डेटा दोनों को संग्रहीत करता है। आम तौर पर एक DW सिस्टम 5-10 साल के ऐतिहासिक डेटा को संग्रहीत करता है। एक DW प्रणाली हमेशा एक परिचालन लेनदेन प्रणाली से अलग रखी जाती है।
DW प्रणाली में डेटा का उपयोग त्रैमासिक से वार्षिक तुलनात्मक तुलना में विभिन्न प्रकार की विश्लेषणात्मक रिपोर्टिंग रेंज के लिए किया जाता है।
डेटा वेयरहाउस बनाम ऑपरेशनल डेटाबेस
डेटा वेयरहाउस और ऑपरेशनल डेटाबेस के बीच अंतर इस प्रकार हैं -
एक Operational System ज्ञात कार्यभार और लेनदेन के लिए डिज़ाइन किया गया है जैसे कि उपयोगकर्ता रिकॉर्ड को अपडेट करना, रिकॉर्ड खोजना, आदि। हालांकि, डेटा वेयरहाउस लेनदेन अधिक जटिल हैं और डेटा का एक सामान्य रूप प्रस्तुत करते हैं।
एक Operational System किसी संगठन का वर्तमान डेटा शामिल है और डेटा वेयरहाउस में आम तौर पर ऐतिहासिक डेटा होता है।
एक Operational Databaseकई लेनदेन के समानांतर प्रसंस्करण का समर्थन करता है। डेटाबेस की संगति बनाए रखने के लिए कंसीडर कंट्रोल और रिकवरी मैकेनिज्म की आवश्यकता होती है।
एक Operational Database क्वेरी ऑपरेशन को पढ़ने और संशोधित करने की अनुमति देती है (सम्मिलित करें, हटाएं और अपडेट करें) जबकि OLAP क्वेरी को केवल संग्रहीत डेटा की केवल पढ़ने की आवश्यकता है (कथन का चयन करें)।
डेटा वेयरहाउस की वास्तुकला
डेटा वेयरहाउसिंग में डेटा सफाई, डेटा एकीकरण और डेटा समेकन शामिल हैं। डेटा वेयरहाउस में 3-लेयर आर्किटेक्चर है -
डेटा स्रोत परत
यह परिभाषित करता है कि डेटा किसी डेटा वेयरहाउस में कैसे आता है। इसमें विभिन्न डेटा स्रोत और परिचालन लेनदेन प्रणाली, फ्लैट फाइलें, एप्लिकेशन आदि शामिल हैं।
एकीकरण परत
इसमें ऑपरेशनल डेटा स्टोर और स्टेजिंग क्षेत्र शामिल हैं। स्टेजिंग एरिया का उपयोग डेटा क्लींजिंग, डेटा ट्रांसफॉर्मेशन और विभिन्न स्रोतों से डेटा लोड करने के लिए डेटा वेयरहाउस में किया जाता है। चूंकि विभिन्न डेटा स्रोत विभिन्न समय क्षेत्रों में निष्कर्षण के लिए उपलब्ध हैं, इसलिए स्टेजिंग क्षेत्र का उपयोग डेटा को संग्रहीत करने और बाद में डेटा पर परिवर्तनों को लागू करने के लिए किया जाता है।
प्रस्तुति अंश
इसका उपयोग अंत उपयोगकर्ताओं द्वारा BI रिपोर्टिंग करने के लिए किया जाता है। DW सिस्टम में डेटा को BI उपयोगकर्ताओं द्वारा एक्सेस किया जाता है और रिपोर्टिंग और विश्लेषण के लिए उपयोग किया जाता है।
निम्न चित्र डेटा वेयरहाउस सिस्टम की सामान्य वास्तुकला को दर्शाता है।
डेटा वेयरहाउस की विशेषताएँ
डेटा वेयरहाउस की प्रमुख विशेषताएं निम्नलिखित हैं -
Subject Oriented - एक DW प्रणाली में, डेटा को एक व्यावसायिक विषय द्वारा इक्विटी प्लान, शेयर, ऋण आदि जैसे अनुप्रयोगों के बजाय वर्गीकृत और संग्रहीत किया जाता है।
Integrated - एक डेटा वेयरहाउस में कई डेटा स्रोतों से डेटा को एकीकृत किया जाता है।
Non Volatile- डेटा वेयरहाउस में डेटा गैर-वाष्पशील है। इसका मतलब है कि जब डेटा को DW सिस्टम में लोड किया जाता है, तो इसे परिवर्तित नहीं किया जाता है।
Time Variant- एक DW सिस्टम में ट्रांजेक्शनल सिस्टम की तुलना में ऐतिहासिक डेटा होता है जिसमें केवल वर्तमान डेटा होता है। एक डेटा वेयरहाउस में आप 3 महीने, 6 महीने, 1 साल, 5 साल, आदि के लिए डेटा देख सकते हैं।
OLTP बनाम OLAP
सबसे पहले, OLTP का अर्थ है Online Transaction Processing, जबकि OLAP का अर्थ है Online Analytical Processing
एक ओएलटीपी प्रणाली में, बड़ी संख्या में लघु लेनदेन जैसे INSERT, UPDATE और DELETE हैं।
जबकि, ओएलटीपी प्रणाली में, एक प्रभावी उपाय छोटे लेनदेन का प्रसंस्करण समय है और बहुत कम है। यह मल्टी-एक्सेस वातावरण में डेटा अखंडता को नियंत्रित करता है। एक ओएलटीपी प्रणाली के लिए, प्रति सेकंड लेनदेन की संख्या प्रभावशीलता को मापती है। एक ओएलटीपी डेटा वेयरहाउस सिस्टम में वर्तमान और विस्तृत डेटा होता है और यह इकाई मॉडल (3NF) में स्कीमा में बनाए रखा जाता है।
For Example -
एक खुदरा स्टोर में एक दिन-प्रतिदिन की लेनदेन प्रणाली, जहां ग्राहक रिकॉर्ड डाला जाता है, अद्यतन किया जाता है और दैनिक आधार पर हटा दिया जाता है। यह तेजी से क्वेरी प्रसंस्करण प्रदान करता है। ओएलटीपी डेटाबेस में विस्तृत और वर्तमान डेटा होते हैं। OLTP डेटाबेस को संग्रहीत करने के लिए उपयोग किया गया स्कीमा इकाई मॉडल है।
एक OLAP प्रणाली में, एक लेनदेन प्रणाली की तुलना में कम लेनदेन होते हैं। निष्पादित क्वेरी प्रकृति में जटिल हैं और इसमें डेटा एकत्रीकरण शामिल है।
एक एकत्रीकरण क्या है?
हम वार्षिक (1 पंक्ति), त्रैमासिक (4 पंक्तियों), मासिक (12 पंक्तियों) या जैसे कुल डेटा के साथ तालिकाओं को बचाते हैं, अगर किसी को एक वर्ष से वर्ष की तुलना करना है, तो केवल एक पंक्ति संसाधित की जाएगी। हालांकि, एक संयुक्त तालिका में यह सभी पंक्तियों की तुलना करेगा। इसे एग्रीगेशन कहते हैं।
ऐसे विभिन्न एकत्रीकरण कार्य हैं जिनका उपयोग ओएलएपी प्रणाली में किया जा सकता है जैसे कि सम, औसत, अधिकतम, न्यूनतम, आदि।
For Example -
SELECT Avg(salary)
FROM employee
WHERE title = 'Programmer';
मुख्य अंतर
ये एक OLAP और OLTP सिस्टम के बीच प्रमुख अंतर हैं।
Indexes - एक OLTP सिस्टम में केवल कुछ ही इंडेक्स होते हैं जबकि OLAP सिस्टम में परफॉर्मेंस ऑप्टिमाइज़ेशन के लिए कई इंडेक्स होते हैं।
Joins- एक ओएलटीपी प्रणाली में, बड़ी संख्या में जुड़ने और डेटा सामान्यीकृत होते हैं। हालांकि, एक ओएलएपी प्रणाली में कम जोड़ होते हैं और डी-सामान्यीकृत होते हैं।
Aggregation - एक OLTP सिस्टम में, डेटा को एकत्र नहीं किया जाता है जबकि OLAP डेटाबेस में अधिक एकत्रीकरण का उपयोग किया जाता है।
Normalization - एक OLTP सिस्टम में सामान्यीकृत डेटा होता है, हालाँकि OLAP सिस्टम में डेटा को सामान्य नहीं किया जाता है।
डेटा मार्ट बनाम डेटा वेयरहाउस
डेटा मार्ट एक एकल कार्यात्मक क्षेत्र पर केंद्रित है और डेटा वेयरहाउस के सबसे सरल रूप का प्रतिनिधित्व करता है। एक डेटा वेयरहाउस पर विचार करें जिसमें बिक्री, विपणन, मानव संसाधन और वित्त के लिए डेटा हो। एक डेटा मार्ट बिक्री या विपणन जैसे एकल कार्यात्मक क्षेत्र पर केंद्रित है।
उपरोक्त छवि में, आप डेटा वेयरहाउस और डेटा मार्ट के बीच अंतर देख सकते हैं।
तथ्य बनाम आयाम तालिका
एक तथ्य तालिका उन उपायों का प्रतिनिधित्व करती है जिन पर विश्लेषण किया जाता है। इसमें आयाम कुंजियों के लिए विदेशी कुंजियाँ भी हैं।
For example - हर बिक्री एक तथ्य है।
Cust Id | उत्पादन आईडी | समय आईडी | किटी सोल्ड |
---|---|---|---|
1110 | 25 | 2 | 125 |
1210 | 28 | 4 | 252 |
आयाम तालिका एक आयाम की विशेषताओं का प्रतिनिधित्व करती है। एक ग्राहक आयाम में Customer_Name, Phone_No, Sex, आदि हो सकते हैं।
Cust Id | CUST_NAME | फ़ोन | लिंग |
---|---|---|---|
1110 | विप्लव | 1113334444 | एफ |
1210 | एडम | 2225556666 | म |