डेटा वेयरहाउसिंग - आर्किटेक्चर
इस अध्याय में, हम डेटा वेयरहाउस डिज़ाइन और डेटा वेयरहाउस की वास्तुकला के लिए व्यावसायिक विश्लेषण ढांचे पर चर्चा करेंगे।
व्यापार विश्लेषण रूपरेखा
व्यापार विश्लेषक को प्रदर्शन को मापने और बाजार में अन्य व्यापार धारकों को जीतने के लिए महत्वपूर्ण समायोजन करने के लिए डेटा वेयरहाउस से जानकारी मिलती है। डेटा वेयरहाउस होने से निम्नलिखित लाभ मिलते हैं -
चूंकि एक डेटा वेयरहाउस जल्दी और कुशलता से जानकारी एकत्र कर सकता है, यह व्यवसाय उत्पादकता को बढ़ा सकता है।
एक डेटा वेयरहाउस हमें ग्राहकों और वस्तुओं का एक सुसंगत दृश्य प्रदान करता है, इसलिए, यह हमें ग्राहक संबंधों को प्रबंधित करने में मदद करता है।
एक डेटा वेयरहाउस एक लंबी अवधि में एक सुसंगत और विश्वसनीय तरीके से रुझान, पैटर्न को ट्रैक करके लागत को नीचे लाने में मदद करता है।
एक प्रभावी और कुशल डेटा वेयरहाउस डिजाइन करने के लिए, हमें व्यावसायिक आवश्यकताओं को समझने और उनका विश्लेषण करने और निर्माण करने की आवश्यकता है business analysis framework। प्रत्येक व्यक्ति के पास डेटा वेयरहाउस के डिजाइन के बारे में अलग-अलग विचार हैं। ये विचार इस प्रकार हैं -
The top-down view - यह दृश्य डेटा वेयरहाउस के लिए आवश्यक प्रासंगिक जानकारी के चयन की अनुमति देता है।
The data source view - यह दृश्य परिचालन प्रणाली द्वारा पकड़ी गई, संग्रहीत और प्रबंधित की जा रही जानकारी को प्रस्तुत करता है।
The data warehouse view- इस दृश्य में फैक्ट टेबल और डायमेंशन टेबल शामिल हैं। यह डेटा वेयरहाउस के अंदर संग्रहीत जानकारी का प्रतिनिधित्व करता है।
The business query view - यह अंत-उपयोगकर्ता के दृष्टिकोण से डेटा का दृश्य है।
थ्री-टियर डेटा वेयरहाउस आर्किटेक्चर
आम तौर पर एक डाटा वेयरहाउस त्रिस्तरीय वास्तुकला को अपनाता है। डेटा वेयरहाउस आर्किटेक्चर के तीन स्तर निम्नलिखित हैं।
Bottom Tier- आर्किटेक्चर का निचला टीयर डेटा वेयरहाउस डेटाबेस सर्वर है। यह रिलेशनल डेटाबेस सिस्टम है। हम नीचे के टियर में डेटा फीड करने के लिए बैक एंड टूल्स और यूटिलिटीज का उपयोग करते हैं। ये बैक एंड टूल और यूटिलिटीज एक्सट्रैक्ट, क्लीन, लोड और रिफ्रेश फंक्शन को परफॉर्म करते हैं।
Middle Tier - मध्य स्तरीय में, हमारे पास OLAP सर्वर है जिसे निम्नलिखित में से किसी एक तरीके से लागू किया जा सकता है।
रिलेशनल OLAP (रोलप) द्वारा, जो एक विस्तारित रिलेशनल डेटाबेस मैनेजमेंट सिस्टम है। ROLAP मानक सापेक्ष संचालन के लिए बहुआयामी डेटा पर संचालन को मैप करता है।
बहुआयामी OLAP (MOLAP) मॉडल द्वारा, जो सीधे बहुआयामी डेटा और संचालन को लागू करता है।
Top-Tier- यह टीयर फ्रंट-एंड क्लाइंट लेयर है। यह परत क्वेरी टूल और रिपोर्टिंग टूल, विश्लेषण टूल और डेटा माइनिंग टूल रखती है।
निम्नलिखित चित्र में डेटा वेयरहाउस की त्रिस्तरीय वास्तुकला को दर्शाया गया है -
डेटा वेयरहाउस मॉडल
डेटा वेयरहाउस आर्किटेक्चर के दृष्टिकोण से, हमारे पास निम्नलिखित डेटा वेयरहाउस मॉडल हैं -
- वर्चुअल वेयरहाउस
- आंकड़ों का बाजार
- एंटरप्राइज़ वेयरहाउस
वर्चुअल वेयरहाउस
ऑपरेशनल डेटा वेयरहाउस के दृश्य को वर्चुअल वेयरहाउस के रूप में जाना जाता है। वर्चुअल वेयरहाउस बनाना आसान है। वर्चुअल वेयरहाउस के निर्माण के लिए ऑपरेशनल डेटाबेस सर्वर पर अतिरिक्त क्षमता की आवश्यकता होती है।
आंकड़ों का बाजार
डेटा मार्ट में संगठन-व्यापी डेटा का एक सबसेट होता है। डेटा का यह सबसेट एक संगठन के विशिष्ट समूहों के लिए मूल्यवान है।
दूसरे शब्दों में, हम यह दावा कर सकते हैं कि डेटा कार्ट में किसी विशेष समूह के लिए डेटा विशिष्ट होता है। उदाहरण के लिए, मार्केटिंग डेटा मार्ट में आइटम, ग्राहक और बिक्री से संबंधित डेटा हो सकते हैं। डेटा मौसा विषयों तक ही सीमित हैं।
डेटा मौसा के बारे में याद करने के लिए अंक -
विंडो-आधारित या यूनिक्स / लिनक्स-आधारित सर्वर का उपयोग डेटा मर्स को लागू करने के लिए किया जाता है। उन्हें कम लागत वाले सर्वरों पर लागू किया जाता है।
कार्यान्वयन डेटा मार्ट चक्रों को महीनों या वर्षों के बजाय कुछ ही समय में कम समय में मापा जाता है।
एक डेटा मार्ट का जीवन चक्र लंबे समय में जटिल हो सकता है, अगर इसकी योजना और डिजाइन संगठन चौड़ा नहीं है।
डेटा मौसा आकार में छोटे होते हैं।
डेटा marts विभाग द्वारा अनुकूलित कर रहे हैं।
डेटा मार्ट का स्रोत विभागीय संरचित डेटा वेयरहाउस है।
डेटा मार्ट लचीले होते हैं।
एंटरप्राइज़ वेयरहाउस
एक एंटरप्राइज़ वेयरहाउस सभी सूचनाओं और विषयों को एक पूरे संगठन में एकत्रित करता है
यह हमें उद्यम-व्यापी डेटा एकीकरण प्रदान करता है।
डेटा परिचालन प्रणालियों और बाहरी सूचना प्रदाताओं से एकीकृत है।
यह जानकारी कुछ गीगाबाइट्स से सैकड़ों गीगाबाइट्स, टेराबाइट्स या उससे परे तक भिन्न हो सकती है।
लोड मैनेजर
यह घटक प्रक्रिया निकालने और लोड करने के लिए आवश्यक संचालन करता है।
लोड मैनेजर का आकार और जटिलता एक डेटा वेयरहाउस से दूसरे में विशिष्ट समाधानों के बीच भिन्न होती है।
लोड मैनेजर आर्किटेक्चर
लोड प्रबंधक निम्नलिखित कार्य करता है -
स्रोत प्रणाली से डेटा निकालें।
तेजी से निकाले गए डेटा को अस्थायी डेटा स्टोर में लोड करें।
डेटा वेयरहाउस में एक के समान संरचना में सरल परिवर्तन करें।
स्रोत से डेटा निकालें
डेटा को संचालन डेटाबेस या बाहरी सूचना प्रदाताओं से निकाला जाता है। गेटवे एप्लिकेशन प्रोग्राम हैं जिनका उपयोग डेटा निकालने के लिए किया जाता है। यह अंतर्निहित DBMS द्वारा समर्थित है और क्लाइंट प्रोग्राम को SQL को सर्वर पर निष्पादित करने की अनुमति देता है। ओपन डेटाबेस कनेक्शन (ODBC), जावा डेटाबेस कनेक्शन (JDBC), गेटवे के उदाहरण हैं।
तेजी से लोड
कुल लोड विंडो को कम से कम करने के लिए डेटा को सबसे तेजी से संभव समय में गोदाम में लोड करने की आवश्यकता है।
परिवर्तन डेटा प्रोसेसिंग की गति को प्रभावित करते हैं।
परिवर्तनों और जाँचों को लागू करने से पहले डेटा को संबंधपरक डेटाबेस में लोड करना अधिक प्रभावी है।
गेटवे तकनीक उपयुक्त साबित नहीं होती है, क्योंकि वे बड़े डेटा वॉल्यूम में शामिल होने पर प्रदर्शन करने वाले नहीं होते हैं।
सरल रूपांतरण
लोड करते समय इसे सरल परिवर्तन करने के लिए आवश्यक हो सकता है। यह पूरा होने के बाद हम जटिल जांच करने की स्थिति में हैं। मान लीजिए कि हम ईपीओएस बिक्री लेनदेन को लोड कर रहे हैं, हमें निम्नलिखित जांच करने की आवश्यकता है:
- गोदाम के भीतर आवश्यक सभी स्तंभों को पट्टी करें।
- सभी मानों को आवश्यक डेटा प्रकारों में परिवर्तित करें।
गोदाम प्रबंधक
गोदाम प्रबंधन प्रक्रिया के लिए एक गोदाम प्रबंधक जिम्मेदार होता है। इसमें थर्ड-पार्टी सिस्टम सॉफ्टवेयर, C प्रोग्राम और शेल स्क्रिप्ट शामिल हैं।
गोदाम प्रबंधकों का आकार और जटिलता विशिष्ट समाधानों के बीच भिन्न होती है।
गोदाम प्रबंधक वास्तुकला
एक गोदाम प्रबंधक में निम्नलिखित शामिल हैं -
- नियंत्रण प्रक्रिया
- SQL के साथ संग्रहीत कार्यविधियाँ या C
- बैकअप / रिकवरी टूल
- एसक्यूएल लिपियों
वेयरहाउस प्रबंधक द्वारा संचालित संचालन
एक गोदाम प्रबंधक स्थिरता और संदर्भात्मक अखंडता जांच करने के लिए डेटा का विश्लेषण करता है।
आधार डेटा के विरुद्ध इंडेक्स, बिज़नेस व्यू, पार्टीशन व्यू बनाता है।
नए एकत्रीकरण और मौजूदा एकत्रीकरण को अद्यतन करता है। सामान्यीकरण उत्पन्न करता है।
स्रोत डेटा को प्रकाशित डेटा वेयरहाउस में ट्रांसफ़ॉर्म और मर्ज करता है।
डेटा वेयरहाउस में डेटा का बैकअप लें।
उस डेटा को संग्रहित करता है जो उसके कब्जे वाले जीवन के अंत तक पहुंच गया है।
Note - एक वेयरहाउस प्रबंधक सूचकांक और एकत्रीकरण को निर्धारित करने के लिए क्वेरी प्रोफाइल का विश्लेषण करता है।
क्वेरी प्रबंधक
क्वेरी प्रबंधक उपयुक्त तालिकाओं के लिए प्रश्नों को निर्देशित करने के लिए जिम्मेदार है।
प्रश्नों को उचित तालिकाओं में निर्देशित करके, क्वेरी और प्रतिक्रिया पीढ़ी की गति बढ़ाई जा सकती है।
क्वेरी प्रबंधक उपयोगकर्ता द्वारा लगाए गए प्रश्नों के निष्पादन का समय निर्धारण करने के लिए जिम्मेदार है।
क्वेरी मैनेजर आर्किटेक्चर
निम्न स्क्रीनशॉट एक क्वेरी मैनेजर की वास्तुकला को दर्शाता है। इसमें निम्नलिखित शामिल हैं:
- C टूल या RDBMS के माध्यम से क्वेरी पुनर्निर्देशन
- संग्रहित प्रक्रियाएं
- क्वेरी प्रबंधन उपकरण
- C टूल या RDBMS के माध्यम से क्वेरी शेड्यूलिंग
- तृतीय-पक्ष सॉफ़्टवेयर के माध्यम से क्वेरी शेड्यूलिंग
विस्तृत जानकारी
विस्तृत जानकारी ऑनलाइन नहीं रखी गई है, बल्कि इसे विस्तार के अगले स्तर पर एकत्र किया गया है और फिर टेप करने के लिए संग्रहीत किया गया है। डेटा वेयरहाउस का विस्तृत जानकारी भाग स्टार्फ़्लेक स्कीमा में विस्तृत जानकारी रखता है। विस्तृत जानकारी एकत्र डेटा के पूरक के लिए डेटा वेयरहाउस में लोड की जाती है।
निम्नलिखित आरेख एक चित्रात्मक छाप दिखाता है जहां विस्तृत जानकारी संग्रहीत है और इसका उपयोग कैसे किया जाता है।
Note - यदि डिस्क स्टोरेज को कम करने के लिए विस्तृत जानकारी ऑफलाइन रखी गई है, तो हमें यह सुनिश्चित करना चाहिए कि डेटा संग्रहीत होने, साफ होने और स्टारफ्लेक स्कीमा में परिवर्तित होने से पहले इसे संग्रहीत किया जाए।
सारांश जानकारी
सारांश सूचना डेटा वेयरहाउस का एक हिस्सा है जो पूर्वनिर्धारित एकत्रीकरण को संग्रहीत करता है। ये एकत्रीकरण गोदाम प्रबंधक द्वारा उत्पन्न किए जाते हैं। सारांश सूचना को क्षणिक माना जाना चाहिए। यह बदलती क्वेरी प्रोफाइल का जवाब देने के लिए ऑन-द-गो बदलता है।
सारांश जानकारी के बारे में ध्यान देने योग्य बातें इस प्रकार हैं -
सारांश जानकारी सामान्य प्रश्नों के प्रदर्शन को गति देती है।
यह परिचालन लागत को बढ़ाता है।
जब भी नया डेटा डेटा वेयरहाउस में लोड किया जाता है, तो इसे अपडेट किया जाना चाहिए।
यह विस्तृत जानकारी से नए सिरे से उत्पन्न किया जा सकता है, क्योंकि यह समर्थित नहीं हो सकता है।