डेटा वेयरहाउसिंग - शब्दावली

इस अध्याय में, हम डेटा वेयरहाउसिंग में सबसे अधिक इस्तेमाल किए जाने वाले कुछ शब्दों पर चर्चा करेंगे।

मेटाडाटा

मेटाडेटा को केवल डेटा के बारे में डेटा के रूप में परिभाषित किया गया है। अन्य डेटा का प्रतिनिधित्व करने के लिए उपयोग किए जाने वाले डेटा को मेटाडेटा के रूप में जाना जाता है। उदाहरण के लिए, पुस्तक का सूचकांक पुस्तक में सामग्री के लिए मेटाडेटा के रूप में कार्य करता है। दूसरे शब्दों में, हम कह सकते हैं कि मेटाडेटा संक्षेप डेटा है जो हमें विस्तृत डेटा तक ले जाता है।

डेटा वेयरहाउस के संदर्भ में, हम मेटाडेटा को निम्नानुसार परिभाषित कर सकते हैं -

  • मेटाडेटा डेटा वेयरहाउस के लिए एक रोड-मैप है।

  • डेटा वेयरहाउस में मेटाडेटा वेयरहाउस ऑब्जेक्ट्स को परिभाषित करता है।

  • मेटाडाटा एक निर्देशिका के रूप में कार्य करता है। यह निर्देशिका डेटा वेयरहाउस की सामग्री का पता लगाने के लिए निर्णय समर्थन प्रणाली में मदद करती है।

मेटाडेटा रिपोजिटरी

मेटाडेटा रिपॉजिटरी एक डेटा वेयरहाउस सिस्टम का एक अभिन्न अंग है। इसमें निम्नलिखित मेटाडेटा शामिल हैं -

  • Business metadata - इसमें डेटा स्वामित्व जानकारी, व्यावसायिक परिभाषा और बदलती नीतियां शामिल हैं।

  • Operational metadata- इसमें डेटा और डेटा वंश की मुद्रा शामिल है। डेटा की मुद्रा डेटा को सक्रिय, संग्रहीत या शुद्ध होने के लिए संदर्भित करती है। डेटा के वंश का अर्थ है डेटा का इतिहास माइग्रेट किया गया और उस पर लागू किया गया परिवर्तन।

  • Data for mapping from operational environment to data warehouse - इसमें मेटाडेटा में स्रोत डेटाबेस और उनकी सामग्री, डेटा निष्कर्षण, डेटा विभाजन, सफाई, परिवर्तन नियम, डेटा ताज़ा और शुद्ध करने के नियम शामिल हैं।

  • The algorithms for summarization - इसमें आयाम एल्गोरिदम, डेटा पर ग्रैन्युलैरिटी, एग्रीगेशन, सारांश, आदि शामिल हैं।

डेटा घन

एक डेटा क्यूब हमें कई आयामों में डेटा का प्रतिनिधित्व करने में मदद करता है। यह आयाम और तथ्यों द्वारा परिभाषित किया गया है। आयाम वे इकाइयाँ हैं जिनके संबंध में एक उद्यम अभिलेखों का संरक्षण करता है।

डेटा घन का चित्रण

मान लीजिए कि कोई कंपनी समय, मद, शाखा और स्थान के संबंध में बिक्री डेटा वेयरहाउस की मदद से बिक्री रिकॉर्ड का ट्रैक रखना चाहती है। ये आयाम मासिक बिक्री का ट्रैक रखने की अनुमति देते हैं और किस शाखा में आइटम बेचे जाते हैं। प्रत्येक आयाम से जुड़ी एक तालिका है। इस तालिका को आयाम तालिका के रूप में जाना जाता है। उदाहरण के लिए, "आइटम" आयाम तालिका में item_name, item_type और item_brand जैसे गुण हो सकते हैं।

निम्न तालिका समय, आइटम और स्थान आयामों के संबंध में कंपनी के लिए बिक्री डेटा के 2-डी दृश्य का प्रतिनिधित्व करती है।

लेकिन यहां इस 2-डी तालिका में, हमारे पास समय और आइटम के संबंध में रिकॉर्ड हैं। नई दिल्ली के लिए बिक्री समय के संबंध में दिखाई जाती है, और बेची गई वस्तुओं के प्रकार के अनुसार आइटम आयाम। यदि हम बिक्री डेटा को एक और आयाम के साथ देखना चाहते हैं, कहते हैं, स्थान आयाम, तो 3-डी दृश्य उपयोगी होगा। समय, मद और स्थान के संबंध में बिक्री के आंकड़ों का 3-डी दृश्य नीचे दी गई तालिका में दिखाया गया है -

उपरोक्त 3-डी तालिका को 3-डी डेटा क्यूब के रूप में दर्शाया जा सकता है जैसा कि निम्नलिखित आंकड़े में दिखाया गया है -

आंकड़ों का बाजार

डेटा मौसा में संगठन-व्यापी डेटा का एक सबसेट होता है जो किसी संगठन के विशिष्ट समूहों के लिए मूल्यवान होता है। दूसरे शब्दों में, एक डेटा मार्ट में केवल वे डेटा होते हैं जो किसी विशेष समूह के लिए विशिष्ट होते हैं। उदाहरण के लिए, मार्केटिंग डेटा मार्ट में केवल आइटम, ग्राहक और बिक्री से संबंधित डेटा हो सकते हैं। डेटा मौसा विषयों तक ही सीमित हैं।

डेटा मार्ट के बारे में याद करने के लिए अंक

  • विंडोज-आधारित या यूनिक्स / लिनक्स-आधारित सर्वर का उपयोग डेटा मर्स को लागू करने के लिए किया जाता है। उन्हें कम लागत वाले सर्वरों पर लागू किया जाता है।

  • एक डेटा मार्ट के कार्यान्वयन चक्र को महीनों या वर्षों के बजाय हफ्तों में कम समय में मापा जाता है।

  • यदि डेटा की योजना और डिज़ाइन संगठन-व्यापी नहीं हैं, तो डेटा मौसा का जीवन चक्र लंबे समय में जटिल हो सकता है।

  • डेटा मौसा आकार में छोटे होते हैं।

  • डेटा marts विभाग द्वारा अनुकूलित कर रहे हैं।

  • डेटा मार्ट का स्रोत विभागीय संरचित डेटा वेयरहाउस है।

  • डेटा मौसा लचीले होते हैं।

निम्नलिखित आंकड़ा डेटा मौसा के चित्रमय प्रतिनिधित्व को दर्शाता है।

वर्चुअल वेयरहाउस

ऑपरेशनल डेटा वेयरहाउस के दृश्य को वर्चुअल वेयरहाउस के रूप में जाना जाता है। वर्चुअल वेयरहाउस बनाना आसान है। वर्चुअल वेयरहाउस के निर्माण के लिए ऑपरेशनल डेटाबेस सर्वर पर अतिरिक्त क्षमता की आवश्यकता होती है।