डेटा वेयरहाउसिंग - ट्यूनिंग
एक डेटा वेयरहाउस विकसित होता रहता है और यह अप्रत्याशित होता है कि उपयोगकर्ता भविष्य में क्या पोस्ट करने जा रहा है। इसलिए डेटा वेयरहाउस सिस्टम को ट्यून करना अधिक कठिन हो जाता है। इस अध्याय में, हम चर्चा करेंगे कि किसी डेटा वेयरहाउस के विभिन्न पहलुओं जैसे कि प्रदर्शन, डेटा लोड, क्वेरीज़ आदि को कैसे ट्यून किया जाए।
डेटा वेयरहाउस ट्यूनिंग में कठिनाइयाँ
निम्नलिखित कारणों से डेटा वेयरहाउस को ट्यूनिंग करना एक कठिन प्रक्रिया है -
डेटा वेयरहाउस गतिशील है; यह कभी स्थिर नहीं रहता है।
यह भविष्यवाणी करना बहुत मुश्किल है कि उपयोगकर्ता भविष्य में किस क्वेरी को पोस्ट करने जा रहा है।
समय के साथ व्यावसायिक आवश्यकताओं में बदलाव होता है।
उपयोगकर्ता और उनके प्रोफाइल बदलते रहते हैं।
उपयोगकर्ता एक समूह से दूसरे में जा सकता है।
गोदाम पर डेटा लोड भी समय के साथ बदलता रहता है।
Note - डाटा वेयरहाउस की पूरी जानकारी होना बहुत जरूरी है।
प्रदर्शन का आंकलन
यहाँ प्रदर्शन के उद्देश्य उपायों की एक सूची है -
- औसत क्वेरी प्रतिक्रिया समय
- स्कैन दर
- समय प्रति दिन क्वेरी का उपयोग किया जाता है
- स्मृति प्रक्रिया के अनुसार उपयोग
- I / O थ्रूपुट दरें
याद करने के लिए निम्नलिखित बिंदु हैं।
सेवा स्तर समझौते (एसएलए) में उपायों को निर्दिष्ट करना आवश्यक है।
यह प्रतिक्रिया समय को ट्यून करने का कोई फायदा नहीं है, अगर वे पहले से ही आवश्यक से बेहतर हैं।
प्रदर्शन मूल्यांकन करते समय यथार्थवादी अपेक्षाएं होना आवश्यक है।
यह भी आवश्यक है कि उपयोगकर्ताओं को व्यावहारिक उम्मीदें हैं।
उपयोगकर्ता से सिस्टम की जटिलता को छिपाने के लिए, एकत्रीकरण और विचारों का उपयोग किया जाना चाहिए।
यह भी संभव है कि उपयोगकर्ता एक क्वेरी लिख सकता है जिसके लिए आपने ट्यून नहीं किया था।
डेटा लोड ट्यूनिंग
डेटा लोड ओवरनाइट प्रोसेसिंग का एक महत्वपूर्ण हिस्सा है। डेटा लोड पूरा होने तक कुछ और नहीं चल सकता। यह सिस्टम में प्रवेश बिंदु है।
Note- अगर डाटा ट्रांसफर करने में देरी हो रही है, या डेटा आने में है तो पूरा सिस्टम बुरी तरह से प्रभावित होता है। इसलिए पहले डेटा लोड को ट्यून करना बहुत महत्वपूर्ण है।
ट्यूनिंग डेटा लोड के विभिन्न दृष्टिकोण हैं जो नीचे चर्चा कर रहे हैं -
बहुत ही सामान्य तरीका है डेटा का उपयोग करके सम्मिलित करना SQL Layer। इस दृष्टिकोण में, सामान्य जांच और बाधाओं का प्रदर्शन करने की आवश्यकता है। जब डेटा तालिका में डाला जाता है, तो कोड डेटा डालने के लिए पर्याप्त स्थान की जांच करने के लिए चलेगा। यदि पर्याप्त स्थान उपलब्ध नहीं है, तो इन तालिकाओं को अधिक स्थान आवंटित करना पड़ सकता है। ये चेक प्रदर्शन करने के लिए समय लेते हैं और सीपीयू के लिए महंगे हैं।
दूसरा तरीका यह है कि इन सभी जाँचों और बाधाओं को दरकिनार करके डेटा को सीधे प्रीफ़ेक्टेड ब्लॉक्स में रखें। ये ब्लॉक बाद में डेटाबेस में लिखे जाते हैं। यह पहले दृष्टिकोण से तेज है, लेकिन यह केवल डेटा के पूरे ब्लॉक के साथ काम कर सकता है। इससे कुछ जगह अपव्यय हो सकता है।
तीसरा दृष्टिकोण यह है कि डेटा को तालिका में लोड करते समय जिसमें पहले से ही तालिका है, हम अनुक्रमित रख सकते हैं।
चौथा दृष्टिकोण कहता है कि डेटा को उन तालिकाओं में लोड करने के लिए जिनमें पहले से ही डेटा है, drop the indexes & recreate themजब डेटा लोड पूरा हो जाता है। तीसरे और चौथे दृष्टिकोण के बीच चुनाव इस बात पर निर्भर करता है कि कितना डेटा पहले से लोड है और कितने इंडेक्स को फिर से बनाने की जरूरत है।
ईमानदारी की जाँच
इंटीग्रिटी जाँच अत्यधिक लोड के प्रदर्शन को प्रभावित करता है। याद करने के लिए निम्नलिखित बिंदु हैं -
वफ़ादारी जाँच को सीमित करने की आवश्यकता है क्योंकि उन्हें भारी प्रसंस्करण शक्ति की आवश्यकता होती है।
डेटा लोड के प्रदर्शन में गिरावट से बचने के लिए स्रोत प्रणाली पर अखंडता जांच लागू की जानी चाहिए।
ट्यूनिंग क्वेरी
डेटा वेयरहाउस में हमारे पास दो प्रकार के प्रश्न हैं -
- निश्चित प्रश्न
- तदर्थ प्रश्न
निश्चित क्वेरी
निश्चित प्रश्नों को अच्छी तरह से परिभाषित किया गया है। निम्नलिखित प्रश्नों के उदाहरण हैं -
- नियमित रिपोर्ट
- डिब्बाबंद प्रश्न
- आम एकत्रीकरण
डेटा वेयरहाउस में निश्चित क्वेरी को ट्यून करना एक रिलेशनल डेटाबेस सिस्टम में ही होता है। अंतर केवल इतना है कि डेटा की मात्रा को अलग किया जा सकता है। स्थिर क्वेरी का परीक्षण करते समय सबसे सफल निष्पादन योजना को संग्रहीत करना अच्छा है। इन निष्पादन योजना को संग्रहीत करने से हमें डेटा आकार और डेटा तिरछा को बदलने की अनुमति मिलेगी, क्योंकि यह निष्पादन योजना को बदलने का कारण होगा।
Note - हम तथ्य तालिका पर अधिक नहीं कर सकते हैं लेकिन आयाम तालिका या एकत्रीकरण के साथ काम करते समय, इन प्रश्नों को ट्यून करने के लिए एसक्यूएल ट्विकिंग, भंडारण तंत्र और एक्सेस विधियों के सामान्य संग्रह का उपयोग किया जा सकता है।
तदर्थ प्रश्न
तदर्थ प्रश्नों को समझने के लिए, डेटा गोदाम के तदर्थ उपयोगकर्ताओं को जानना महत्वपूर्ण है। प्रत्येक उपयोगकर्ता या उपयोगकर्ताओं के समूह के लिए, आपको निम्नलिखित जानने की आवश्यकता है -
- समूह में उपयोगकर्ताओं की संख्या
- क्या वे समय के नियमित अंतराल पर तदर्थ प्रश्नों का उपयोग करते हैं
- वे अक्सर तदर्थ प्रश्नों का उपयोग करते हैं या नहीं
- क्या वे अज्ञात अंतराल पर कभी-कभी तदर्थ प्रश्नों का उपयोग करते हैं।
- उनके द्वारा चलाए जाने वाले क्वेरी का अधिकतम आकार
- उनके द्वारा चलाए जाने वाले क्वेरी का औसत आकार
- चाहे उन्हें आधार डेटा तक ड्रिल-डाउन एक्सेस की आवश्यकता हो
- बीता हुआ लॉगिन समय प्रति दिन
- दैनिक उपयोग का चरम समय
- वे प्रति घंटे कितने प्रश्नों को चलाते हैं
Points to Note
उपयोगकर्ता के प्रोफाइल को ट्रैक करना और नियमित आधार पर चलने वाले प्रश्नों की पहचान करना महत्वपूर्ण है।
यह भी महत्वपूर्ण है कि निष्पादित ट्यूनिंग प्रदर्शन को प्रभावित नहीं करती है।
समान और तदर्थ प्रश्नों को पहचानें जो अक्सर चलते हैं।
यदि इन प्रश्नों की पहचान की जाती है, तो डेटाबेस बदल जाएगा और उन प्रश्नों के लिए नए सूचकांक जोड़े जा सकते हैं।
यदि इन प्रश्नों की पहचान की जाती है, तो नए एकत्रीकरण विशेष रूप से उन प्रश्नों के लिए बनाए जा सकते हैं, जिनके परिणामस्वरूप उनका कुशल निष्पादन होगा।