डेटा वेयरहाउसिंग - विभाजन की रणनीति

विभाजन प्रदर्शन को बढ़ाने और डेटा के आसान प्रबंधन की सुविधा के लिए किया जाता है। विभाजन प्रणाली की विभिन्न आवश्यकताओं को संतुलित करने में भी मदद करता है। यह हार्डवेयर प्रदर्शन को अनुकूलित करता है और प्रत्येक फैक्ट टेबल को कई अलग-अलग विभाजनों में विभाजित करके डेटा वेयरहाउस के प्रबंधन को सरल बनाता है। इस अध्याय में, हम विभिन्न विभाजन रणनीतियों पर चर्चा करेंगे।

यह विभाजन के लिए आवश्यक क्यों है?

विभाजन निम्नलिखित कारणों से महत्वपूर्ण है -

  • आसान प्रबंधन के लिए,
  • बैकअप / रिकवरी की सहायता के लिए,
  • प्रदर्शन को बढ़ाने के लिए।

आसान प्रबंधन के लिए

डेटा वेयरहाउस में फैक्ट टेबल आकार में सैकड़ों गीगाबाइट तक बढ़ सकता है। तथ्य तालिका का यह विशाल आकार एकल इकाई के रूप में प्रबंधित करने के लिए बहुत कठिन है। इसलिए इसे विभाजन की आवश्यकता है।

बैकअप / रिकवरी की सहायता के लिए

यदि हम तथ्य तालिका को विभाजित नहीं करते हैं, तो हमें पूरे तथ्य तालिका को सभी डेटा के साथ लोड करना होगा। विभाजन हमें केवल उतने ही डेटा को लोड करने की अनुमति देता है जितना एक नियमित आधार पर आवश्यक है। यह लोड करने के समय को कम करता है और सिस्टम के प्रदर्शन को भी बढ़ाता है।

Note- बैकअप आकार में कटौती करने के लिए, वर्तमान विभाजन के अलावा सभी विभाजन केवल-पढ़ने के लिए चिह्नित किए जा सकते हैं। फिर हम इन विभाजनों को एक ऐसी स्थिति में डाल सकते हैं जहाँ उन्हें संशोधित नहीं किया जा सकता है। फिर उनका बैकअप लिया जा सकता है। इसका मतलब है कि केवल वर्तमान विभाजन का बैकअप लेना है।

प्रदर्शन को बढ़ाने के लिए

तथ्य तालिका को डेटा के सेट में विभाजित करके, क्वेरी प्रक्रियाओं को बढ़ाया जा सकता है। क्वेरी प्रदर्शन बढ़ाया जाता है क्योंकि अब क्वेरी केवल उन्हीं विभाजनों को स्कैन करती है जो प्रासंगिक हैं। इसमें पूरे डेटा को स्कैन नहीं करना है।

क्षैतिज विभाजन

ऐसे कई तरीके हैं जिनमें एक तथ्य तालिका को विभाजित किया जा सकता है। क्षैतिज विभाजन में, हमें डेटा वेयरहाउस की प्रबंधन क्षमता के लिए आवश्यकताओं को ध्यान में रखना होगा।

समान खंडों में समय के अनुसार विभाजन

विभाजन की इस रणनीति में, तथ्य तालिका को समय अवधि के आधार पर विभाजित किया जाता है। यहां प्रत्येक समय अवधि व्यवसाय के भीतर एक महत्वपूर्ण अवधारण अवधि का प्रतिनिधित्व करती है। उदाहरण के लिए, यदि उपयोगकर्ता प्रश्न करता हैmonth to date dataफिर डेटा को मासिक सेगमेंट में विभाजित करना उचित है। हम उनमें डेटा को हटाकर विभाजित तालिकाओं का पुन: उपयोग कर सकते हैं।

अलग-अलग आकार के खंडों में समय के अनुसार विभाजन

इस तरह का विभाजन किया जाता है जहां वृद्ध डेटा को बार-बार एक्सेस किया जाता है। यह अपेक्षाकृत वर्तमान डेटा के लिए छोटे विभाजन के एक सेट के रूप में कार्यान्वित किया जाता है, निष्क्रिय डेटा के लिए बड़ा विभाजन।

नोट करने के लिए अंक

  • विस्तृत जानकारी ऑनलाइन उपलब्ध है।

  • भौतिक तालिकाओं की संख्या अपेक्षाकृत कम रखी गई है, जो परिचालन लागत को कम करती है।

  • यह तकनीक उपयुक्त है, जहां हाल के इतिहास और संपूर्ण इतिहास के माध्यम से डेटा खनन की सूई का मिश्रण आवश्यक है।

  • यह तकनीक उपयोगी नहीं है जहां विभाजन प्रोफ़ाइल नियमित आधार पर बदल जाती है, क्योंकि पुन: विभाजन से डेटा वेयरहाउस की संचालन लागत बढ़ जाएगी।

एक अलग आयाम पर विभाजन

फैक्ट टेबल को समय के अलावा अन्य आयामों के आधार पर भी विभाजित किया जा सकता है जैसे उत्पाद समूह, क्षेत्र, आपूर्तिकर्ता, या किसी अन्य आयाम। चलो एक उदाहरण है।

मान लीजिए कि एक मार्केट फंक्शन को विभिन्न क्षेत्रीय विभागों में संरचित किया गया है जैसे a state by stateआधार। यदि प्रत्येक क्षेत्र अपने क्षेत्र के भीतर कैप्चर की गई सूचनाओं पर प्रश्न करना चाहता है, तो यह तथ्य तालिका को क्षेत्रीय विभाजन में विभाजित करने के लिए अधिक प्रभावी साबित होगा। यह प्रश्नों को गति देने का कारण बनेगा क्योंकि इसके लिए प्रासंगिक जानकारी को स्कैन करने की आवश्यकता नहीं है।

नोट करने के लिए अंक

  • क्वेरी में अप्रासंगिक डेटा को स्कैन करने की आवश्यकता नहीं होती है जो क्वेरी प्रक्रिया को गति देती है।

  • यह तकनीक उचित नहीं है जहां भविष्य में आयाम बदलने की संभावना नहीं है। इसलिए, यह निर्धारित करने के लायक है कि आयाम भविष्य में नहीं बदलता है।

  • यदि आयाम बदलता है, तो पूरे तथ्य तालिका को पुन: प्रस्तुत करना होगा।

Note - हम विभाजन को केवल समय आयाम के आधार पर करने की सलाह देते हैं, जब तक कि आप निश्चित नहीं हैं कि सुझाया गया आयाम समूहीकरण डेटा वेयरहाउस के जीवन के भीतर नहीं बदलेगा।

तालिका के आकार द्वारा विभाजन

जब किसी भी आयाम पर तथ्य तालिका को विभाजित करने का कोई स्पष्ट आधार नहीं है, तो हमें करना चाहिए partition the fact table on the basis of their size.हम पूर्व निर्धारित आकार को एक महत्वपूर्ण बिंदु के रूप में सेट कर सकते हैं। जब तालिका पूर्व निर्धारित आकार से अधिक हो जाती है, तो एक नया तालिका विभाजन बनाया जाता है।

नोट करने के लिए अंक

  • यह विभाजन प्रबंधन करने के लिए जटिल है।

  • यह पहचानने के लिए मेटाडेटा की आवश्यकता है कि प्रत्येक विभाजन में कौन सा डेटा संग्रहीत है।

विभाजन आयाम

यदि किसी आयाम में बड़ी संख्या में प्रविष्टियाँ हैं, तो आयामों को विभाजित करना आवश्यक है। यहां हमें एक आयाम के आकार की जांच करनी होगी।

एक बड़े डिजाइन पर विचार करें जो समय के साथ बदलता है। यदि हमें तुलनाओं को लागू करने के लिए सभी विविधताओं को संग्रहीत करने की आवश्यकता है, तो यह आयाम बहुत बड़ा हो सकता है। यह निश्चित रूप से प्रतिक्रिया समय को प्रभावित करेगा।

गोल रॉबिन विभाजन

राउंड रॉबिन तकनीक में, जब एक नए विभाजन की आवश्यकता होती है, तो पुराने को संग्रहीत किया जाता है। यह सही तालिका विभाजन को संदर्भित करने के लिए उपयोगकर्ता एक्सेस टूल की अनुमति देने के लिए मेटाडेटा का उपयोग करता है।

यह तकनीक डेटा वेयरहाउस के भीतर टेबल प्रबंधन सुविधाओं को स्वचालित करना आसान बनाती है।

ऊर्ध्वाधर विभाजन

ऊर्ध्वाधर विभाजन, डेटा को लंबवत रूप से विभाजित करता है। निम्नलिखित छवियां दर्शाती हैं कि ऊर्ध्वाधर विभाजन कैसे किया जाता है।

ऊर्ध्वाधर विभाजन निम्नलिखित दो तरीकों से किया जा सकता है -

  • Normalization
  • पंक्ति विभाजन

मानकीकरण

सामान्यीकरण डेटाबेस संगठन का मानक संबंधपरक तरीका है। इस विधि में, पंक्तियों को एक पंक्ति में ढह दिया जाता है, इसलिए यह स्थान कम कर देता है। निम्नलिखित तालिकाओं पर एक नज़र डालें जो दिखाती हैं कि सामान्यीकरण कैसे किया जाता है।

सामान्य होने से पहले तालिका

उत्पाद आइ डि मात्रा मूल्य sales_date Store_id स्टोर नाम स्थान क्षेत्र
30 5 3.67 3-Aug-13 16 धूप बैंगलोर रों
35 4 5.33 3 सितम्बर 13 16 धूप बैंगलोर रों
40 5 2.50 3 सितम्बर 13 64 सैन मुंबई डब्ल्यू
45 7 5.66 3 सितम्बर 13 16 धूप बैंगलोर रों

सामान्य होने के बाद तालिका

Store_id स्टोर नाम स्थान क्षेत्र
16 धूप बैंगलोर डब्ल्यू
64 सैन मुंबई रों
उत्पाद आइ डि मात्रा मूल्य sales_date Store_id
30 5 3.67 3-Aug-13 16
35 4 5.33 3 सितम्बर 13 16
40 5 2.50 3 सितम्बर 13 64
45 7 5.66 3 सितम्बर 13 16

पंक्ति विभाजन

विभाजन के बीच रो बंटवारे के लिए एक-से-एक नक्शा छोड़ना पड़ता है। पंक्ति विभाजन का उद्देश्य अपने आकार को कम करके बड़ी तालिका तक पहुंच को गति देना है।

Note - ऊर्ध्वाधर विभाजन का उपयोग करते समय, सुनिश्चित करें कि दो विभाजन के बीच एक प्रमुख जॉइन ऑपरेशन करने की आवश्यकता नहीं है।

विभाजन की कुंजी की पहचान करें

सही विभाजन कुंजी को चुनना बहुत महत्वपूर्ण है। एक गलत विभाजन कुंजी चुनने से तथ्य तालिका का पुनर्गठन होगा। चलो एक उदाहरण है। मान लीजिए कि हम निम्नलिखित तालिका को विभाजित करना चाहते हैं।

Account_Txn_Table
transaction_id
account_id
transaction_type
value
transaction_date
region
branch_name

हम किसी भी कुंजी पर विभाजन को चुन सकते हैं। दो संभव कुंजी हो सकता है

  • region
  • transaction_date

मान लीजिए कि व्यवसाय 30 भौगोलिक क्षेत्रों में आयोजित किया गया है और प्रत्येक क्षेत्र में अलग-अलग शाखाएँ हैं। यह हमें 30 विभाजन देगा, जो उचित है। यह विभाजन काफी अच्छा है क्योंकि हमारी आवश्यकताओं पर कब्जा करने से पता चला है कि अधिकांश प्रश्न उपयोगकर्ता के स्वयं के व्यवसाय क्षेत्र तक ही सीमित हैं।

यदि हम क्षेत्र के बजाय transaction_date द्वारा विभाजन करते हैं, तो प्रत्येक क्षेत्र से नवीनतम लेनदेन एक विभाजन में होगा। अब जो उपयोगकर्ता अपने क्षेत्र के भीतर डेटा देखना चाहता है, उसे कई विभाजनों में क्वेरी करनी होगी।

इसलिए यह सही विभाजन कुंजी को निर्धारित करने के लायक है।