DocumentDB - विभाजन

जब आपका डेटाबेस 10GB से आगे बढ़ने लगता है, तो आप बस नए संग्रह बना सकते हैं और फिर अपने डेटा को अधिक से अधिक संग्रह में फैला या विभाजित कर सकते हैं।

जल्दी या बाद में एक एकल संग्रह, जिसमें 10 जीबी की क्षमता है, आपके डेटाबेस को रखने के लिए पर्याप्त नहीं होगा। अब 10GB एक बहुत बड़ी संख्या की तरह नहीं लग सकता है, लेकिन याद रखें कि हम JSON दस्तावेज़ संग्रहीत कर रहे हैं, जो कि केवल सादे पाठ है और आप 10GB में बहुत सारे सादे पाठ दस्तावेज़ फिट कर सकते हैं, तब भी जब आप इंडेक्स के लिए स्टोरेज ओवरहेड पर विचार करते हैं।

स्केलेबिलिटी की बात आने पर स्टोरेज एकमात्र चिंता का विषय नहीं है। एक संग्रह पर उपलब्ध अधिकतम थ्रूपुट प्रति सेकंड ढाई हज़ार अनुरोध इकाइयाँ हैं जो आपको S3 संग्रह के साथ मिलती हैं। इसलिए, यदि आपको उच्च थ्रूपुट की आवश्यकता है, तो आपको कई संग्रह के साथ विभाजन करके भी स्केल करना होगा। स्केल आउट विभाजन को भी कहा जाता हैhorizontal partitioning

कई दृष्टिकोण हैं जिनका उपयोग Azure DocumentDB के साथ डेटा के विभाजन के लिए किया जा सकता है। निम्नलिखित सबसे आम रणनीतियाँ हैं -

  • स्पिलओवर विभाजन
  • श्रेणी विभाजन
  • लुकअप विभाजन
  • हैश विभाजन

स्पिलओवर विभाजन

स्पिलओवर विभाजन एक सरलतम रणनीति है क्योंकि विभाजन कुंजी नहीं है। जब आप बहुत सी चीजों के बारे में अनिश्चित होते हैं, तो इसे शुरू करना एक अच्छा विकल्प है। आप नहीं जान सकते हैं कि क्या आपको कभी भी एक संग्रह से परे स्केल करने की आवश्यकता होगी या आपको कितने संग्रह जोड़ने की आवश्यकता हो सकती है या कितनी तेजी से आपको उन्हें जोड़ने की आवश्यकता हो सकती है।

  • स्पिलओवर विभाजन एक संग्रह के साथ शुरू होता है और कोई विभाजन कुंजी नहीं है।

  • संग्रह बढ़ने लगता है और फिर कुछ और बढ़ता है, और फिर कुछ और, जब तक आप 10GB की सीमा के करीब होना शुरू नहीं करते।

  • जब आप 90 प्रतिशत की क्षमता तक पहुंच जाते हैं, तो आप एक नए संग्रह पर पहुंच जाते हैं और नए दस्तावेजों के लिए इसका उपयोग करना शुरू कर देते हैं।

  • एक बार जब आपका डेटाबेस बड़ी संख्या में संग्रह करने के लिए तैयार हो जाता है, तो आप शायद एक ऐसी रणनीति में बदलाव करना चाहेंगे जो एक विभाजन कुंजी पर आधारित हो।

  • जब आप ऐसा करते हैं, तो आपको जो भी रणनीति आप प्रवास कर रहे हैं, उसके आधार पर दस्तावेज़ों को विभिन्न संग्रहों में ले जाकर अपने डेटा को पुनर्संतुलित करने की आवश्यकता होगी।

श्रेणी विभाजन

सबसे आम रणनीतियों में से एक श्रेणी विभाजन है। इस दृष्टिकोण से आप उन मानों की सीमा निर्धारित करते हैं जो किसी दस्तावेज़ की विभाजन कुंजी में गिर सकते हैं और दस्तावेज़ को उस श्रेणी के अनुरूप संग्रह में निर्देशित कर सकते हैं।

  • तिथियाँ आमतौर पर इस रणनीति के साथ उपयोग की जाती हैं जहाँ आप दस्तावेजों को रखने के लिए एक संग्रह बनाते हैं जो कि निर्धारित सीमा के भीतर आते हैं। जब आप उन सीमाओं को परिभाषित करते हैं जो काफी छोटे होते हैं, जहां आप आश्वस्त होते हैं कि कोई संग्रह कभी भी इसकी 10GB की सीमा से अधिक नहीं होगा। उदाहरण के लिए, एक परिदृश्य हो सकता है जहां एक संग्रह पूरे महीने के लिए दस्तावेजों को यथोचित रूप से संभाल सकता है।

  • यह भी हो सकता है कि अधिकांश उपयोगकर्ता वर्तमान डेटा के लिए क्वेरी कर रहे हों, जो इस महीने या शायद पिछले महीने के लिए डेटा होगा, लेकिन उपयोगकर्ता शायद ही कभी पुराने डेटा की खोज कर रहे हों। तो आप जून में एक S3 संग्रह के साथ शुरू करते हैं, जो कि सबसे महंगा संग्रह है जिसे आप खरीद सकते हैं और सबसे अच्छा थ्रूपुट प्राप्त कर सकते हैं।

  • जुलाई में आप जुलाई के डेटा को स्टोर करने के लिए एक और S3 संग्रह खरीदते हैं और आप जून के डेटा को एक कम-महंगे S2 संग्रह में स्केल करते हैं। फिर अगस्त में, आपको एक एस 2 संग्रह और स्केल जुलाई डाउन टू एस 2 और जून सभी तरह से एस 1 नीचे मिलता है। यह महीने-दर-महीने आगे बढ़ता है, जहाँ आप हमेशा मौजूदा डेटा को उच्च थ्रूपुट के लिए उपलब्ध रखते हैं और पुराने डेटा को निम्न थ्रूपुट में उपलब्ध रखते हैं।

  • जब तक क्वेरी एक विभाजन कुंजी प्रदान करती है, तब तक केवल उस संग्रह को क्वेर करने की आवश्यकता होती है, जो डेटाबेस में सभी संग्रह नहीं होता है, जैसे कि स्पिलओवर विभाजन के साथ होता है।

लुकअप विभाजन

विभाजन की खोज के साथ आप एक विभाजन मानचित्र को परिभाषित कर सकते हैं जो दस्तावेज़ों को उनके विभाजन कुंजी के आधार पर विशिष्ट संग्रहों के लिए मार्ग देता है। उदाहरण के लिए, आप क्षेत्र के अनुसार विभाजन कर सकते हैं।

  • एक संग्रह में सभी अमेरिकी दस्तावेजों को स्टोर करें, दूसरे संग्रह में सभी यूरोपीय दस्तावेजों और तीसरे संग्रह में किसी अन्य क्षेत्र के सभी दस्तावेजों को संग्रहीत करें।

  • इस पार्टीशन मैप का उपयोग करें और लुकअप पार्टीशन रिज़ॉल्वर यह पता लगा सकता है कि किस पार्टीशन में डॉक्यूमेंट बनाने के लिए कौन सा कलेक्शन और किस कलेक्शन को क्वैरी करना है, जो कि पार्टिशन प्रॉपर्टी के आधार पर है, जो प्रत्येक डॉक्यूमेंट में निहित है।

हैश विभाजन

हैश विभाजन में, विभाजन एक हैश फ़ंक्शन के मान के आधार पर असाइन किए जाते हैं, जिससे आप कई विभाजनों में समान रूप से अनुरोध और डेटा वितरित कर सकते हैं।

यह आमतौर पर बड़ी संख्या में अलग-अलग ग्राहकों से उत्पादित या उपभोग किए गए डेटा को विभाजित करने के लिए उपयोग किया जाता है, और उपयोगकर्ता प्रोफाइल, कैटलॉग आइटम आदि को संग्रहीत करने के लिए उपयोगी है।

आइए .NET SDK द्वारा आपूर्ति की गई RangePartitionResolver का उपयोग करके श्रेणी विभाजन के एक सरल उदाहरण पर एक नज़र डालते हैं।

Step 1- एक नया दस्तावेज़ बनाएँ और हम CreateCollections कार्य में दो संग्रह बनाएंगे। एक में उन उपयोगकर्ताओं के लिए दस्तावेज़ होंगे जिनके पास उपयोगकर्ता आईडी एम के माध्यम से शुरू होता है और दूसरा उपयोगकर्ता आईडी एन के लिए जेड के माध्यम से होता है।

private static async Task CreateCollections(DocumentClient client) {
   await client.CreateDocumentCollectionAsync(“dbs/myfirstdb”, new DocumentCollection {
      Id = “CollectionAM” }); 
		
   await client.CreateDocumentCollectionAsync(“dbs/myfirstdb”, new DocumentCollection {
      Id = “CollectionNZ” }); 
}

Step 2 - डेटाबेस के लिए रेंज रिज़ॉल्वर पंजीकृत करें।

Step 3- एक नया RangePartitionResolver <string> बनाएँ, जो हमारे विभाजन कुंजी का डेटाटाइप है। कंस्ट्रक्टर दो मापदंडों को लेता है, विभाजन कुंजी का गुणक नाम और एक शब्दकोश जो कि शार्प मैप या पार्टीशन मैप है, जो सिर्फ श्रेणियों और संबंधित संग्रहों की एक सूची है जिसे हम रिज़ॉल्वर के लिए पूर्वनिर्धारित कर रहे हैं।

private static void RegisterRangeResolver(DocumentClient client) {

   //Note: \uffff is the largest UTF8 value, so M\ufff includes all strings that start with M.
		
   var resolver = new RangePartitionResolver<string>(
      "userId", new Dictionary<Range<string>, string>() {
      { new Range<string>("A", "M\uffff"), "dbs/myfirstdb/colls/CollectionAM" },
      { new Range<string>("N", "Z\uffff"), "dbs/myfirstdb/colls/CollectionNZ" },
   });
	
   client.PartitionResolvers["dbs/myfirstdb"] = resolver;
 }

यहां सबसे बड़े संभावित UTF-8 मान को एनकोड करना आवश्यक है। या फिर पहली रेंज एक सिंगल M को छोड़कर किसी भी Ms पर मेल नहीं खाएगी, और इसी तरह दूसरी रेंज में Z के लिए। इसलिए, आप इस एन्कोडेड वैल्यू के बारे में यहाँ विभाजन कुंजी पर मिलान के लिए वाइल्डकार्ड के रूप में सोच सकते हैं।

Step 4- रिज़ॉल्वर बनाने के बाद, इसे वर्तमान DocumentClient के साथ डेटाबेस के लिए पंजीकृत करें। ऐसा करने के लिए बस इसे PartitionResolver की डिक्शनरी प्रॉपर्टी को असाइन करें।

हम डेटाबेस के खिलाफ दस्तावेजों के लिए बनाएँ और क्वेरी करेंगे, न कि एक संग्रह के रूप में जैसा कि आप सामान्य रूप से करते हैं, रिज़ॉल्वर इस नक्शे का उपयोग उचित संग्रह के मार्ग अनुरोधों के लिए करेगा।

अब कुछ दस्तावेज बनाते हैं। पहले हम userId Kirk के लिए एक बनाएँगे, और फिर Spock के लिए एक।

private static async Task CreateDocumentsAcrossPartitions(DocumentClient client) { 
   Console.WriteLine(); 
   Console.WriteLine("**** Create Documents Across Partitions ****");
	
   var kirkDocument = await client.CreateDocumentAsync("dbs/myfirstdb", new { userId =
      "Kirk", title = "Captain" }); 
   Console.WriteLine("Document 1: {0}", kirkDocument.Resource.SelfLink);
	
   var spockDocument = await client.CreateDocumentAsync("dbs/myfirstdb", new { userId =
      "Spock", title = "Science Officer" });		
   Console.WriteLine("Document 2: {0}", spockDocument.Resource.SelfLink); 
}

यहां पहला पैरामीटर डेटाबेस का एक स्व-लिंक है, न कि एक विशिष्ट संग्रह। यह एक विभाजन रिवाल्वर के बिना संभव नहीं है, लेकिन एक के साथ यह सिर्फ मूल रूप से काम करता है।

दोनों दस्तावेजों को डेटाबेस myfirstdb में सहेजा गया था, लेकिन हम जानते हैं कि Kirk को A के लिए M के माध्यम से संग्रह में संग्रहीत किया जा रहा है और Sp को N से Z के लिए संग्रह में संग्रहीत किया जा रहा है, यदि हमारी RangePartitionResolver ठीक से काम कर रही है।

निम्न कोड में दिखाए गए अनुसार CreateDocumentClient कार्य से इन्हें कॉल करते हैं।

private static async Task CreateDocumentClient() {
   // Create a new instance of the DocumentClient 
   using (var client = new DocumentClient(new Uri(EndpointUrl), AuthorizationKey)) {
      await CreateCollections(client);  
      RegisterRangeResolver(client);  
      await CreateDocumentsAcrossPartitions(client); 
   } 
}

जब उपरोक्त कोड निष्पादित किया जाता है, तो आपको निम्न आउटपुट प्राप्त होगा।

**** Create Documents Across Partitions **** 
Document 1: dbs/Ic8LAA==/colls/Ic8LAO2DxAA=/docs/Ic8LAO2DxAABAAAAAAAAAA==/ 
Document 2: dbs/Ic8LAA==/colls/Ic8LAP12QAE=/docs/Ic8LAP12QAEBAAAAAAAAAA==/

जैसा कि देखा गया है कि दो दस्तावेजों के स्व-लिंक में अलग-अलग संसाधन आईडी हैं, क्योंकि वे दो अलग-अलग संग्रह में मौजूद हैं।