वितरित DBMS - त्वरित गाइड

किसी भी संगठन के समुचित कार्य के लिए, एक सुव्यवस्थित डेटाबेस की आवश्यकता होती है। हाल के दिनों में, डेटाबेस प्रकृति में केंद्रीकृत हुआ करते थे। हालांकि, वैश्वीकरण में वृद्धि के साथ, संगठनों को दुनिया भर में विविध किया जाता है। वे केंद्रीय डेटाबेस के बजाय स्थानीय सर्वर पर डेटा वितरित करना चुन सकते हैं। इस प्रकार, की अवधारणा पर पहुंचेDistributed Databases

यह अध्याय डेटाबेस और डेटाबेस मैनेजमेंट सिस्टम (DBMS) का अवलोकन देता है। एक डेटाबेस संबंधित डेटा का एक ऑर्डर किया गया संग्रह है। एक DBMS एक डेटाबेस पर काम करने के लिए एक सॉफ्टवेयर पैकेज है। डीबीएमएस का एक विस्तृत अध्ययन हमारे ट्यूटोरियल में "डीबीएमएस सीखें" नाम से उपलब्ध है। इस अध्याय में, हम मुख्य अवधारणाओं को संशोधित करते हैं ताकि डीडीबीएमएस का अध्ययन आसानी से किया जा सके। कवर किए गए तीन विषय डेटाबेस स्कीमा, डेटाबेस पर डेटाबेस के प्रकार और संचालन हैं।

डेटाबेस और डेटाबेस प्रबंधन प्रणाली

databaseसंबंधित डेटा का एक ऑर्डर किया गया संग्रह है जो एक विशिष्ट उद्देश्य के लिए बनाया गया है। एक डेटाबेस को कई तालिकाओं के संग्रह के रूप में व्यवस्थित किया जा सकता है, जहां एक तालिका एक वास्तविक विश्व तत्व या इकाई का प्रतिनिधित्व करती है। प्रत्येक तालिका में कई अलग-अलग क्षेत्र होते हैं जो इकाई की विशिष्ट विशेषताओं का प्रतिनिधित्व करते हैं।

उदाहरण के लिए, एक कंपनी डेटाबेस में प्रोजेक्ट, कर्मचारी, विभाग, उत्पाद और वित्तीय रिकॉर्ड के लिए टेबल शामिल हो सकते हैं। कर्मचारी तालिका में फ़ील्ड का नाम, Company_Id, Date_of_Joining और आगे हो सकता है।

database management systemकार्यक्रमों का एक संग्रह है जो एक डेटाबेस के निर्माण और रखरखाव को सक्षम करता है। DBMS एक सॉफ्टवेयर पैकेज के रूप में उपलब्ध है जो डेटाबेस में डेटा की परिभाषा, निर्माण, हेरफेर और साझा करने की सुविधा प्रदान करता है। एक डेटाबेस की परिभाषा में एक डेटाबेस की संरचना का विवरण शामिल है। एक डेटाबेस के निर्माण में किसी भी भंडारण माध्यम में डेटा का वास्तविक भंडारण शामिल है। हेरफेर डेटाबेस से जानकारी प्राप्त करने, डेटाबेस को अपडेट करने और रिपोर्ट जनरेट करने को संदर्भित करता है। डेटा साझा करने से विभिन्न उपयोगकर्ताओं या कार्यक्रमों द्वारा डेटा को एक्सेस किया जा सकता है।

DBMS अनुप्रयोग क्षेत्रों के उदाहरण

  • स्वचालित टेलर मशीनें
  • ट्रेन आरक्षण प्रणाली
  • कर्मचारी प्रबंधन प्रणाली
  • छात्र सूचना प्रणाली

DBMS पैकेज के उदाहरण

  • MySQL
  • Oracle
  • एस क्यू एल सर्वर
  • dBASE
  • FoxPro
  • PostgreSQL, आदि।

डेटाबेस स्कीमा

एक डेटाबेस स्कीमा डेटाबेस का एक विवरण है जो डेटाबेस डिजाइन के दौरान निर्दिष्ट किया जाता है और अनंतिम परिवर्तन के अधीन होता है। यह डेटा के संगठन, उनके बीच संबंधों और उनसे जुड़ी बाधाओं को परिभाषित करता है।

डेटाबेस अक्सर के माध्यम से प्रतिनिधित्व कर रहे हैं three-schema architecture या ANSISPARC architecture। इस आर्किटेक्चर का लक्ष्य उपयोगकर्ता एप्लिकेशन को भौतिक डेटाबेस से अलग करना है। तीन स्तर हैं -

  • Internal Level having Internal Schema - यह भौतिक संरचना, आंतरिक भंडारण का विवरण और डेटाबेस के लिए उपयोग पथ का वर्णन करता है।

  • Conceptual Level having Conceptual Schema- यह डेटा के भौतिक भंडारण के विवरण को छिपाते हुए पूरे डेटाबेस की संरचना का वर्णन करता है। यह संस्थाओं, उनके डेटा प्रकारों और बाधाओं, उपयोगकर्ता संचालन और संबंधों के साथ विशेषता दिखाता है।

  • External or View Level having External Schemas or Views - यह डेटाबेस के एक हिस्से का वर्णन करता है जो किसी विशेष उपयोगकर्ता या उपयोगकर्ताओं के समूह के लिए प्रासंगिक है, बाकी डेटाबेस को छिपाते हुए।

DBMS के प्रकार

डीबीएमएस चार प्रकार के होते हैं।

पदानुक्रमित डीबीएमएस

पदानुक्रमित डीबीएमएस में, डेटाबेस में डेटा के बीच संबंध स्थापित किए जाते हैं ताकि एक डेटा तत्व दूसरे के अधीनस्थ के रूप में मौजूद हो। डेटा तत्वों में माता-पिता-बच्चे के संबंध होते हैं और "ट्री" डेटा संरचना का उपयोग करके मॉडलिंग की जाती है। ये बहुत तेज और सरल हैं।

नेटवर्क DBMS

नेटवर्क DBMS एक में जहां डेटाबेस में डेटा के बीच संबंध नेटवर्क के रूप में कई-से-कई प्रकार के होते हैं। संरचना कई-कई-कई संबंधों के अस्तित्व के कारण आम तौर पर जटिल होती है। नेटवर्क DBMS को "ग्राफ" डेटा संरचना का उपयोग करके बनाया गया है।

संबंधपरक डी.बी.एम.एस.

संबंधपरक डेटाबेस में, डेटाबेस को संबंधों के रूप में दर्शाया जाता है। प्रत्येक संबंध एक इकाई का मॉडल होता है और इसे मूल्यों की तालिका के रूप में दर्शाया जाता है। संबंध या तालिका में, एक पंक्ति को एक ट्यूपल कहा जाता है और एक एकल रिकॉर्ड को दर्शाता है। एक स्तंभ को एक क्षेत्र या एक विशेषता कहा जाता है और इकाई की एक विशेषता संपत्ति को दर्शाता है। RDBMS सबसे लोकप्रिय डेटाबेस प्रबंधन प्रणाली है।

उदाहरण के लिए - एक छात्र संबंध -

ऑब्जेक्ट ओरिएंटेड DBMS

ऑब्जेक्ट-ओरिएंटेड DBMS ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग प्रतिमान के मॉडल से लिया गया है। वे डेटाबेस में संग्रहीत के साथ-साथ क्षणिक डेटा दोनों को लगातार डेटा का प्रतिनिधित्व करने में सहायक होते हैं, जैसा कि प्रोग्राम निष्पादित करने में पाया जाता है। वे छोटे, पुन: प्रयोज्य तत्वों का उपयोग करते हैं जिन्हें ऑब्जेक्ट कहा जाता है। प्रत्येक ऑब्जेक्ट में डेटा भाग और ऑपरेशन का एक सेट होता है जो डेटा पर काम करता है। ऑब्जेक्ट और इसकी विशेषताओं को रिलेशनल टेबल मॉडल में संग्रहीत किए जाने के बजाय पॉइंटर्स के माध्यम से एक्सेस किया जाता है।

उदाहरण के लिए - एक सरलीकृत बैंक खाता वस्तु उन्मुख डेटाबेस -

वितरित DBMS

एक वितरित डेटाबेस इंटरकनेक्टेड डेटाबेस का एक सेट है जो कंप्यूटर नेटवर्क या इंटरनेट पर वितरित किया जाता है। एक वितरित डेटाबेस प्रबंधन प्रणाली (DDBMS) वितरित डेटाबेस का प्रबंधन करता है और उपयोगकर्ताओं को डेटाबेस को पारदर्शी बनाने के लिए तंत्र प्रदान करता है। इन प्रणालियों में, डेटा को जानबूझकर कई नोड्स के बीच वितरित किया जाता है ताकि संगठन के सभी कंप्यूटिंग संसाधनों का बेहतर उपयोग किया जा सके।

संचालन DBMS पर

एक डेटाबेस पर चार बुनियादी ऑपरेशन क्रिएट, रीट्रीव, अपडेट और डिलीट हैं।

  • CREATE डेटाबेस संरचना और इसे डेटा के साथ पॉप्युलेट करें - डेटाबेस रिलेशन के निर्माण में डेटा संरचनाओं, डेटा प्रकारों और डेटा की बाधाओं को संग्रहीत करने के लिए निर्दिष्ट करना शामिल है।

    Example - छात्र तालिका बनाने के लिए SQL कमांड -

CREATE TABLE STUDENT ( 
   ROLL INTEGER PRIMARY KEY, 
   NAME VARCHAR2(25), 
   YEAR INTEGER, 
   STREAM VARCHAR2(10) 
);
  • एक बार डेटा प्रारूप को परिभाषित करने के बाद, वास्तविक डेटा को कुछ स्टोरेज माध्यम में प्रारूप के अनुसार संग्रहीत किया जाता है।

    Example एसक्यूएल कमांड छात्र तालिका में एक एकल टपल सम्मिलित करने के लिए -

INSERT INTO STUDENT ( ROLL, NAME, YEAR, STREAM) 
VALUES ( 1, 'ANKIT JHA', 1, 'COMPUTER SCIENCE');
  • RETRIEVEडेटाबेस से सूचना - जानकारी को पुनर्प्राप्त करने में आम तौर पर एक तालिका का सबसेट का चयन करना या कुछ गणना किए जाने के बाद तालिका से डेटा प्रदर्शित करना शामिल है। यह टेबल पर क्वेरी करके किया जाता है।

    Example - कंप्यूटर साइंस स्ट्रीम के सभी छात्रों के नाम पुनः प्राप्त करने के लिए, निम्नलिखित SQL क्वेरी को निष्पादित करने की आवश्यकता है -

SELECT NAME FROM STUDENT 
WHERE STREAM = 'COMPUTER SCIENCE';
  • UPDATE डेटाबेस संरचना को संग्रहीत और संशोधित करने वाली जानकारी - तालिका को अपडेट करने से पुराने मूल्यों को नए मूल्यों के साथ मौजूदा तालिका की पंक्तियों में बदलना शामिल है।

    Example - एसक्यूएल कमांड इलेक्ट्रॉनिक्स से इलेक्ट्रॉनिक्स और संचार के लिए धारा बदलने के लिए -

UPDATE STUDENT 
SET STREAM = 'ELECTRONICS AND COMMUNICATIONS' 
WHERE STREAM = 'ELECTRONICS';
  • डेटाबेस को संशोधित करने का अर्थ तालिका की संरचना को बदलना है। हालाँकि, तालिका का संशोधन कई प्रतिबंधों के अधीन है।

    Example - एक नया फ़ील्ड या स्तंभ जोड़ने के लिए, छात्र तालिका को पता कहें, हम निम्न SQL कमांड का उपयोग करते हैं -

ALTER TABLE STUDENT 
ADD ( ADDRESS VARCHAR2(50) );
  • DELETE संपूर्ण जानकारी के रूप में किसी तालिका को संग्रहीत या नष्ट करना - विशिष्ट जानकारी के विलोपन में कुछ शर्तों को पूरा करने वाली तालिका से चयनित पंक्तियों को हटाना शामिल है।

    Example- वर्तमान में पास होने पर 4 वीं वर्ष में आने वाले सभी छात्रों को हटाने के लिए , हम SQL कमांड का उपयोग करते हैं -

DELETE FROM STUDENT 
WHERE YEAR = 4;
  • वैकल्पिक रूप से, पूरी तालिका को डेटाबेस से हटाया जा सकता है।

    Example - छात्र तालिका को पूरी तरह से हटाने के लिए, SQL कमांड का उपयोग किया जाता है -

DROP TABLE STUDENT;

यह अध्याय DDBMS की अवधारणा का परिचय देता है। एक वितरित डेटाबेस में, कई डेटाबेस हैं जो भौगोलिक रूप से पूरी दुनिया में वितरित किए जा सकते हैं। एक वितरित DBMS वितरित डेटाबेस को इस तरीके से प्रबंधित करता है ताकि यह उपयोगकर्ताओं के लिए एक एकल डेटाबेस के रूप में दिखाई दे। अध्याय के बाद के भाग में, हम उन कारकों का अध्ययन करने के लिए जाते हैं जो वितरित डेटाबेस, इसके फायदे और नुकसान का नेतृत्व करते हैं।

distributed database कई इंटरकनेक्टेड डेटाबेस का एक संग्रह है, जो कंप्यूटर नेटवर्क के माध्यम से संचार करने वाले विभिन्न स्थानों पर शारीरिक रूप से फैला हुआ है।

विशेषताएं

  • संग्रह में डेटाबेस तार्किक रूप से एक दूसरे के साथ जुड़े हुए हैं। अक्सर वे एकल तार्किक डेटाबेस का प्रतिनिधित्व करते हैं।

  • डेटा भौतिक रूप से कई साइटों पर संग्रहीत किया जाता है। प्रत्येक साइट के डेटा को अन्य साइटों से स्वतंत्र DBMS द्वारा प्रबंधित किया जा सकता है।

  • साइटों में प्रोसेसर एक नेटवर्क के माध्यम से जुड़े हुए हैं। उनके पास कोई मल्टीप्रोसेसर कॉन्फ़िगरेशन नहीं है।

  • एक वितरित डेटाबेस एक पूरी तरह से जुड़ा फाइल सिस्टम नहीं है।

  • एक वितरित डेटाबेस लेनदेन प्रसंस्करण को शामिल करता है, लेकिन यह लेनदेन प्रसंस्करण प्रणाली का पर्याय नहीं है।

वितरित डेटाबेस प्रबंधन प्रणाली

एक वितरित डेटाबेस प्रबंधन प्रणाली (DDBMS) एक केंद्रीकृत सॉफ्टवेयर प्रणाली है जो वितरित डेटाबेस को इस तरीके से प्रबंधित करती है जैसे कि यह सभी एक ही स्थान पर संग्रहीत थे।

विशेषताएं

  • इसका उपयोग वितरित डेटाबेस को बनाने, पुनर्प्राप्त करने, अद्यतन करने और हटाने के लिए किया जाता है।

  • यह समय-समय पर डेटाबेस को सिंक्रनाइज़ करता है और पहुंच तंत्र प्रदान करता है जिसके आधार पर वितरण उपयोगकर्ताओं के लिए पारदर्शी हो जाता है।

  • यह सुनिश्चित करता है कि किसी भी साइट पर संशोधित डेटा सार्वभौमिक रूप से अपडेट किया गया हो।

  • इसका उपयोग उन एप्लिकेशन क्षेत्रों में किया जाता है जहां डेटा की बड़ी मात्रा को एक साथ कई उपयोगकर्ताओं द्वारा संसाधित और एक्सेस किया जाता है।

  • यह विषम डेटाबेस प्लेटफार्मों के लिए डिज़ाइन किया गया है।

  • यह डेटाबेस की गोपनीयता और डेटा अखंडता को बनाए रखता है।

DDBMS को प्रोत्साहित करने वाले कारक

निम्नलिखित कारक DDBMS पर आगे बढ़ने को प्रोत्साहित करते हैं -

  • Distributed Nature of Organizational Units- वर्तमान समय में अधिकांश संगठन विश्व में भौतिक रूप से वितरित कई इकाइयों में विभाजित हैं। प्रत्येक इकाई को स्थानीय डेटा के अपने सेट की आवश्यकता होती है। इस प्रकार, संगठन का समग्र डेटाबेस वितरित हो जाता है।

  • Need for Sharing of Data- कई संगठनात्मक इकाइयों को अक्सर एक दूसरे के साथ संवाद करने और अपने डेटा और संसाधनों को साझा करने की आवश्यकता होती है। यह सामान्य डेटाबेस या प्रतिकृति डेटाबेस की मांग करता है जिसे एक सिंक्रनाइज़ तरीके से उपयोग किया जाना चाहिए।

  • Support for Both OLTP and OLAP- ऑनलाइन ट्रांजेक्शन प्रोसेसिंग (ओएलटीपी) और ऑनलाइन एनालिटिकल प्रोसेसिंग (ओएलएपी) डायवर्सिफाइड सिस्टम पर काम करते हैं जिनमें आम डेटा हो सकता है। वितरित डेटाबेस सिस्टम इन दोनों प्रसंस्करण को सिंक्रनाइज़ डेटा प्रदान करके सहायता करता है।

  • Database Recovery- डीडीबीएमएस में उपयोग की जाने वाली सामान्य तकनीकों में से एक विभिन्न साइटों पर डेटा की प्रतिकृति है। किसी भी साइट में डेटाबेस क्षतिग्रस्त होने पर डेटा की पुनर्प्राप्ति स्वचालित रूप से डेटा रिकवरी में मदद करती है। उपयोगकर्ता अन्य साइटों से डेटा का उपयोग कर सकते हैं, जबकि क्षतिग्रस्त साइट का पुनर्निर्माण किया जा रहा है। इस प्रकार, डेटाबेस विफलता उपयोगकर्ताओं के लिए लगभग असंगत हो सकती है।

  • Support for Multiple Application Software- अधिकांश संगठन अपने विशिष्ट डेटाबेस समर्थन के साथ प्रत्येक एप्लिकेशन सॉफ़्टवेयर की एक किस्म का उपयोग करते हैं। DDBMS विभिन्न प्लेटफार्मों के बीच एक ही डेटा का उपयोग करने के लिए एक समान कार्यक्षमता प्रदान करता है।

वितरित डेटाबेस के लाभ

केंद्रीकृत डेटाबेस पर वितरित डेटाबेस के फायदे निम्नलिखित हैं।

Modular Development- यदि केंद्रीकृत डेटाबेस सिस्टम में सिस्टम को नए स्थानों या नई इकाइयों में विस्तारित करने की आवश्यकता है, तो कार्रवाई को मौजूदा प्रयासों में पर्याप्त प्रयासों और व्यवधान की आवश्यकता होती है। हालाँकि, वितरित डेटाबेस में, कार्य के लिए नए कंप्यूटर और नए डेटा को नई साइट पर जोड़ने और अंत में उन्हें वितरित सिस्टम से जोड़ने की आवश्यकता होती है, जिसमें वर्तमान कार्यों में कोई रुकावट नहीं होती है।

More Reliable- डेटाबेस की विफलता के मामले में, केंद्रीकृत डेटाबेस की कुल प्रणाली रुक जाती है। हालांकि, वितरित प्रणालियों में, जब एक घटक विफल हो जाता है, तो सिस्टम का कामकाज जारी रहता है जो कम प्रदर्शन पर हो सकता है। इसलिए DDBMS अधिक विश्वसनीय है।

Better Response- यदि डेटा को एक कुशल तरीके से वितरित किया जाता है, तो उपयोगकर्ता अनुरोध स्थानीय डेटा से ही मिल सकते हैं, इस प्रकार तेजी से प्रतिक्रिया प्रदान करते हैं। दूसरी ओर, केंद्रीकृत प्रणालियों में, सभी प्रश्नों को प्रसंस्करण के लिए केंद्रीय कंप्यूटर से गुजरना पड़ता है, जिससे प्रतिक्रिया समय बढ़ता है।

Lower Communication Cost- वितरित डेटाबेस सिस्टम में, यदि डेटा स्थानीय रूप से स्थित है, जहां यह ज्यादातर उपयोग किया जाता है, तो डेटा हेरफेर के लिए संचार लागत को कम किया जा सकता है। यह केंद्रीकृत प्रणालियों में संभव नहीं है।

वितरित डेटाबेस के प्रतिकूल

वितरित डेटाबेस से जुड़ी कुछ प्रतिकूलताएँ निम्नलिखित हैं।

  • Need for complex and expensive software - DDBMS कई साइटों पर डेटा पारदर्शिता और समन्वय प्रदान करने के लिए जटिल और अक्सर महंगे सॉफ़्टवेयर की मांग करता है।

  • Processing overhead - यहां तक ​​कि सरल ऑपरेशन के लिए बड़ी संख्या में संचार और अतिरिक्त गणना की आवश्यकता हो सकती है ताकि साइटों में डेटा में एकरूपता प्रदान की जा सके।

  • Data integrity - कई साइटों में डेटा अपडेट करने की आवश्यकता डेटा अखंडता की समस्याओं को उत्पन्न करती है।

  • Overheads for improper data distribution- प्रश्नों की जवाबदेही काफी हद तक उचित डेटा वितरण पर निर्भर करती है। अनुचित डेटा वितरण अक्सर उपयोगकर्ता के अनुरोध पर बहुत धीमी प्रतिक्रिया की ओर जाता है।

ट्यूटोरियल के इस भाग में, हम उन विभिन्न पहलुओं का अध्ययन करेंगे जो वितरित डेटाबेस वातावरण को डिजाइन करने में सहायता करते हैं। यह अध्याय वितरित डेटाबेस के प्रकारों से शुरू होता है। वितरित डेटाबेसों को सजातीय और विषम डेटाबेसों में वर्गीकृत किया जा सकता है जिसमें आगे विभाजन होते हैं। इस अध्याय का अगला भाग वितरित आर्किटेक्चर अर्थात् क्लाइंट - सर्वर, पीयर - टू - पीयर और मल्टी - डीबीएमएस पर चर्चा करता है। अंत में, प्रतिकृति और विखंडन जैसे विभिन्न डिजाइन विकल्प पेश किए जाते हैं।

वितरित डेटाबेस के प्रकार

वितरित डेटाबेस को मोटे तौर पर सजातीय और विषम वितरित डेटाबेस वातावरण में वर्गीकृत किया जा सकता है, प्रत्येक को आगे के उप-विभाजनों के साथ, जैसा कि निम्नलिखित चित्रण में दिखाया गया है।

सजातीय वितरित डेटाबेस

एक सजातीय वितरित डेटाबेस में, सभी साइट समान DBMS और ऑपरेटिंग सिस्टम का उपयोग करती हैं। इसके गुण हैं -

  • साइटें बहुत समान सॉफ्टवेयर का उपयोग करती हैं।

  • साइटें समान विक्रेता से समान DBMS या DBMS का उपयोग करती हैं।

  • प्रत्येक साइट अन्य सभी साइटों से अवगत है और उपयोगकर्ता के अनुरोधों को संसाधित करने के लिए अन्य साइटों के साथ सहयोग करती है।

  • डेटाबेस को एकल इंटरफ़ेस के माध्यम से एक्सेस किया जाता है जैसे कि वह एकल डेटाबेस हो।

सजातीय वितरित डेटाबेस के प्रकार

दो प्रकार के सजातीय वितरित डेटाबेस हैं -

  • Autonomous- प्रत्येक डेटाबेस स्वतंत्र है जो अपने आप ही कार्य करता है। वे एक नियंत्रित अनुप्रयोग द्वारा एकीकृत होते हैं और डेटा अपडेट साझा करने के लिए संदेश पासिंग का उपयोग करते हैं।

  • Non-autonomous - डेटा समरूप नोड्स में वितरित किया जाता है और एक केंद्रीय या मास्टर DBMS साइटों पर डेटा अपडेट का समन्वय करता है।

विषम वितरित डेटाबेस

विषम वितरित डेटाबेस में, विभिन्न साइटों में अलग-अलग ऑपरेटिंग सिस्टम, DBMS उत्पाद और डेटा मॉडल होते हैं। इसके गुण हैं -

  • विभिन्न साइटें डिसिमिलर स्कीमा और सॉफ़्टवेयर का उपयोग करती हैं।

  • सिस्टम विभिन्न प्रकार के DBMS से बना हो सकता है जैसे रिलेशनल, नेटवर्क, पदानुक्रमित या ऑब्जेक्ट ओरिएंटेड।

  • असमान स्कीमा के कारण क्वेरी प्रसंस्करण जटिल है।

  • प्रसार सॉफ्टवेयर के कारण लेनदेन प्रक्रिया जटिल है।

  • एक साइट अन्य साइटों से अवगत नहीं हो सकती है और इसलिए उपयोगकर्ता अनुरोधों को संसाधित करने में सीमित सहयोग है।

विषम वितरित डेटाबेस के प्रकार

  • Federated - विषम डेटाबेस सिस्टम प्रकृति में स्वतंत्र हैं और एक साथ एकीकृत हैं ताकि वे एकल डेटाबेस सिस्टम के रूप में कार्य करें।

  • Un-federated - डेटाबेस सिस्टम एक केंद्रीय समन्वय मॉड्यूल को नियोजित करता है जिसके माध्यम से डेटाबेस तक पहुँचा जाता है।

वितरित डीबीएमएस आर्किटेक्चर

DDBMS आर्किटेक्चर आमतौर पर तीन मापदंडों के आधार पर विकसित किए जाते हैं -

  • Distribution - यह विभिन्न साइटों पर डेटा के भौतिक वितरण को बताता है।

  • Autonomy - यह डेटाबेस सिस्टम के नियंत्रण के वितरण और प्रत्येक घटक DBMS को स्वतंत्र रूप से संचालित करने की डिग्री को इंगित करता है।

  • Heterogeneity - यह डेटा मॉडल, सिस्टम घटकों और डेटाबेस की एकरूपता या असमानता को संदर्भित करता है।

स्थापत्य मॉडल

कुछ सामान्य वास्तुशिल्प मॉडल हैं -

  • क्लाइंट - DDBMS के लिए सर्वर आर्किटेक्चर
  • डीडीबीएमएस के लिए पीयर - टू - पीयर आर्किटेक्चर
  • मल्टी - DBMS आर्किटेक्चर

क्लाइंट - DDBMS के लिए सर्वर आर्किटेक्चर

यह एक दो-स्तरीय वास्तुकला है जहां कार्यक्षमता को सर्वर और क्लाइंट में विभाजित किया गया है। सर्वर मुख्य रूप से डेटा प्रबंधन, क्वेरी प्रोसेसिंग, ऑप्टिमाइज़ेशन और लेनदेन प्रबंधन को शामिल करता है। क्लाइंट फ़ंक्शन में मुख्य रूप से उपयोगकर्ता इंटरफ़ेस शामिल है। हालाँकि, उनके कुछ कार्य हैं, जैसे स्थिरता जाँच और लेनदेन प्रबंधन।

दो अलग-अलग क्लाइंट - सर्वर आर्किटेक्चर हैं -

  • सिंगल सर्वर मल्टीपल क्लाइंट
  • मल्टीपल सर्वर मल्टीपल क्लाइंट (निम्नलिखित आरेख में दिखाया गया है)

डीडीबीएमएस के लिए पीयर- टू-पीयर आर्किटेक्चर

इन प्रणालियों में, प्रत्येक सहकर्मी डेटाबेस सेवाओं को प्रदान करने के लिए क्लाइंट और सर्वर दोनों के रूप में कार्य करता है। सहकर्मी अपने संसाधनों को अन्य साथियों के साथ साझा करते हैं और उनकी गतिविधियों में समन्वय करते हैं।

इस वास्तुकला में आम तौर पर स्कीमा के चार स्तर होते हैं -

  • Global Conceptual Schema - डेटा के वैश्विक तार्किक दृष्टिकोण को दर्शाता है।

  • Local Conceptual Schema - प्रत्येक साइट पर तार्किक डेटा संगठन को दर्शाता है।

  • Local Internal Schema - प्रत्येक साइट पर भौतिक डेटा संगठन को दर्शाता है।

  • External Schema - डेटा के उपयोगकर्ता दृश्य को दर्शाता है।

मल्टी - डीबीएमएस आर्किटेक्चर

यह एक एकीकृत डेटाबेस प्रणाली है जो दो या अधिक स्वायत्त डेटाबेस प्रणालियों के संग्रह द्वारा बनाई जाती है।

मल्टी-डीबीएमएस को स्कीमा के छह स्तरों के माध्यम से व्यक्त किया जा सकता है -

  • Multi-database View Level - एकीकृत वितरित डेटाबेस के सबसेट के शामिल कई उपयोगकर्ता विचारों को दर्शाता है।

  • Multi-database Conceptual Level - वैश्विक तार्किक बहु-डेटाबेस संरचना परिभाषाओं के समावेश वाले बहु-डेटाबेस को दर्शाया गया है।

  • Multi-database Internal Level - विभिन्न साइटों पर डेटा वितरण और स्थानीय डेटा मैपिंग के लिए मल्टी-डेटाबेस को दर्शाया गया है।

  • Local database View Level - स्थानीय आंकड़ों के बारे में जनता का दृष्टिकोण।

  • Local database Conceptual Level - प्रत्येक साइट पर स्थानीय डेटा संगठन को दर्शाता है।

  • Local database Internal Level - प्रत्येक साइट पर भौतिक डेटा संगठन को दर्शाता है।

मल्टी-डीबीएमएस के लिए दो डिज़ाइन विकल्प हैं -

  • मल्टी-डेटाबेस वैचारिक स्तर वाला मॉडल।
  • मल्टी-डेटाबेस वैचारिक स्तर के बिना मॉडल।

डिजाइन के विकल्प

डीडीबीएमएस में टेबल के लिए वितरण डिजाइन विकल्प निम्नानुसार हैं -

  • गैर-प्रतिकृति और गैर-खंडित
  • पूरी तरह से दोहराया गया
  • आंशिक रूप से दोहराया गया
  • Fragmented
  • Mixed

गैर-प्रतिकृति और गैर-खंडित

इस डिज़ाइन विकल्प में, विभिन्न साइटों पर अलग-अलग टेबल रखे गए हैं। डेटा रखा जाता है ताकि यह उस साइट के करीब हो, जहां इसका सबसे अधिक उपयोग किया जाता है। यह डेटाबेस सिस्टम के लिए सबसे उपयुक्त है, जहां विभिन्न साइटों पर रखी गई तालिकाओं में जानकारी में शामिल होने के लिए आवश्यक प्रश्नों का प्रतिशत कम है। यदि एक उपयुक्त वितरण रणनीति को अपनाया जाता है, तो यह डिज़ाइन विकल्प डेटा प्रोसेसिंग के दौरान संचार लागत को कम करने में मदद करता है।

पूरी तरह से दोहराया गया

इस डिज़ाइन विकल्प में, प्रत्येक साइट पर, सभी डेटाबेस तालिकाओं की एक प्रति संग्रहीत की जाती है। चूंकि, प्रत्येक साइट के पास पूरे डेटाबेस की अपनी प्रति है, इसलिए नगण्य संचार लागत के लिए प्रश्नों की आवश्यकता बहुत तेज है। इसके विपरीत, डेटा में बड़े पैमाने पर अतिरेक को अपडेट संचालन के दौरान भारी लागत की आवश्यकता होती है। इसलिए, यह उन प्रणालियों के लिए उपयुक्त है जहां बड़ी संख्या में प्रश्नों को संभालने की आवश्यकता होती है, जबकि डेटाबेस अपडेट की संख्या कम होती है।

आंशिक रूप से दोहराया गया

तालिकाओं या तालिकाओं के भाग अलग-अलग साइटों पर संग्रहीत किए जाते हैं। तालिकाओं का वितरण पहुंच की आवृत्ति के अनुसार किया जाता है। यह इस तथ्य को ध्यान में रखता है कि तालिकाओं तक पहुंचने की आवृत्ति साइट से साइट पर काफी भिन्न होती है। तालिकाओं (या भागों) की प्रतियों की संख्या इस बात पर निर्भर करती है कि एक्सेस क्वेरी कितनी बार निष्पादित होती है और साइट जो एक्सेस क्वेरी उत्पन्न करती है।

खंडित

इस डिज़ाइन में, एक टेबल को दो या अधिक टुकड़ों में विभाजित किया जाता है, जिसे टुकड़े या विभाजन के रूप में संदर्भित किया जाता है, और प्रत्येक टुकड़े को विभिन्न साइटों पर संग्रहीत किया जा सकता है। यह इस तथ्य पर विचार करता है कि यह शायद ही कभी होता है कि किसी तालिका में संग्रहीत सभी डेटा को किसी साइट पर आवश्यक है। इसके अलावा, विखंडन समानता को बढ़ाता है और बेहतर आपदा वसूली प्रदान करता है। यहां, सिस्टम में प्रत्येक टुकड़े की केवल एक प्रति है, अर्थात कोई अनावश्यक डेटा नहीं है।

तीन विखंडन तकनीक हैं -

  • लंबवत विखंडन
  • क्षैतिज विखंडन
  • हाइब्रिड विखंडन

मिश्रित वितरण

यह विखंडन और आंशिक प्रतिकृति का एक संयोजन है। यहाँ, सारणी शुरू में किसी भी रूप (क्षैतिज या ऊर्ध्वाधर) में खंडित होती है, और फिर इन टुकड़ों को अंशों तक पहुँचने की आवृत्ति के अनुसार विभिन्न साइटों पर आंशिक रूप से दोहराया जाता है।

पिछले अध्याय में, हमने विभिन्न डिज़ाइन विकल्प प्रस्तुत किए थे। इस अध्याय में, हम उन रणनीतियों का अध्ययन करेंगे जो डिज़ाइनों को अपनाने में सहायता करती हैं। रणनीतियों को मोटे तौर पर प्रतिकृति और विखंडन में विभाजित किया जा सकता है। हालांकि, ज्यादातर मामलों में, दोनों के संयोजन का उपयोग किया जाता है।

डेटा प्रतिकृति

डेटा प्रतिकृति दो या दो से अधिक साइटों पर डेटाबेस की अलग-अलग प्रतियां संग्रहीत करने की प्रक्रिया है। यह वितरित डेटाबेस की एक लोकप्रिय गलती सहिष्णुता तकनीक है।

डेटा प्रतिकृति के लाभ

  • Reliability - किसी भी साइट की विफलता के मामले में, डेटाबेस सिस्टम काम करना जारी रखता है क्योंकि एक कॉपी किसी अन्य साइट पर उपलब्ध है।

  • Reduction in Network Load- चूंकि डेटा की स्थानीय प्रतियां उपलब्ध हैं, इसलिए क्वेरी प्रसंस्करण को कम नेटवर्क उपयोग के साथ किया जा सकता है, विशेष रूप से प्राइम घंटों के दौरान। डेटा अपडेट नॉन-प्राइम घंटों में किया जा सकता है।

  • Quicker Response - डेटा की स्थानीय प्रतियों की उपलब्धता त्वरित क्वेरी प्रसंस्करण और इसके परिणामस्वरूप त्वरित प्रतिक्रिया समय सुनिश्चित करती है।

  • Simpler Transactions- लेन-देन के लिए विभिन्न साइटों पर स्थित तालिकाओं के कम संख्या और नेटवर्क में न्यूनतम समन्वय की आवश्यकता होती है। इस प्रकार, वे प्रकृति में सरल हो जाते हैं।

डेटा प्रतिकृति के नुकसान

  • Increased Storage Requirements- डेटा की कई प्रतियों को बनाए रखना भंडारण की बढ़ती लागत के साथ जुड़ा हुआ है। एक केंद्रीयकृत प्रणाली के लिए आवश्यक भंडारण के गुणकों में भंडारण स्थान आवश्यक है।

  • Increased Cost and Complexity of Data Updating- हर बार जब कोई डेटा आइटम अपडेट किया जाता है, तो अपडेट को विभिन्न साइटों पर डेटा की सभी प्रतियों में परिलक्षित होना चाहिए। इसके लिए जटिल सिंक्रोनाइज़ेशन तकनीक और प्रोटोकॉल की आवश्यकता होती है।

  • Undesirable Application – Database coupling- यदि जटिल अद्यतन तंत्र का उपयोग नहीं किया जाता है, तो डेटा असंगतता को हटाने के लिए आवेदन स्तर पर जटिल समन्वय की आवश्यकता होती है। यह अवांछनीय अनुप्रयोग में परिणाम देता है - डेटाबेस युग्मन।

कुछ आमतौर पर इस्तेमाल की जाने वाली प्रतिकृति तकनीकें हैं -

  • स्नैपशॉट प्रतिकृति
  • निकट-वास्तविक समय प्रतिकृति
  • प्रतिकृति खींचो

विखंडन

विखंडन एक तालिका को छोटे तालिकाओं के एक सेट में विभाजित करने का कार्य है। तालिका के सबसेट को कहा जाता हैfragments। विखंडन तीन प्रकार के हो सकते हैं: क्षैतिज, ऊर्ध्वाधर और संकर (क्षैतिज और ऊर्ध्वाधर का संयोजन)। क्षैतिज विखंडन को आगे दो तकनीकों में वर्गीकृत किया जा सकता है: प्राथमिक क्षैतिज विखंडन और व्युत्पन्न क्षैतिज विखंडन।

विखंडन को इस तरह से किया जाना चाहिए ताकि टुकड़ों से मूल तालिका का पुनर्निर्माण किया जा सके। यह आवश्यक है ताकि जब भी आवश्यक हो, मूल तालिका को टुकड़ों से फिर से संगठित किया जा सके। इस आवश्यकता को "पुनर्निर्माण" कहा जाता है।

विखंडन के लाभ

  • चूंकि डेटा उपयोग की साइट के करीब संग्रहीत है, डेटाबेस सिस्टम की दक्षता बढ़ जाती है।

  • स्थानीय क्वेरी ऑप्टिमाइज़ेशन तकनीक अधिकांश प्रश्नों के लिए पर्याप्त हैं क्योंकि डेटा स्थानीय रूप से उपलब्ध है।

  • चूंकि अप्रासंगिक डेटा साइटों पर उपलब्ध नहीं है, इसलिए डेटाबेस सिस्टम की सुरक्षा और गोपनीयता को बनाए रखा जा सकता है।

विखंडन के नुकसान

  • जब विभिन्न अंशों के डेटा की आवश्यकता होती है, तो एक्सेस गति बहुत अधिक हो सकती है।

  • पुनरावर्ती टुकड़ों के मामले में, पुनर्निर्माण के काम के लिए महंगी तकनीकों की आवश्यकता होगी।

  • विभिन्न साइटों में डेटा की बैक-अप प्रतियों की कमी से साइट की विफलता के मामले में डेटाबेस अप्रभावी हो सकता है।

कार्यक्षेत्र विखंडन

ऊर्ध्वाधर विखंडन में, तालिका के फ़ील्ड या कॉलम को टुकड़ों में वर्गीकृत किया जाता है। पुनर्निर्माण को बनाए रखने के लिए, प्रत्येक टुकड़े में तालिका का प्राथमिक मुख्य क्षेत्र (s) होना चाहिए। डेटा की गोपनीयता को लागू करने के लिए ऊर्ध्वाधर विखंडन का उपयोग किया जा सकता है।

उदाहरण के लिए, हमें विचार करना चाहिए कि विश्वविद्यालय का डेटाबेस निम्नलिखित स्कीमा वाले छात्र तालिका में सभी पंजीकृत छात्रों के रिकॉर्ड रखता है।

छात्र

Regd_No नाम कोर्स पता छमाही फीस निशान

अब, खातों के अनुभाग में फीस का विवरण रखा गया है। इस मामले में, डिजाइनर डेटाबेस को निम्न प्रकार से विभाजित करेगा -

CREATE TABLE STD_FEES AS 
   SELECT Regd_No, Fees 
   FROM STUDENT;

क्षैतिज विखंडन

क्षैतिज विखंडन एक या अधिक क्षेत्रों के मूल्यों के अनुसार एक टेबल के टुपल्स को समूहित करता है। क्षैतिज विखंडन भी पुनर्निर्माण के नियम की पुष्टि करना चाहिए। प्रत्येक क्षैतिज टुकड़े में मूल आधार तालिका के सभी कॉलम होने चाहिए।

उदाहरण के लिए, छात्र स्कीमा में, यदि कंप्यूटर साइंस कोर्स के सभी छात्रों के विवरण को स्कूल ऑफ कंप्यूटर साइंस में बनाए रखने की आवश्यकता है, तो डिजाइनर क्षैतिज रूप से डेटाबेस को निम्न प्रकार से विभाजित करेंगे -

CREATE COMP_STD AS 
   SELECT * FROM STUDENT  
   WHERE COURSE = "Computer Science";

हाइब्रिड फ्रैग्मेंटेशन

हाइब्रिड विखंडन में, क्षैतिज और ऊर्ध्वाधर विखंडन तकनीकों के संयोजन का उपयोग किया जाता है। यह सबसे लचीली विखंडन तकनीक है क्योंकि यह न्यूनतम बाहरी जानकारी के साथ टुकड़े उत्पन्न करता है। हालांकि, मूल तालिका का पुनर्निर्माण अक्सर एक महंगा काम है।

हाइब्रिड विखंडन को दो वैकल्पिक तरीकों से किया जा सकता है -

  • सबसे पहले, क्षैतिज टुकड़ों का एक सेट उत्पन्न करें; फिर क्षैतिज टुकड़ों में से एक या अधिक से ऊर्ध्वाधर टुकड़े उत्पन्न करें।

  • सबसे पहले, ऊर्ध्वाधर टुकड़ों का एक सेट उत्पन्न करें; फिर एक या एक से अधिक लम्बे टुकड़ों से क्षैतिज टुकड़े उत्पन्न करें।

वितरण पारदर्शिता, वितरित डेटाबेस की संपत्ति है जिसके आधार पर वितरण का आंतरिक विवरण उपयोगकर्ताओं से छिपाया जाता है। DDBMS डिजाइनर टुकड़े तालिकाओं के लिए चुन सकते हैं, टुकड़ों को दोहरा सकते हैं और उन्हें विभिन्न साइटों पर संग्रहीत कर सकते हैं। हालाँकि, चूंकि उपयोगकर्ता इन विवरणों से अनजान हैं, वे वितरित डेटाबेस को किसी भी केंद्रीकृत डेटाबेस की तरह उपयोग करना आसान पाते हैं।

वितरण पारदर्शिता के तीन आयाम हैं -

  • स्थान पारदर्शिता
  • विखंडन पारदर्शिता
  • प्रतिकृति पारदर्शिता

स्थान पारदर्शिता

स्थान पारदर्शिता यह सुनिश्चित करती है कि उपयोगकर्ता किसी तालिका के किसी भी तालिका (खंड) या टुकड़े पर क्वेरी कर सकता है जैसे कि वे उपयोगकर्ता की साइट में स्थानीय रूप से संग्रहीत थे। यह तथ्य कि वितरित डेटाबेस प्रणाली में दूरस्थ साइट पर तालिका या उसके टुकड़े संग्रहीत हैं, अंत उपयोगकर्ता के लिए पूरी तरह से अनजान होना चाहिए। दूरस्थ साइट (पते) और पहुंच तंत्र का पता पूरी तरह से छिपा हुआ है।

स्थान पारदर्शिता को शामिल करने के लिए, डीडीबीएमएस में अद्यतन और सटीक डेटा शब्दकोश और डीडीबीएमएस निर्देशिका तक पहुंच होनी चाहिए जिसमें डेटा के स्थानों का विवरण होता है।

विखंडन पारदर्शिता

विखंडन पारदर्शिता उपयोगकर्ताओं को किसी भी तालिका पर क्वेरी करने में सक्षम बनाती है जैसे कि यह अप्राकृतिक था। इस प्रकार, यह इस तथ्य को छिपाता है कि उपयोगकर्ता जिस टेबल पर क्वेरी कर रहा है वह वास्तव में कुछ अंशों का टुकड़ा या संघ है। यह इस तथ्य को भी छिपाता है कि टुकड़े विविध स्थलों पर स्थित हैं।

यह कुछ हद तक SQL विचारों के उपयोगकर्ताओं के समान है, जहाँ उपयोगकर्ता को पता नहीं हो सकता है कि वे तालिका के बजाय तालिका के दृश्य का उपयोग कर रहे हैं।

प्रतिकृति पारदर्शिता

प्रतिकृति पारदर्शिता सुनिश्चित करती है कि डेटाबेस की प्रतिकृति उपयोगकर्ताओं से छिपी हुई है। यह उपयोगकर्ताओं को एक तालिका पर क्वेरी करने में सक्षम बनाता है जैसे कि तालिका की केवल एक प्रति मौजूद है।

प्रतिकृति पारदर्शिता संगामिति पारदर्शिता और विफलता पारदर्शिता से जुड़ी है। जब भी कोई उपयोगकर्ता किसी डेटा आइटम को अपडेट करता है, तो अपडेट तालिका की सभी प्रतियों में परिलक्षित होता है। हालांकि, यह ऑपरेशन उपयोगकर्ता को नहीं पता होना चाहिए। यह संगामिति पारदर्शिता है। साथ ही, साइट की विफलता के मामले में, उपयोगकर्ता अभी भी विफलता की जानकारी के बिना प्रतिकृति प्रतियों का उपयोग करके अपने प्रश्नों के साथ आगे बढ़ सकता है। यह विफलता पारदर्शिता है।

पारदर्शिता का संयोजन

किसी भी वितरित डेटाबेस सिस्टम में, डिजाइनर को यह सुनिश्चित करना चाहिए कि सभी निर्दिष्ट पारदर्शिता काफी हद तक बनी हुई है। डिज़ाइनर खंडित तालिकाओं को चुन सकता है, उन्हें दोहरा सकता है और उन्हें विभिन्न साइटों पर संग्रहीत कर सकता है; अंतिम उपयोगकर्ता के लिए सभी अनजान। हालाँकि, पूर्ण वितरण पारदर्शिता एक कठिन कार्य है और इसके लिए काफी डिज़ाइन प्रयासों की आवश्यकता होती है।

डेटाबेस नियंत्रण नियमों को लागू करने के कार्य को संदर्भित करता है ताकि एक डेटाबेस के प्रामाणिक उपयोगकर्ताओं और अनुप्रयोगों को सही डेटा प्रदान किया जा सके। आदेश में कि सही डेटा उपयोगकर्ताओं के लिए उपलब्ध है, सभी डेटा को डेटाबेस में परिभाषित अखंडता बाधाओं के अनुरूप होना चाहिए। इसके अलावा, डेटा को अनधिकृत उपयोगकर्ताओं से दूर रखा जाना चाहिए ताकि डेटाबेस की सुरक्षा और गोपनीयता बनाए रखी जा सके। डेटाबेस कंट्रोल डेटाबेस एडमिनिस्ट्रेटर (DBA) के प्राथमिक कार्यों में से एक है।

डेटाबेस नियंत्रण के तीन आयाम हैं -

  • Authentication
  • पहुंच अधिकार
  • ईमानदारी की कमी

प्रमाणीकरण

एक वितरित डेटाबेस प्रणाली में, प्रमाणीकरण वह प्रक्रिया है जिसके माध्यम से केवल वैध उपयोगकर्ता डेटा संसाधनों तक पहुंच प्राप्त कर सकते हैं।

प्रमाणीकरण को दो स्तरों में लागू किया जा सकता है -

  • Controlling Access to Client Computer- इस स्तर पर, उपयोगकर्ता का डेटाबेस सर्वर के लिए यूजर-इंटरफेस प्रदान करने वाले क्लाइंट कंप्यूटर पर लॉगिन करते समय प्रतिबंधित है। सबसे आम तरीका एक उपयोगकर्ता नाम / पासवर्ड संयोजन है। हालांकि, उच्च सुरक्षा डेटा के लिए बायोमेट्रिक प्रमाणीकरण जैसे अधिक परिष्कृत तरीकों का उपयोग किया जा सकता है।

  • Controlling Access to the Database Software- इस स्तर पर, डेटाबेस सॉफ्टवेयर / व्यवस्थापक उपयोगकर्ता को कुछ क्रेडेंशियल्स प्रदान करता है। उपयोगकर्ता इन क्रेडेंशियल्स का उपयोग करके डेटाबेस तक पहुंच प्राप्त करता है। डेटाबेस सर्वर के भीतर एक लॉगिन खाता बनाने के लिए तरीकों में से एक है।

पहुंच अधिकार

उपयोगकर्ता के उपयोग के अधिकार उन विशेषाधिकारों को संदर्भित करते हैं जो उपयोगकर्ता को डीबीएमएस संचालन के बारे में दिए जाते हैं जैसे कि टेबल बनाने के अधिकार, टेबल ड्रॉप करना, टेबल में टेबल जोड़ना या हटाना / अपडेट करना या टेबल पर क्वेरी करना।

वितरित वातावरण में, चूंकि बड़ी संख्या में टेबल हैं और अभी भी बड़ी संख्या में उपयोगकर्ता हैं, इसलिए उपयोगकर्ताओं के लिए व्यक्तिगत पहुँच अधिकार प्रदान करना संभव नहीं है। तो, DDBMS कुछ भूमिकाओं को परिभाषित करता है। एक भूमिका एक डेटाबेस सिस्टम के भीतर कुछ विशेषाधिकारों के साथ एक निर्माण है। एक बार विभिन्न भूमिकाओं को परिभाषित करने के बाद, व्यक्तिगत उपयोगकर्ताओं को इनमें से एक भूमिका सौंपी जाती है। अक्सर भूमिका की एक पदानुक्रम को संगठन के अधिकार और जिम्मेदारी के पदानुक्रम के अनुसार परिभाषित किया जाता है।

उदाहरण के लिए, निम्न एसक्यूएल स्टेटमेंट एक भूमिका "एकाउंटेंट" बनाते हैं और फिर उपयोगकर्ता "एबीसी" को यह भूमिका सौंपते हैं।

CREATE ROLE ACCOUNTANT; 
GRANT SELECT, INSERT, UPDATE ON EMP_SAL TO ACCOUNTANT; 
GRANT INSERT, UPDATE, DELETE ON TENDER TO ACCOUNTANT; 
GRANT INSERT, SELECT ON EXPENSE TO ACCOUNTANT; 
COMMIT; 
GRANT ACCOUNTANT TO ABC; 
COMMIT;

शब्दार्थ अखंडता नियंत्रण

शब्दार्थ अखंडता नियंत्रण डेटाबेस प्रणाली की अखंडता बाधाओं को परिभाषित करता है और लागू करता है।

अखंडता बाधाएं इस प्रकार हैं -

  • डेटा प्रकार अखंडता बाधा
  • इकाई अखंडता बाधा
  • अधिमान्य अखंडता बाधा

डेटा प्रकार अखंडता बाधा

एक डेटा प्रकार की बाधा मानों की सीमा को सीमित करती है और उन प्रकार के ऑपरेशनों को निर्दिष्ट डेटा प्रकार के साथ फ़ील्ड पर लागू किया जा सकता है।

उदाहरण के लिए, आइए विचार करें कि एक तालिका "HOSTEL" के तीन क्षेत्र हैं - छात्रावास संख्या, छात्रावास का नाम और क्षमता। हॉस्टल नंबर कैपिटल लेटर "H" से शुरू होना चाहिए और NULL नहीं हो सकता है, और क्षमता 150 से अधिक नहीं होनी चाहिए। निम्न SQL कमांड का उपयोग डेटा परिभाषा के लिए किया जा सकता है -

CREATE TABLE HOSTEL ( 
   H_NO VARCHAR2(5) NOT NULL, 
   H_NAME VARCHAR2(15), 
   CAPACITY INTEGER, 
   CHECK ( H_NO LIKE 'H%'), 
   CHECK ( CAPACITY <= 150) 
);

इकाई अखंडता नियंत्रण

इकाई अखंडता नियंत्रण नियमों को लागू करता है ताकि प्रत्येक ट्यूपल को अन्य ट्यूपलों से विशिष्ट रूप से पहचाना जा सके। इसके लिए एक प्राथमिक कुंजी परिभाषित की गई है। एक प्राथमिक कुंजी न्यूनतम फ़ील्ड्स का एक सेट है जो विशिष्ट रूप से टपल की पहचान कर सकती है। इकाई अखंडता बाधा बताती है कि तालिका में कोई भी दो ट्यूपल प्राथमिक कुंजी के लिए समान मान नहीं रख सकते हैं और कोई भी फ़ील्ड जो प्राथमिक कुंजी का एक हिस्सा है, का पूर्ण मान नहीं हो सकता है।

उदाहरण के लिए, उपरोक्त हॉस्टल तालिका में, होस्टल नंबर को निम्न एसक्यूएल स्टेटमेंट (चेक को नजरअंदाज करते हुए) के माध्यम से प्राथमिक कुंजी के रूप में सौंपा जा सकता है।

CREATE TABLE HOSTEL ( 
   H_NO VARCHAR2(5) PRIMARY KEY, 
   H_NAME VARCHAR2(15), 
   CAPACITY INTEGER 
);

रेफ़रेंशियल इंटिग्रिटी कंस्ट्रक्शन

रेफ़रेंशियल अखंडता बाधा विदेशी कुंजी के नियमों का पालन करती है। एक विदेशी कुंजी एक डेटा तालिका में एक फ़ील्ड है जो संबंधित तालिका की प्राथमिक कुंजी है। संदर्भात्मक अखंडता की कमी इस नियम का पालन करती है कि विदेशी कुंजी फ़ील्ड का मान या तो संदर्भित तालिका की प्राथमिक कुंजी के मूल्यों के बीच होना चाहिए या पूरी तरह से NULL होना चाहिए।

उदाहरण के लिए, आइए हम एक छात्र तालिका पर विचार करें जहां एक छात्र एक छात्रावास में रहने का विकल्प चुन सकता है। इसे शामिल करने के लिए, छात्रावास की मेज की प्राथमिक कुंजी को छात्र तालिका में एक विदेशी कुंजी के रूप में शामिल किया जाना चाहिए। निम्न SQL कथन इसमें सम्मिलित है -

CREATE TABLE STUDENT (  
   S_ROLL INTEGER PRIMARY KEY, 
   S_NAME VARCHAR2(25) NOT NULL, 
   S_COURSE VARCHAR2(10), 
   S_HOSTEL VARCHAR2(5) REFERENCES HOSTEL 
);

जब कोई क्वेरी रखी जाती है, तो यह पहले स्कैन, पार्स और मान्य होता है। क्वेरी का आंतरिक प्रतिनिधित्व तब क्वेरी ट्री या क्वेरी ग्राफ़ के रूप में बनाया जाता है। फिर वैकल्पिक निष्पादन रणनीतियों को डेटाबेस तालिकाओं से परिणाम प्राप्त करने के लिए तैयार किया जाता है। क्वेरी प्रसंस्करण के लिए सबसे उपयुक्त निष्पादन रणनीति चुनने की प्रक्रिया को क्वेरी ऑप्टिमाइज़ेशन कहा जाता है।

DDBMS में क्वेरी ऑप्टिमाइज़ेशन समस्याएँ

DDBMS में, क्वेरी ऑप्टिमाइज़ेशन एक महत्वपूर्ण कार्य है। जटिलता अधिक है क्योंकि वैकल्पिक कारकों की संख्या निम्नलिखित कारकों के कारण तेजी से बढ़ सकती है -

  • कई टुकड़ों की उपस्थिति।
  • विभिन्न स्थलों पर टुकड़ों या तालिकाओं का वितरण।
  • संचार लिंक की गति।
  • स्थानीय प्रसंस्करण क्षमताओं में असमानता।

इसलिए, वितरित प्रणाली में, लक्ष्य को अक्सर सर्वश्रेष्ठ के बजाय क्वेरी प्रसंस्करण के लिए एक अच्छी निष्पादन रणनीति मिल जाती है। किसी क्वेरी को निष्पादित करने का समय निम्नलिखित का योग है -

  • डेटाबेस में प्रश्नों को संप्रेषित करने का समय।
  • स्थानीय क्वेरी अंशों को निष्पादित करने का समय।
  • विभिन्न साइटों से डेटा इकट्ठा करने का समय।
  • आवेदन के लिए परिणाम प्रदर्शित करने का समय।

क्वेरी प्रसंस्करण

क्वेरी प्रोसेसिंग क्वेरी प्लेसमेंट से शुरू होने वाली सभी गतिविधियों का एक सेट है जो क्वेरी के परिणामों को प्रदर्शित करता है। चरण निम्न चित्र में दिखाए गए हैं -

संबंधपरक बीजगणित

रिलेशनल बीजगणित रिलेशनल डेटाबेस मॉडल के संचालन के मूल सेट को परिभाषित करता है। संबंधपरक बीजगणित संचालन का एक क्रम एक संबंधपरक बीजगणित अभिव्यक्ति बनाता है। इस अभिव्यक्ति का परिणाम डेटाबेस क्वेरी के परिणाम का प्रतिनिधित्व करता है।

मूल संचालन हैं -

  • Projection
  • Selection
  • Union
  • Intersection
  • Minus
  • Join

प्रक्षेपण

प्रोजेक्शन ऑपरेशन एक तालिका के क्षेत्रों का एक सबसेट प्रदर्शित करता है। यह तालिका का एक ऊर्ध्वाधर विभाजन देता है।

Syntax in Relational Algebra

$$ \ pi _ {<{विशेषता सूची}>} {(<{तालिका नाम}>)} $ $

उदाहरण के लिए, हम निम्नलिखित छात्र डेटाबेस पर विचार करते हैं -

STUDENT
Roll_No Name Course Semester Gender
2 अमित प्रसाद बीसीए 1 पुरुष
4 वर्षा तिवारी बीसीए 1 महिला
5 आसिफ अली एमसीए 2 पुरुष
6 जो वालेस एमसीए 1 पुरुष
8 शिवानी अयंगर बीसीए 1 महिला

यदि हम सभी छात्रों के नाम और पाठ्यक्रम प्रदर्शित करना चाहते हैं, तो हम निम्नलिखित संबंधपरक बीजगणित अभिव्यक्ति का उपयोग करेंगे -

$$\pi_{Name,Course}{(STUDENT)}$$

चयन

चयन ऑपरेशन एक तालिका के टुपल्स का सबसेट प्रदर्शित करता है जो कुछ शर्तों को पूरा करता है। यह तालिका का एक क्षैतिज विभाजन देता है।

Syntax in Relational Algebra

$ $ \ _ सिग्मा _ {<{शर्तें}>} {(<{तालिका नाम}>)} $ $

उदाहरण के लिए, छात्र तालिका में, यदि हम एमसीए पाठ्यक्रम के लिए चुने गए सभी छात्रों का विवरण प्रदर्शित करना चाहते हैं, तो हम निम्नलिखित संबंधपरक बीजगणित अभिव्यक्ति का उपयोग करेंगे -

$$\sigma_{Course} = {\small "BCA"}^{(STUDENT)}$$

प्रोजेक्शन और चयन संचालन का संयोजन

अधिकांश प्रश्नों के लिए, हमें प्रक्षेपण और चयन कार्यों के संयोजन की आवश्यकता है। इन अभिव्यक्तियों को लिखने के दो तरीके हैं -

  • प्रक्षेपण और चयन संचालन के अनुक्रम का उपयोग करना।
  • मध्यवर्ती परिणाम उत्पन्न करने के लिए नाम बदलने के संचालन का उपयोग करना।

उदाहरण के लिए, BCA पाठ्यक्रम की सभी महिला छात्रों के नाम प्रदर्शित करने के लिए -

  • प्रक्षेपण और चयन संचालन के अनुक्रम का उपयोग करके संबंधिक बीजगणित अभिव्यक्ति

$$\pi_{Name}(\sigma_{Gender = \small "Female" AND \: Course = \small "BCA"}{(STUDENT)})$$

  • मध्यवर्ती परिणाम उत्पन्न करने के लिए नाम बदलने के संचालन के साथ संबंधिक बीजगणित अभिव्यक्ति

$$FemaleBCAStudent \leftarrow \sigma_{Gender = \small "Female" AND \: Course = \small "BCA"} {(STUDENT)}$$

$$Result \leftarrow \pi_{Name}{(FemaleBCAStudent)}$$

संघ

यदि P एक ऑपरेशन का परिणाम है और Q एक अन्य ऑपरेशन का परिणाम है, तो P और Q का संघ$p \cup Q$) सभी टुपल्स का एक सेट है जो या तो P या Q में है या दोनों में बिना डुप्लिकेट के है।

उदाहरण के लिए, उन सभी छात्रों को प्रदर्शित करने के लिए जो या तो सेमेस्टर 1 में हैं या बीसीए पाठ्यक्रम में हैं -

$$Sem1Student \leftarrow \sigma_{Semester = 1}{(STUDENT)}$$

$$BCAStudent \leftarrow \sigma_{Course = \small "BCA"}{(STUDENT)}$$

$$Result \leftarrow Sem1Student \cup BCAStudent$$

चौराहा

यदि P एक ऑपरेशन का परिणाम है और Q दूसरे ऑपरेशन का परिणाम है, P और Q का अंतर $p \cap Q$ ) सभी tuples का सेट है जो P और Q दोनों में है।

उदाहरण के लिए, निम्नलिखित दो स्कीमा दिए गए हैं -

EMPLOYEE

EmpID नाम Faridabad विभाग वेतन

PROJECT

पीआईडी Faridabad विभाग स्थिति

उन सभी शहरों के नाम प्रदर्शित करने के लिए जहां एक परियोजना स्थित है और एक कर्मचारी भी रहता है -

$$CityEmp \leftarrow \pi_{City}{(EMPLOYEE)}$$

$$CityProject \leftarrow \pi_{City}{(PROJECT)}$$

$$Result \leftarrow CityEmp \cap CityProject$$

ऋण

यदि P एक ऑपरेशन का परिणाम है और Q एक अन्य ऑपरेशन का परिणाम है, P - Q उन सभी ट्यूपलों का समूह है जो P में हैं और Q में नहीं हैं।

उदाहरण के लिए, उन सभी विभागों को सूचीबद्ध करने के लिए जिनके पास एक चालू परियोजना नहीं है (स्थिति = चल रही परियोजनाएँ) -

$$AllDept \leftarrow \pi_{Department}{(EMPLOYEE)}$$

$$ProjectDept \leftarrow \pi_{Department} (\sigma_{Status = \small "ongoing"}{(PROJECT)})$$

$$Result \leftarrow AllDept - ProjectDept$$

शामिल हों

ऑपरेशन में शामिल हों एक ही तालिका में दो अलग-अलग तालिकाओं (प्रश्नों के परिणाम) के संबंधित tuples को जोड़ती है।

उदाहरण के लिए, बैंक डेटाबेस में दो स्कीमा, ग्राहक और शाखा पर विचार करें -

CUSTOMER

ग्राहकआईडी AccNo TypeOfAc BranchID DateOfOpening

BRANCH

BranchID शाखा का नाम IFSCcode पता

शाखा विवरण के साथ कर्मचारी विवरण को सूचीबद्ध करने के लिए -

$$Result \leftarrow CUSTOMER \bowtie_{Customer.BranchID=Branch.BranchID}{BRANCH}$$

संबंधपरक बीजगणित में SQL क्वेरी का अनुवाद

एसक्यूएल प्रश्नों को अनुकूलन से पहले समतुल्य संबंधपरक बीजगणित अभिव्यक्तियों में अनुवादित किया जाता है। एक क्वेरी पहले छोटे क्वेरी ब्लॉक में विघटित होती है। इन ब्लॉकों को समतुल्य सापेक्ष बीजगणितीय अभिव्यक्तियों के लिए अनुवादित किया जाता है। अनुकूलन में प्रत्येक ब्लॉक का अनुकूलन और फिर समग्र रूप में क्वेरी का अनुकूलन शामिल है।

उदाहरण

आइए हम निम्नलिखित स्कीमाओं पर विचार करें -

कर्मचारी

EmpID नाम Faridabad विभाग वेतन

परियोजना

पीआईडी Faridabad विभाग स्थिति

काम करता है

EmpID पीआईडी घंटे

उदाहरण 1

औसत वेतन से कम वेतन पाने वाले सभी कर्मचारियों का विवरण प्रदर्शित करने के लिए, हम SQL क्वेरी लिखते हैं -

SELECT * FROM EMPLOYEE 
WHERE SALARY < ( SELECT AVERAGE(SALARY) FROM EMPLOYEE ) ;

इस क्वेरी में एक नेस्टेड सब-क्वेरी है। तो, यह दो ब्लॉकों में टूट सकता है।

आंतरिक ब्लॉक है -

SELECT AVERAGE(SALARY)FROM EMPLOYEE ;

यदि इस क्वेरी का परिणाम औसत है, तो बाहरी ब्लॉक है -

SELECT * FROM EMPLOYEE WHERE SALARY < AvgSal;

आंतरिक ब्लॉक के लिए संबंधिक बीजगणित अभिव्यक्ति -

$$AvgSal \leftarrow \Im_{AVERAGE(Salary)}{EMPLOYEE}$$

बाहरी ब्लॉक के लिए संबंधिक बीजगणित अभिव्यक्ति -

$$ \ sigma_ {वेतन <{औसत वेतन}>} {EMPLOYEE} $$

उदाहरण 2

कर्मचारी 'अरुण कुमार' की सभी परियोजनाओं की परियोजना आईडी और स्थिति प्रदर्शित करने के लिए, हम SQL क्वेरी लिखते हैं -

SELECT PID, STATUS FROM PROJECT 
WHERE PID = ( SELECT FROM WORKS  WHERE EMPID = ( SELECT EMPID FROM EMPLOYEE 
            WHERE NAME = 'ARUN KUMAR'));

इस क्वेरी में दो नेस्टेड उप-प्रश्न हैं। इस प्रकार, तीन ब्लॉकों में विभाजित किया जा सकता है, निम्नानुसार है -

SELECT EMPID FROM EMPLOYEE WHERE NAME = 'ARUN KUMAR'; 
SELECT PID FROM WORKS WHERE EMPID = ArunEmpID; 
SELECT PID, STATUS FROM PROJECT WHERE PID = ArunPID;

(यहां अरुणईम्पिड और अरुणपीआईडी ​​आंतरिक प्रश्नों के परिणाम हैं)

तीन ब्लॉकों के लिए संबंधिक बीजगणित के भाव हैं -

$$ArunEmpID \leftarrow \pi_{EmpID}(\sigma_{Name = \small "Arun Kumar"} {(EMPLOYEE)})$$

$$ArunPID \leftarrow \pi_{PID}(\sigma_{EmpID = \small "ArunEmpID"} {(WORKS)})$$

$$Result \leftarrow \pi_{PID, Status}(\sigma_{PID = \small "ArunPID"} {(PROJECT)})$$

रिलेशनल बीजगणित संचालकों की गणना

संबंधपरक बीजगणित ऑपरेटरों की गणना कई अलग-अलग तरीकों से की जा सकती है, और प्रत्येक विकल्प को ए कहा जाता है access path

गणना विकल्प तीन मुख्य कारकों पर निर्भर करता है -

  • संचालक प्रकार
  • उपलब्ध स्मृति
  • डिस्क संरचनाएँ

संबंधपरक बीजगणित संचालन के निष्पादन का समय निम्नलिखित का योग है -

  • टुपल्स को संसाधित करने का समय।
  • स्मृति से तालिका के टुपल्स लाने का समय।

चूंकि टपल को संसाधित करने का समय संग्रहण से टपल लाने के लिए समय की तुलना में बहुत छोटा है, विशेष रूप से एक वितरित प्रणाली में, डिस्क एक्सेस को अक्सर संबंधपरक अभिव्यक्ति की लागत की गणना के लिए मीट्रिक माना जाता है।

चयन की संगणना

चयन ऑपरेशन की गणना चयन स्थिति की जटिलता और तालिका की विशेषताओं पर अनुक्रमित की उपलब्धता पर निर्भर करती है।

अनुक्रमित के आधार पर गणना विकल्प निम्नलिखित हैं -

  • No Index- यदि टेबल अनसोल्ड है और इसमें कोई इंडेक्स नहीं है, तो चयन प्रक्रिया में टेबल के सभी डिस्क ब्लॉक को स्कैन करना शामिल है। प्रत्येक ब्लॉक को मेमोरी में लाया जाता है और ब्लॉक में प्रत्येक ट्यूपल को देखने के लिए जांच की जाती है कि क्या यह चयन स्थिति को संतुष्ट करता है। यदि स्थिति संतुष्ट है, तो इसे आउटपुट के रूप में प्रदर्शित किया जाता है। यह सबसे महंगा तरीका है क्योंकि प्रत्येक टपल को मेमोरी में लाया जाता है और प्रत्येक टपल को संसाधित किया जाता है।

  • B+ Tree Index- अधिकांश डेटाबेस सिस्टम B + ट्री इंडेक्स पर बनाए गए हैं। यदि चयन स्थिति फ़ील्ड पर आधारित है, जो इस B + ट्री इंडेक्स की कुंजी है, तो इस इंडेक्स का उपयोग परिणामों को प्राप्त करने के लिए किया जाता है। हालांकि, जटिल परिस्थितियों के साथ चयन विवरणों में बड़ी संख्या में डिस्क ब्लॉक एक्सेस शामिल हो सकते हैं और कुछ मामलों में तालिका की पूरी स्कैनिंग भी हो सकती है।

  • Hash Index- यदि हैश इंडेक्स का उपयोग किया जाता है और इसका प्रमुख क्षेत्र चयन की स्थिति में उपयोग किया जाता है, तो हैश इंडेक्स का उपयोग करके ट्यूपल्स को पुनः प्राप्त करना एक सरल प्रक्रिया बन जाती है। एक हैश इंडेक्स एक हैश फ़ंक्शन का उपयोग एक बकेट के पते को खोजने के लिए करता है जहां हैश मान के अनुरूप कुंजी मूल्य संग्रहीत होता है। सूचकांक में एक प्रमुख मूल्य खोजने के लिए, हैश फ़ंक्शन निष्पादित किया जाता है और बाल्टी का पता चलता है। बाल्टी में प्रमुख मान खोजे जाते हैं। यदि कोई मिलान पाया जाता है, तो वास्तविक टपल को डिस्क ब्लॉक से मेमोरी में लाया जाता है।

जोड़ों की गणना

जब हम दो तालिकाओं में शामिल होना चाहते हैं, तो P और Q कहते हैं, P में प्रत्येक tuple की तुलना Q से प्रत्येक tuple के साथ करने के लिए की जाती है ताकि परीक्षण किया जा सके कि क्या सम्मिलित स्थिति संतुष्ट है। यदि स्थिति संतुष्ट हो जाती है, तो संबंधित टुपल्स को समाप्‍त कर दिया जाता है, डुप्लिकेट फ़ील्ड को हटा दिया जाता है और परिणाम संबंध में जोड़ा जाता है। नतीजतन, यह सबसे महंगा ऑपरेशन है।

कंप्यूटिंग जॉइन के लिए सामान्य दृष्टिकोण हैं -

नेस्टेड-लूप दृष्टिकोण

यह पारंपरिक जुड़ाव दृष्टिकोण है। यह निम्नलिखित छद्मकोश (टेबल्स पी और क्यू, ट्यूपल्स tuple_p और tuple_q और जुड़ने की विशेषता के साथ) के माध्यम से चित्रित किया जा सकता है a -

For each tuple_p in P 
For each tuple_q in Q
If tuple_p.a = tuple_q.a Then 
   Concatenate tuple_p and tuple_q and append to Result 
End If 
Next tuple_q 
Next tuple-p

क्रमबद्ध-मर्ज दृष्टिकोण

इस दृष्टिकोण में, दो तालिकाओं को व्यक्तिगत रूप से जुड़ने की विशेषता के आधार पर क्रमबद्ध किया जाता है और फिर क्रमबद्ध तालिकाओं को मिला दिया जाता है। रिकॉर्ड की संख्या बहुत अधिक है और बाहरी मेमोरी में समायोजित नहीं किया जा सकता है क्योंकि बाहरी छँटाई तकनीक को अपनाया जाता है। एक बार व्यक्तिगत तालिकाओं को छांटने के बाद, छांटे गए तालिकाओं में से प्रत्येक के एक पृष्ठ को मेमोरी में लाया जाता है, जो कि जुड़ने की विशेषता के आधार पर विलय कर दिया जाता है और सम्मिलित ट्यूपल्स को लिख दिया जाता है।

हैश-अप्रोच

इस दृष्टिकोण में दो चरण होते हैं: विभाजन चरण और जांच चरण। विभाजन के चरण में, तालिकाओं के विभाजन के दो सेटों में पी और क्यू को तोड़ दिया जाता है। एक सामान्य हैश फ़ंक्शन का निर्णय लिया जाता है। इस हैश फ़ंक्शन का उपयोग विभाजन को ट्यूपल्स निर्दिष्ट करने के लिए किया जाता है। प्रोबिंग चरण में, P के एक विभाजन में tuples की तुलना Q के इसी विभाजन के tuples से की जाती है। यदि वे मेल खाते हैं, तो उन्हें लिखा जाता है।

एक बार संबंधपरक बीजगणित अभिव्यक्ति की गणना के लिए वैकल्पिक पहुंच पथ व्युत्पन्न हो जाते हैं, इष्टतम पहुँच पथ निर्धारित होता है। इस अध्याय में, हम केंद्रीकृत प्रणाली में क्वेरी ऑप्टिमाइज़ेशन पर ध्यान देंगे, जबकि अगले अध्याय में हम वितरित सिस्टम में क्वेरी ऑप्टिमाइज़ेशन का अध्ययन करेंगे।

एक केंद्रीकृत प्रणाली में, क्वेरी प्रसंस्करण निम्नलिखित उद्देश्य से किया जाता है -

  • क्वेरी की प्रतिक्रिया समय का न्यूनतमकरण (उपयोगकर्ता की क्वेरी के परिणाम उत्पन्न करने के लिए लिया गया समय)।

  • सिस्टम थ्रूपुट (अनुरोधों की संख्या जो किसी निश्चित समय में संसाधित होती है) को अधिकतम करें।

  • प्रसंस्करण के लिए आवश्यक मेमोरी और मेमोरी की मात्रा कम करें।

  • समानता बढ़ाएं।

क्वेरी पार्सिंग और अनुवाद

प्रारंभ में, SQL क्वेरी स्कैन की जाती है। फिर यह सिंटैक्टिकल त्रुटियों और डेटा प्रकारों की शुद्धता के लिए देखने के लिए तैयार है। यदि क्वेरी इस चरण से गुजरती है, तो क्वेरी को छोटे क्वेरी ब्लॉकों में विघटित कर दिया जाता है। प्रत्येक ब्लॉक को तब समतुल्य संबंधपरक बीजगणित अभिव्यक्ति के लिए अनुवादित किया जाता है।

क्वेरी ऑप्टिमाइज़ेशन के चरण

क्वेरी ऑप्टिमाइज़ेशन में तीन चरण होते हैं, अर्थात् क्वेरी ट्री जेनरेशन, प्लान जेनरेशन और क्वेरी प्लान कोड जेनरेशन।

Step 1 − Query Tree Generation

एक क्वेरी ट्री एक पेड़ डेटा संरचना है जो एक संबंधपरक बीजगणित अभिव्यक्ति का प्रतिनिधित्व करता है। क्वेरी के टेबल को लीफ नोड्स के रूप में दर्शाया गया है। रिलेशनल बीजगणित संचालन को आंतरिक नोड्स के रूप में दर्शाया गया है। रूट क्वेरी को संपूर्ण रूप में प्रस्तुत करता है।

निष्पादन के दौरान, एक आंतरिक नोड निष्पादित किया जाता है जब भी इसकी ऑपरेंड टेबल उपलब्ध होती हैं। फिर नोड को परिणाम तालिका द्वारा बदल दिया जाता है। रूट नोड निष्पादित होने और परिणाम तालिका द्वारा प्रतिस्थापित किए जाने तक यह प्रक्रिया सभी आंतरिक नोड्स के लिए जारी रहती है।

उदाहरण के लिए, हम निम्नलिखित स्कीमाओं पर विचार करते हैं -

कर्मचारी

EmpID Ename वेतन DeptNo शामिल होने की तिथि

विभाग

प्सकोव DName स्थान

उदाहरण 1

आइए हम क्वेरी को निम्नलिखित मानते हैं।

$$\pi_{EmpID} (\sigma_{EName = \small "ArunKumar"} {(EMPLOYEE)})$$

संबंधित क्वेरी ट्री होगा -

उदाहरण 2

आइए एक अन्य प्रश्न में शामिल होने पर विचार करें।

$\pi_{EName, Salary} (\sigma_{DName = \small "Marketing"} {(DEPARTMENT)}) \bowtie_{DNo=DeptNo}{(EMPLOYEE)}$

उपरोक्त क्वेरी के लिए क्वेरी ट्री निम्नलिखित है।

Step 2 − Query Plan Generation

क्वेरी ट्री जेनरेट होने के बाद, एक क्वेरी प्लान बनाया जाता है। एक क्वेरी प्लान एक विस्तारित क्वेरी ट्री है जिसमें क्वेरी ट्री में सभी ऑपरेशन के लिए एक्सेस पथ शामिल हैं। पहुंच पथ निर्दिष्ट करते हैं कि पेड़ में रिलेशनल ऑपरेशन कैसे किए जाने चाहिए। उदाहरण के लिए, एक चयन ऑपरेशन में एक एक्सेस पथ हो सकता है जो चयन के लिए B + ट्री इंडेक्स के उपयोग के बारे में विवरण देता है।

इसके अलावा, एक क्वेरी योजना यह भी बताती है कि मध्यवर्ती तालिकाओं को एक ऑपरेटर से दूसरे में कैसे पारित किया जाना चाहिए, कैसे अस्थायी तालिकाओं का उपयोग किया जाना चाहिए और कैसे संचालन को पाइपलाइन / संयुक्त किया जाना चाहिए।

Step 3− Code Generation

कोड जेनरेशन क्वेरी ऑप्टिमाइज़ेशन का अंतिम चरण है। यह क्वेरी का निष्पादन योग्य रूप है, जिसका रूप अंतर्निहित ऑपरेटिंग सिस्टम के प्रकार पर निर्भर करता है। क्वेरी कोड उत्पन्न होने के बाद, निष्पादन प्रबंधक इसे चलाता है और परिणाम तैयार करता है।

क्वेरी ऑप्टिमाइज़ेशन के लिए दृष्टिकोण

क्वेरी ऑप्टिमाइज़ेशन, एक्सक्लूसिव सर्च और हेयूरिस्टिक्स-आधारित एल्गोरिदम के दृष्टिकोणों में से ज्यादातर का उपयोग किया जाता है।

व्यापक खोज अनुकूलन

इन तकनीकों में, क्वेरी के लिए, सभी संभावित क्वेरी प्लान शुरू में उत्पन्न होते हैं और फिर सबसे अच्छी योजना का चयन किया जाता है। हालांकि ये तकनीकें सबसे अच्छा समाधान प्रदान करती हैं, लेकिन इसका एक बड़ा समय और अंतरिक्ष जटिलता है जो बड़े समाधान स्थान के कारण है। उदाहरण के लिए, गतिशील प्रोग्रामिंग तकनीक।

अनुमान आधारित अनुकूलन

हेयुरिस्टिक आधारित ऑप्टिमाइज़ेशन क्वेरी ऑप्टिमाइज़ेशन के लिए नियम-आधारित ऑप्टिमाइज़ेशन दृष्टिकोण का उपयोग करता है। इन एल्गोरिदम में बहुपद समय और अंतरिक्ष जटिलता है, जो संपूर्ण खोज-आधारित एल्गोरिदम की घातीय जटिलता से कम है। हालाँकि, ये एल्गोरिदम आवश्यक रूप से सर्वश्रेष्ठ क्वेरी प्लान नहीं बनाते हैं।

कुछ सामान्य नियम नियम हैं -

  • ऑपरेशन में शामिल होने से पहले चुनिंदा और प्रोजेक्ट ऑपरेशन करें। यह क्वेरी ट्री के चुनिंदा और प्रोजेक्ट ऑपरेशन को स्थानांतरित करके किया जाता है। इससे जुड़ने के लिए उपलब्ध ट्यूपल्स की संख्या कम हो जाती है।

  • अन्य संचालन से पहले सबसे अधिक प्रतिबंधात्मक चयन / परियोजना संचालन करें।

  • क्रॉस-उत्पाद ऑपरेशन से बचें क्योंकि वे बहुत बड़े आकार के मध्यवर्ती तालिकाओं में परिणत होते हैं।

यह अध्याय वितरित डेटाबेस सिस्टम में क्वेरी ऑप्टिमाइज़ेशन पर चर्चा करता है।

वितरित क्वेरी प्रसंस्करण वास्तुकला

वितरित डेटाबेस प्रणाली में, क्वेरी को संसाधित करने में वैश्विक और स्थानीय दोनों स्तरों पर अनुकूलन शामिल होता है। क्वेरी क्लाइंट या कंट्रोलिंग साइट पर डेटाबेस सिस्टम में प्रवेश करती है। यहां, उपयोगकर्ता को मान्य किया गया है, क्वेरी को वैश्विक स्तर पर जांचा, अनुवादित और अनुकूलित किया गया है।

वास्तुकला को इस रूप में दर्शाया जा सकता है -

ग्लोबल क्वेरीज़ को स्थानीय क्वेरी में मैप करना

स्थानीय लोगों को वैश्विक प्रश्नों के मानचित्रण की प्रक्रिया निम्नानुसार महसूस की जा सकती है -

  • वैश्विक क्वेरी में आवश्यक तालिकाओं में कई साइटों पर वितरित किए गए टुकड़े होते हैं। स्थानीय डेटाबेस में केवल स्थानीय डेटा के बारे में जानकारी होती है। नियंत्रण साइट वितरण के बारे में जानकारी इकट्ठा करने और टुकड़ों से वैश्विक दृश्य को फिर से संगठित करने के लिए वैश्विक डेटा शब्दकोश का उपयोग करती है।

  • यदि कोई प्रतिकृति नहीं है, तो वैश्विक ऑप्टिमाइज़र उन साइटों पर स्थानीय क्वेरी चलाता है जहां टुकड़े संग्रहीत हैं। यदि प्रतिकृति है, तो वैश्विक अनुकूलक संचार लागत, कार्यभार और सर्वर गति के आधार पर साइट का चयन करता है।

  • वैश्विक ऑप्टिमाइज़र एक वितरित निष्पादन योजना बनाता है ताकि साइटों में कम से कम डेटा स्थानांतरण हो सके। योजना में अंशों का स्थान बताया गया है, जिसके क्रम में क्वेरी चरणों को निष्पादित करने की आवश्यकता है और प्रक्रियाएं मध्यवर्ती परिणामों को स्थानांतरित करने में शामिल हैं।

  • स्थानीय डेटाबेस सर्वर द्वारा स्थानीय प्रश्नों को अनुकूलित किया जाता है। अंत में, स्थानीय क्वेरी परिणामों को क्षैतिज अंशों के मामले में यूनियन ऑपरेशन के माध्यम से एक साथ विलय कर दिया जाता है और ऊर्ध्वाधर टुकड़ों के लिए ऑपरेशन में शामिल हो जाता है।

उदाहरण के लिए, विचार करें कि निम्नलिखित प्रोजेक्ट स्कीमा शहर, नई दिल्ली, कोलकाता और हैदराबाद होने वाले शहरों के अनुसार क्षैतिज रूप से खंडित है।

परियोजना

पीआईडी Faridabad विभाग स्थिति

मान लीजिए कि उन सभी परियोजनाओं का विवरण प्राप्त करने के लिए एक क्वेरी है जिनकी स्थिति "चालू" है।

वैश्विक क्वेरी & inus होगी;

$$\sigma_{status} = {\small "ongoing"}^{(PROJECT)}$$

नई दिल्ली के सर्वर में क्वेरी होगी -

$$\sigma_{status} = {\small "ongoing"}^{({NewD}_-{PROJECT})}$$

कोलकाता के सर्वर में क्वेरी होगी -

$$\sigma_{status} = {\small "ongoing"}^{({Kol}_-{PROJECT})}$$

हैदराबाद के सर्वर में क्वेरी होगी -

$$\sigma_{status} = {\small "ongoing"}^{({Hyd}_-{PROJECT})}$$

समग्र परिणाम प्राप्त करने के लिए, हमें तीन प्रश्नों के परिणामों को निम्नानुसार संघबद्ध करना होगा -

$\sigma_{status} = {\small "ongoing"}^{({NewD}_-{PROJECT})} \cup \sigma_{status} = {\small "ongoing"}^{({kol}_-{PROJECT})} \cup \sigma_{status} = {\small "ongoing"}^{({Hyd}_-{PROJECT})}$

वितरित क्वेरी ऑप्टिमाइज़ेशन

वितरित क्वेरी ऑप्टिमाइज़ेशन के लिए बड़ी संख्या में क्वेरी ट्री के मूल्यांकन की आवश्यकता होती है, जिनमें से प्रत्येक क्वेरी के आवश्यक परिणाम उत्पन्न करता है। यह मुख्य रूप से बड़ी मात्रा में प्रतिकृति और खंडित डेटा की उपस्थिति के कारण है। इसलिए, लक्ष्य सबसे अच्छा समाधान के बजाय एक इष्टतम समाधान खोजने का है।

वितरित क्वेरी अनुकूलन के लिए मुख्य मुद्दे हैं -

  • वितरित प्रणाली में संसाधनों का इष्टतम उपयोग।
  • क्वेरी ट्रेडिंग।
  • क्वेरी के समाधान स्थान को कम करना।

वितरित प्रणाली में संसाधनों का इष्टतम उपयोग

वितरित सिस्टम में क्वेरी से संबंधित ऑपरेशन करने के लिए विभिन्न साइटों में कई डेटाबेस सर्वर होते हैं। इष्टतम संसाधन उपयोग के लिए दृष्टिकोण निम्नलिखित हैं -

Operation Shipping- ऑपरेशन शिपिंग में, ऑपरेशन उस साइट पर चलाया जाता है जहां डेटा संग्रहीत है और क्लाइंट साइट पर नहीं। फिर परिणाम क्लाइंट साइट पर स्थानांतरित कर दिए जाते हैं। यह उन ऑपरेशनों के लिए उपयुक्त है जहां ऑपरेटर उसी साइट पर उपलब्ध हैं। उदाहरण: चयन और परियोजना संचालन।

Data Shipping- डेटा शिपिंग में, डेटा टुकड़े डेटाबेस सर्वर में स्थानांतरित किए जाते हैं, जहां संचालन निष्पादित होते हैं। यह उन ऑपरेशनों में उपयोग किया जाता है जहां ऑपरेंड्स को विभिन्न साइटों पर वितरित किया जाता है। यह उन प्रणालियों में भी उचित है जहां संचार लागत कम है, और स्थानीय प्रोसेसर क्लाइंट सर्वर की तुलना में बहुत धीमा हैं।

Hybrid Shipping- यह डेटा और ऑपरेशन शिपिंग का एक संयोजन है। यहां, डेटा टुकड़े उच्च गति वाले प्रोसेसर में स्थानांतरित किए जाते हैं, जहां ऑपरेशन चलता है। फिर परिणाम ग्राहक साइट पर भेजे जाते हैं।

क्वेरी ट्रेडिंग

वितरित डेटाबेस सिस्टम के लिए क्वेरी ट्रेडिंग एल्गोरिथ्म में, वितरित क्वेरी के लिए नियंत्रण / ग्राहक साइट को खरीदार और उन साइटों को कहा जाता है जहां स्थानीय क्वेरी निष्पादित होती हैं, उन्हें विक्रेता कहा जाता है। खरीदार विक्रेताओं को चुनने और वैश्विक परिणामों के पुनर्निर्माण के लिए कई विकल्प तैयार करता है। खरीदार का लक्ष्य इष्टतम लागत को प्राप्त करना है।

एल्गोरिथ्म खरीदार के साथ शुरू होता है जो विक्रेता साइटों को उप-प्रश्न बताता है। अंतिम योजना के पुनर्निर्माण के लिए संचार लागत के साथ संयुक्त विक्रेताओं द्वारा प्रस्तावित स्थानीय अनुकूलित क्वेरी योजनाओं से इष्टतम योजना बनाई गई है। वैश्विक इष्टतम योजना तैयार होने के बाद, क्वेरी निष्पादित की जाती है।

क्वेरी के समाधान स्थान की कमी

इष्टतम समाधान में आम तौर पर समाधान स्थान की कमी शामिल होती है ताकि क्वेरी और डेटा हस्तांतरण की लागत कम हो। यह केंद्रीय नियमों में उत्तराधिकार के रूप में, न्यायिक नियमों के एक सेट के माध्यम से प्राप्त किया जा सकता है।

निम्नलिखित कुछ नियम हैं -

  • जितना जल्दी हो सके चयन और प्रक्षेपण संचालन करें। यह संचार नेटवर्क पर डेटा प्रवाह को कम करता है।

  • चयन की शर्तों को समाप्त करके क्षैतिज टुकड़ों पर संचालन को सरल बनाएं जो किसी विशेष साइट के लिए प्रासंगिक नहीं हैं।

  • कई साइटों में स्थित अंशों के शामिल होने और संघ संचालन के मामले में, खंडित डेटा को उस स्थान पर स्थानांतरित करना जहां अधिकांश डेटा मौजूद है और वहां ऑपरेशन करते हैं।

  • जुड़ने वाले ट्यूपल्स को अर्हता प्राप्त करने के लिए अर्ध-ज्वाइन ऑपरेशन का उपयोग करें। यह डेटा ट्रांसफर की मात्रा को कम करता है जो बदले में संचार लागत को कम करता है।

  • एक वितरित क्वेरी ट्री में आम पत्तियों और उप-पेड़ों को मिलाएं।

यह अध्याय लेनदेन प्रसंस्करण के विभिन्न पहलुओं पर चर्चा करता है। हम एक लेनदेन में शामिल निम्न स्तर के कार्यों, लेनदेन की स्थिति और लेनदेन के गुणों का भी अध्ययन करेंगे। पिछले भाग में, हम शेड्यूल और शेड्यूल की क्रमबद्धता पर ध्यान देंगे।

लेनदेन

लेन-देन एक प्रोग्राम है जिसमें डेटाबेस ऑपरेशंस का एक संग्रह है, जिसे डेटा प्रोसेसिंग की तार्किक इकाई के रूप में निष्पादित किया जाता है। लेन-देन में किए गए कार्यों में एक या अधिक डेटाबेस ऑपरेशन सम्मिलित होते हैं, जैसे डेटा हटाना, अपडेट करना या पुनर्प्राप्त करना। यह एक परमाणु प्रक्रिया है जिसे या तो पूरी तरह से पूरा करने के लिए किया जाता है या बिल्कुल भी नहीं किया जाता है। किसी भी डेटा अपडेट के बिना केवल डेटा पुनर्प्राप्ति से जुड़े लेनदेन को रीड-ओनली ट्रांजेक्शन कहा जाता है।

प्रत्येक उच्च स्तर के ऑपरेशन को कई निम्न स्तर के कार्यों या संचालन में विभाजित किया जा सकता है। उदाहरण के लिए, एक डेटा अपडेट ऑपरेशन को तीन कार्यों में विभाजित किया जा सकता है -

  • read_item() - भंडारण से मुख्य मेमोरी में डेटा आइटम को पढ़ता है।

  • modify_item() - मुख्य मेमोरी में आइटम का परिवर्तन मूल्य।

  • write_item() - मुख्य मेमोरी से स्टोरेज में संशोधित मूल्य लिखें।

डेटाबेस पहुंच read_item () और write_item () संचालन तक सीमित है। इसी तरह, सभी लेन-देन के लिए, पढ़ना और लिखना बुनियादी डेटाबेस ऑपरेशन बनाता है।

लेन-देन संचालन

लेन-देन में किए गए निम्न स्तर के ऑपरेशन हैं -

  • begin_transaction - एक मार्कर जो लेनदेन निष्पादन की शुरुआत को निर्दिष्ट करता है।

  • read_item or write_item - डेटाबेस संचालन जो लेन-देन के एक हिस्से के रूप में मुख्य मेमोरी ऑपरेशन के साथ इंटरलेय किया जा सकता है।

  • end_transaction - एक मार्कर जो लेनदेन के अंत को निर्दिष्ट करता है।

  • commit - यह निर्दिष्ट करने के लिए एक संकेत है कि लेन-देन सफलतापूर्वक पूरी तरह से पूरा हो गया है और इसे पूर्ववत नहीं किया जाएगा।

  • rollback- यह निर्दिष्ट करने के लिए एक संकेत है कि लेनदेन असफल रहा है और इसलिए डेटाबेस में सभी अस्थायी परिवर्तन पूर्ववत हैं। एक प्रतिबद्ध लेन-देन वापस नहीं किया जा सकता है।

लेन-देन करने वाले राज्य

एक लेन-देन पांच राज्यों के एक सबसेट के माध्यम से जा सकता है, सक्रिय, आंशिक रूप से प्रतिबद्ध, प्रतिबद्ध, असफल और निरस्त।

  • Active- प्रारंभिक अवस्था जहां लेनदेन में प्रवेश होता है वह सक्रिय स्थिति है। लेन-देन इस स्थिति में रहता है, जबकि यह पढ़ने, लिखने या अन्य कार्यों को निष्पादित कर रहा है।

  • Partially Committed - लेन-देन के अंतिम विवरण को निष्पादित किए जाने के बाद लेनदेन इस स्थिति में प्रवेश करता है।

  • Committed - लेन-देन के सफल समापन के बाद लेन-देन इस राज्य में प्रवेश करता है और सिस्टम चेक ने प्रतिबद्ध सिग्नल जारी किया है।

  • Failed - लेनदेन आंशिक रूप से प्रतिबद्ध राज्य या सक्रिय राज्य से विफल राज्य में जाता है जब यह पता चलता है कि सामान्य निष्पादन अब आगे नहीं बढ़ सकता है या सिस्टम चेक विफल हो सकता है।

  • Aborted - यह वह स्थिति है जब विफलता के बाद लेनदेन वापस ले लिया गया था और लेनदेन शुरू होने से पहले डेटाबेस को अपने राज्य में बहाल कर दिया गया था।

निम्न राज्य संक्रमण आरेख लेनदेन में राज्यों और निम्न स्तर के लेन-देन संचालन को दर्शाता है जो राज्यों में परिवर्तन का कारण बनता है।

लेन-देन के वांछनीय गुण

किसी भी लेनदेन को एसीआईडी ​​संपत्तियों को बनाए रखना चाहिए, अर्थात। परमाणु, संगति, अलगाव और स्थायित्व।

  • Atomicity- यह संपत्ति बताती है कि एक लेनदेन प्रसंस्करण की एक परमाणु इकाई है, अर्थात, यह या तो इसकी संपूर्णता में किया जाता है या बिल्कुल भी प्रदर्शन नहीं किया जाता है। कोई आंशिक अद्यतन मौजूद नहीं होना चाहिए।

  • Consistency- लेन-देन को डेटाबेस को एक सुसंगत स्थिति से दूसरे सुसंगत स्थिति में ले जाना चाहिए। यह डेटाबेस में किसी भी डेटा आइटम को प्रतिकूल रूप से प्रभावित नहीं करना चाहिए।

  • Isolation- एक लेन-देन निष्पादित किया जाना चाहिए जैसे कि यह सिस्टम में एकमात्र है। एक साथ चल रहे अन्य समवर्ती लेनदेन से कोई हस्तक्षेप नहीं होना चाहिए।

  • Durability - यदि एक प्रतिबद्ध लेनदेन एक बदलाव लाता है, तो यह परिवर्तन डेटाबेस में टिकाऊ होना चाहिए और किसी भी विफलता के मामले में नहीं खोना चाहिए।

अनुसूचियां और संघर्ष

एक साथ कई लेन-देन वाली प्रणाली में, ए scheduleसंचालन के निष्पादन का कुल क्रम है। एक अनुसूची S को देखते हुए, जिसमें N लेनदेन शामिल है, T1, T2, T3 ……… ..Tn; किसी भी लेनदेन तिवारी के लिए, तिवारी में परिचालन को अनुसूची एस में निर्धारित किया जाना चाहिए।

अनुसूचियों के प्रकार

कार्यक्रम दो प्रकार के होते हैं -

  • Serial Schedules- एक सीरियल शेड्यूल में, किसी भी समय, केवल एक लेनदेन सक्रिय होता है, अर्थात लेनदेन का कोई अतिव्यापी नहीं होता है। इसे निम्नलिखित ग्राफ में दर्शाया गया है -

  • Parallel Schedules- समानांतर अनुसूची में, एक से अधिक लेनदेन एक साथ सक्रिय होते हैं, अर्थात लेनदेन में ऐसे ऑपरेशन होते हैं जो समय के साथ ओवरलैप होते हैं। इसे निम्नलिखित ग्राफ में दर्शाया गया है -

अनुसूचियों में संघर्ष

एक अनुसूची में कई लेनदेन शामिल हैं, ए conflictतब होता है जब दो सक्रिय लेनदेन गैर-संगत संचालन करते हैं। दो ऑपरेशनों को संघर्ष में कहा जाता है, जब निम्नलिखित तीन स्थितियों में से सभी एक साथ मौजूद होते हैं -

  • दो ऑपरेशन अलग-अलग लेनदेन के हिस्से हैं।

  • दोनों ऑपरेशन एक ही डेटा आइटम तक पहुंचते हैं।

  • कम से कम एक ऑपरेशन राइट_इटेम () ऑपरेशन है, अर्थात यह डेटा आइटम को संशोधित करने का प्रयास करता है।

serializability

serializable schedule'एन' लेनदेन एक समानांतर अनुसूची है, जो समान 'एन' लेनदेन से युक्त धारावाहिक अनुसूची के बराबर है। एक अनुक्रमिक अनुसूची में समानांतर अनुसूची के बेहतर सीपीयू उपयोग का पता लगाने के दौरान धारावाहिक अनुसूची की शुद्धता शामिल है।

अनुसूचियों की समानता

दो अनुसूचियों की समानता निम्न प्रकार की हो सकती है -

  • Result equivalence - समान परिणाम देने वाले दो शेड्यूल को परिणाम के बराबर कहा जाता है।

  • View equivalence - समान तरीके से समान क्रिया करने वाले दो शेड्यूल को समतुल्य देखने के लिए कहा जाता है।

  • Conflict equivalence - दो अनुसूचियों को परस्पर विरोधाभास कहा जाता है यदि दोनों में समान लेन-देन होता है और परस्पर विरोधी जोड़े के संचालन का क्रम समान होता है।

कंसीडर कंट्रोलिंग तकनीक यह सुनिश्चित करती है कि शेड्यूल में लेनदेन और सीरीज़ेबिलिटी के ACID गुणों को बनाए रखते हुए कई लेनदेन एक साथ निष्पादित किए जाते हैं।

इस अध्याय में, हम समवर्ती नियंत्रण के लिए विभिन्न दृष्टिकोणों का अध्ययन करेंगे।

आधारित संगणना नियंत्रण प्रोटोकॉल लॉक करना

लॉकिंग-आधारित संगामिति नियंत्रण प्रोटोकॉल, डेटा आइटम लॉक करने की अवधारणा का उपयोग करते हैं। एlockएक डेटा आइटम से जुड़ा एक वैरिएबल है जो यह निर्धारित करता है कि उस डेटा आइटम पर रीड / राइट ऑपरेशन किया जा सकता है या नहीं। आम तौर पर, एक लॉक कम्पेटिबिलिटी मैट्रिक्स का उपयोग किया जाता है जो बताता है कि क्या डेटा आइटम को एक ही समय में दो लेनदेन द्वारा लॉक किया जा सकता है।

लॉकिंग-आधारित संगामिति नियंत्रण प्रणाली एक-चरण या दो-चरण लॉकिंग प्रोटोकॉल का उपयोग कर सकती है।

एक-चरण लॉकिंग प्रोटोकॉल

इस पद्धति में, प्रत्येक लेनदेन उपयोग से पहले एक आइटम को लॉक कर देता है और जैसे ही इसका उपयोग करना समाप्त हो जाता है, लॉक जारी करता है। यह लॉकिंग विधि अधिकतम संगामिति के लिए प्रदान करती है लेकिन हमेशा क्रमबद्धता को लागू नहीं करती है।

दो-चरण लॉकिंग प्रोटोकॉल

इस पद्धति में, सभी लॉकिंग ऑपरेशन पहले लॉक-रिलीज़ या अनलॉक ऑपरेशन से पहले होते हैं। लेन-देन में दो चरण शामिल हैं। पहले चरण में, एक लेन-देन केवल उन सभी तालों को प्राप्त करता है जिन्हें इसकी आवश्यकता होती है और कोई भी ताला जारी नहीं करता है। इसे विस्तार या कहा जाता हैgrowing phase। दूसरे चरण में, लेनदेन ताले जारी करता है और किसी भी नए ताले का अनुरोध नहीं कर सकता है। इसे कहते हैंshrinking phase

प्रत्येक लेनदेन जो दो-चरण लॉकिंग प्रोटोकॉल का पालन करता है, को क्रमिक होने की गारंटी दी जाती है। हालांकि, यह दृष्टिकोण दो परस्पर विरोधी लेनदेन के बीच कम समानता प्रदान करता है।

टाइमस्टैम्प कॉन्सैरेसी कंट्रोल एल्गोरिदम

टाइमस्टैम्प-आधारित संगामिति नियंत्रण एल्गोरिदम एक लेनदेन के टाइमस्टैम्प का उपयोग क्रमबद्धता सुनिश्चित करने के लिए डेटा आइटम के समवर्ती पहुंच को समन्वयित करने के लिए करते हैं। एक टाइमस्टैम्प एक विशिष्ट पहचानकर्ता है जो डीबीएमएस द्वारा एक लेनदेन को दिया जाता है जो लेनदेन के प्रारंभ समय का प्रतिनिधित्व करता है।

ये एल्गोरिदम यह सुनिश्चित करते हैं कि लेनदेन उनके टाइमस्टैम्प द्वारा तय किए गए आदेश में हो। एक पुराने लेन-देन को एक छोटे लेनदेन से पहले करना चाहिए, क्योंकि पुराने लेनदेन से पहले एक छोटी प्रणाली में प्रवेश किया जाता है।

टाइमस्टैम्प-आधारित संगामिति नियंत्रण तकनीक क्रमिक शेड्यूल उत्पन्न करती है जैसे कि भाग लेने वाले लेनदेन की आयु के क्रम में समतुल्य सीरियल शेड्यूल की व्यवस्था की जाती है।

टाइमस्टैम्प आधारित समवर्ती नियंत्रण एल्गोरिदम में से कुछ हैं -

  • बेसिक टाइमस्टैम्प ऑर्डरिंग एल्गोरिदम।
  • कंजर्वेटिव टाइमस्टैम्प ऑर्डरिंग एल्गोरिदम।
  • टाइमस्टैम्प ऑर्डर करने के आधार पर मल्टीवर्जन एल्गोरिथ्म।

टाइमस्टैम्प आधारित आदेश क्रमबद्धता को लागू करने के लिए तीन नियमों का पालन करते हैं -

  • Access Rule- जब दो लेनदेन एक ही डेटा आइटम को एक साथ एक्सेस करने की कोशिश करते हैं, तो परस्पर विरोधी संचालन के लिए, पुराने लेनदेन को प्राथमिकता दी जाती है। यह पुराने लेनदेन के लिए पहले लेनदेन करने के लिए प्रतीक्षा करने का कारण बनता है।

  • Late Transaction Rule- यदि किसी छोटे लेनदेन ने डेटा आइटम लिखा है, तो पुराने लेनदेन को उस डेटा आइटम को पढ़ने या लिखने की अनुमति नहीं है। यह नियम पुराने लेनदेन को पहले से ही प्रतिबद्ध होने के बाद पुराने लेनदेन को करने से रोकता है।

  • Younger Transaction Rule - एक युवा लेनदेन एक डेटा आइटम को पढ़ या लिख ​​सकता है जो पहले से ही पुराने लेनदेन द्वारा लिखा गया है।

आशावादी Concurrency नियंत्रण एल्गोरिथम

कम संघर्ष दर वाली प्रणालियों में, क्रमबद्धता के लिए प्रत्येक लेनदेन को मान्य करने का कार्य कम प्रदर्शन कर सकता है। इन मामलों में, क्रमबद्धता के लिए परीक्षण को प्रतिबद्ध होने से ठीक पहले स्थगित कर दिया जाता है। चूंकि संघर्ष दर कम है, इसलिए लेनदेन को निरस्त करने की संभावना जो कि अनुक्रमिक नहीं हैं, भी कम है। इस दृष्टिकोण को आशावादी संगोष्ठी नियंत्रण तकनीक कहा जाता है।

इस दृष्टिकोण में, एक लेन-देन का जीवन चक्र निम्नलिखित तीन चरणों में विभाजित है -

  • Execution Phase - एक लेन-देन डेटा आइटम को मेमोरी में लाता है और उन पर संचालन करता है।

  • Validation Phase - एक लेनदेन यह सुनिश्चित करने के लिए चेक करता है कि डेटाबेस में इसके परिवर्तन करने से क्रमबद्धता परीक्षा पास हो जाती है।

  • Commit Phase - एक लेनदेन डिस्क में मेमोरी में संशोधित डेटा आइटम वापस लिखता है।

यह एल्गोरिथ्म सत्यापन चरण में क्रमबद्धता को लागू करने के लिए तीन नियमों का उपयोग करता है -

Rule 1- दो लेनदेन T i और T j को देखते हुए , यदि T i उस डेटा आइटम को पढ़ रहा है जिसे T j लिख रहा है, तो T i का निष्पादन चरण T j के प्रतिबद्ध चरण के साथ ओवरलैप नहीं हो सकता है । टी जे प्रतिबद्ध कर सकते हैं के बाद ही टी मैं समाप्त निष्पादन है।

Rule 2- दो लेनदेन T i और T j को देखते हुए , यदि T i वह डेटा आइटम लिख रहा है जो T j पढ़ रहा है, तो T i का प्रतिबद्ध चरण T j के निष्पादन चरण के साथ ओवरलैप नहीं हो सकता है । टी जे मैं पहले से ही प्रतिबद्ध होने के बाद ही निष्पादित करना शुरू कर सकता है ।

Rule 3- दो लेन-देन टी को देखते हुए मैं और टी जे , अगर टी मैं डेटा आइटम जो टी लिख रहा है j भी लिख रहा है, तो टी मैं के टी के साथ प्रतिबद्ध चरण कर सकते हैं ओवरलैप नहीं जे एस चरण के लिए प्रतिबद्ध '। टी जे मैं पहले से ही प्रतिबद्ध होने के बाद ही शुरू कर सकता है ।

वितरित सिस्टम में कंसीडर कंट्रोल

इस खंड में, हम देखेंगे कि कैसे वितरित तकनीकों को एक वितरित डेटाबेस सिस्टम में लागू किया जाता है।

वितरित दो-चरण लॉकिंग एल्गोरिथम

वितरित दो-चरण लॉकिंग का मूल सिद्धांत बुनियादी दो-चरण लॉकिंग प्रोटोकॉल के समान है। हालांकि, एक वितरित प्रणाली में लॉक मैनेजर के रूप में नामित साइटें हैं। एक लॉक मैनेजर लेन-देन मॉनिटर से लॉक अधिग्रहण अनुरोधों को नियंत्रित करता है। विभिन्न साइटों में ताला प्रबंधकों के बीच समन्वय को लागू करने के लिए, कम से कम एक साइट को सभी लेनदेन देखने और लॉक संघर्षों का पता लगाने का अधिकार दिया जाता है।

उन साइटों की संख्या के आधार पर, जो लॉक संघर्षों का पता लगा सकते हैं, वितरित दो-चरण लॉकिंग दृष्टिकोण तीन प्रकार के हो सकते हैं -

  • Centralized two-phase locking- इस दृष्टिकोण में, एक साइट को सेंट्रल लॉक मैनेजर के रूप में नामित किया गया है। पर्यावरण में सभी साइटें केंद्रीय लॉक मैनेजर का स्थान जानती हैं और लेनदेन के दौरान इससे लॉक प्राप्त करती हैं।

  • Primary copy two-phase locking- इस दृष्टिकोण में, कई साइटों को लॉक कंट्रोल सेंटर के रूप में नामित किया गया है। इनमें से प्रत्येक साइट पर ताले के एक निर्धारित सेट के प्रबंधन की जिम्मेदारी है। सभी साइटें जानती हैं कि कौन सा डेटा टेबल / टुकड़ा आइटम के लॉक को प्रबंधित करने के लिए लॉक कंट्रोल सेंटर जिम्मेदार है।

  • Distributed two-phase locking- इस दृष्टिकोण में, कई लॉक मैनेजर हैं, जहां प्रत्येक लॉक मैनेजर अपने स्थानीय साइट पर संग्रहीत डेटा आइटम के लॉक को नियंत्रित करता है। लॉक मैनेजर का स्थान डेटा वितरण और प्रतिकृति पर आधारित है।

वितरित किए गए टाइमस्टैम्प कॉन्सैरेसी कंट्रोल

एक केंद्रीकृत प्रणाली में, किसी भी लेनदेन का टाइमस्टैम्प भौतिक घड़ी रीडिंग द्वारा निर्धारित किया जाता है। लेकिन, वितरित प्रणाली में, किसी भी साइट की स्थानीय भौतिक / तार्किक घड़ी रीडिंग को वैश्विक टाइमस्टैम्प के रूप में उपयोग नहीं किया जा सकता है, क्योंकि वे वैश्विक रूप से अद्वितीय नहीं हैं। तो, टाइमस्टैम्प में साइट आईडी और उस साइट की घड़ी पढ़ने का संयोजन शामिल है।

टाइमस्टैम्प ऑर्डरिंग एल्गोरिदम को लागू करने के लिए, प्रत्येक साइट में एक अनुसूचक होता है जो प्रत्येक लेनदेन प्रबंधक के लिए एक अलग कतार रखता है। लेन-देन के दौरान, एक लेनदेन प्रबंधक साइट के अनुसूचक को एक लॉक अनुरोध भेजता है। अनुसूचक टाइमस्टैम्प क्रम को बढ़ाने के लिए अनुरोध को संबंधित कतार में रखता है। अनुरोधों को उनके टाइमस्टैम्प के क्रम में कतारों के सामने से संसाधित किया जाता है, अर्थात सबसे पुराना।

संघर्ष रेखांकन

एक अन्य तरीका संघर्ष ग्राफ बनाने के लिए है। इसके लिए लेनदेन वर्गों को परिभाषित किया गया है। लेनदेन वर्ग में डेटा सेट के दो सेट होते हैं जिन्हें रीड सेट और राइट सेट कहा जाता है। लेन-देन एक विशेष वर्ग का होता है यदि लेन-देन का रीड सेट क्लास के रीड सेट का सबसेट होता है और ट्रांजेक्शन का राइट सेट क्लास के राइट सेट का सबसेट होता है। रीड चरण में, प्रत्येक लेनदेन अपने रीड सेट में डेटा आइटम के लिए अपने रीड अनुरोधों को जारी करता है। लेखन चरण में, प्रत्येक लेनदेन अपने लेखन अनुरोध जारी करता है।

उन वर्गों के लिए एक संघर्ष ग्राफ बनाया जाता है, जिनसे सक्रिय लेन-देन होता है। इसमें ऊर्ध्वाधर, क्षैतिज और विकर्ण किनारों का एक सेट होता है। एक वर्टिकल एज एक क्लास के भीतर दो नोड्स को जोड़ता है और क्लास के भीतर टकराव को दर्शाता है। एक क्षैतिज किनारा दो वर्गों को दो वर्गों से जोड़ता है और विभिन्न वर्गों के बीच एक लिखने-लिखने के संघर्ष को दर्शाता है। एक विकर्ण किनारे दो वर्गों में दो नोड्स को जोड़ता है और दो वर्गों के बीच लिखने-पढ़ने या पढ़ने-लिखने के संघर्ष को दर्शाता है।

संघर्ष रेखांकन का विश्लेषण यह पता लगाने के लिए किया जाता है कि क्या एक ही वर्ग में या दो अलग-अलग वर्गों में दो लेन-देन समानांतर में चलाए जा सकते हैं।

वितरित ऑप्टिमिस्टिक कंसीलर कंट्रोल एल्गोरिथम

वितरित आशावादी संगामिति नियंत्रण एल्गोरिथ्म आशावादी संगामिति नियंत्रण एल्गोरिथ्म का विस्तार करता है। इस विस्तार के लिए, दो नियम लागू हैं -

Rule 1- इस नियम के अनुसार, लेन-देन करने पर सभी स्थानों पर लेन-देन को स्थानीय रूप से मान्य किया जाना चाहिए। यदि किसी भी साइट पर लेन-देन अवैध पाया जाता है, तो उसे निरस्त कर दिया जाता है। स्थानीय सत्यापन यह गारंटी देता है कि लेनदेन उन साइटों पर क्रमबद्धता बनाए रखता है जहां इसे निष्पादित किया गया है। लेन-देन के बाद स्थानीय सत्यापन परीक्षण पास होता है, यह विश्व स्तर पर मान्य है।

Rule 2- इस नियम के अनुसार, लेन-देन स्थानीय सत्यापन परीक्षण पास होने के बाद, यह विश्व स्तर पर मान्य होना चाहिए। वैश्विक मान्यता यह सुनिश्चित करती है कि यदि दो परस्पर विरोधी लेनदेन एक साथ एक से अधिक साइटों पर चलते हैं, तो उन्हें सभी साइटों पर एक ही सापेक्ष क्रम में चलना चाहिए। इसके लिए प्रतिबद्ध होने के बाद अन्य परस्पर विरोधी लेनदेन की प्रतीक्षा करने के लिए लेनदेन की आवश्यकता हो सकती है। यह आवश्यकता एल्गोरिथ्म को कम आशावादी बनाती है क्योंकि किसी साइट पर वैरिफाइड होते ही लेन-देन संभव नहीं हो पाता है।

यह अध्याय डेटाबेस सिस्टम में डेडलॉक हैंडलिंग मैकेनिज्म को ओवरव्यू करता है। हम केंद्रीकृत और वितरित डेटाबेस सिस्टम में डेडलॉक हैंडलिंग तंत्र का अध्ययन करेंगे।

डेडलॉक क्या हैं?

डेडलॉक एक डेटाबेस सिस्टम की स्थिति है जिसमें दो या दो से अधिक लेनदेन होते हैं, जब प्रत्येक लेनदेन एक डेटा आइटम की प्रतीक्षा कर रहा है जो किसी अन्य लेनदेन द्वारा लॉक किया जा रहा है। वेट-फॉर-ग्राफ में एक गतिरोध को एक चक्र द्वारा इंगित किया जा सकता है। यह एक निर्देशित ग्राफ है जिसमें कोने लेन-देन को दर्शाते हैं और किनारों को डेटा आइटम के लिए प्रतीक्षा करते हैं।

उदाहरण के लिए, निम्न प्रतीक्षा-दर-ग्राफ़ में, लेनदेन T1 डेटा आइटम X की प्रतीक्षा कर रहा है जो T3 द्वारा लॉक किया गया है। T3 Y का इंतजार कर रहा है जो T2 द्वारा लॉक है और T2 Z का इंतजार कर रहा है जो T1 द्वारा लॉक है। इसलिए, एक प्रतीक्षा चक्र बन जाता है, और कोई भी लेनदेन निष्पादन को आगे नहीं बढ़ा सकता है।

सेंट्रलाइज्ड सिस्टम में डेडलॉक हैंडलिंग

गतिरोध से निपटने के लिए तीन शास्त्रीय दृष्टिकोण हैं, अर्थात् -

  • गतिरोध की रोकथाम।
  • गतिरोध से बचाव
  • गतिरोध का पता लगाने और हटाने।

तीन दृष्टिकोणों के सभी एक केंद्रीकृत और एक वितरित डेटाबेस प्रणाली में शामिल किया जा सकता है।

गतिरोध निवारण

डेडलॉक रोकथाम दृष्टिकोण किसी भी लेनदेन को ताले प्राप्त करने की अनुमति नहीं देता है जो डेडलॉक को जन्म देगा। सम्मेलन यह है कि जब एक से अधिक लेनदेन एक ही डेटा आइटम को लॉक करने के लिए अनुरोध करते हैं, तो उनमें से केवल एक को लॉक की अनुमति दी जाती है।

सबसे लोकप्रिय गतिरोध निवारण विधियों में से एक सभी तालों का पूर्व-अधिग्रहण है। इस पद्धति में, एक लेन-देन शुरू करने से पहले सभी तालों को प्राप्त करता है और लेन-देन की पूरी अवधि के लिए ताले को बनाए रखता है। यदि किसी अन्य लेन-देन को पहले से ही प्राप्त तालों में से किसी की आवश्यकता होती है, तो उसे तब तक इंतजार करना पड़ता है जब तक कि उसके लिए आवश्यक सभी ताले उपलब्ध न हों। इस दृष्टिकोण का उपयोग करते हुए, सिस्टम को गतिरोध से रोका जाता है क्योंकि कोई भी प्रतीक्षा लेनदेन किसी भी लॉक को पकड़ नहीं रहा है।

गतिरोध से बचाव

गतिरोध से बचने का तरीका होने से पहले गतिरोध को संभालता है। यह लेन-देन और तालों का विश्लेषण करता है ताकि यह निर्धारित किया जा सके कि इंतजार करना गतिरोध है या नहीं।

विधि संक्षेप में निम्नानुसार बताई जा सकती है। लेन-देन डेटा आइटम निष्पादित करना शुरू करते हैं और अनुरोध करते हैं जिन्हें उन्हें लॉक करने की आवश्यकता होती है। लॉक मैनेजर चेक करता है कि लॉक उपलब्ध है या नहीं। यदि यह उपलब्ध है, तो लॉक प्रबंधक डेटा आइटम को आवंटित करता है और लेनदेन लॉक को प्राप्त करता है। हालाँकि, यदि आइटम असंगत मोड में कुछ अन्य लेन-देन द्वारा लॉक किया गया है, तो लॉक मैनेजर परीक्षण करने के लिए एक एल्गोरिथ्म चलाता है कि क्या प्रतीक्षा स्थिति में लेन-देन रखने से गतिरोध पैदा होगा या नहीं। तदनुसार, एल्गोरिथ्म यह तय करता है कि लेनदेन इंतजार कर सकता है या लेनदेन में से एक को समाप्त कर दिया जाना चाहिए।

इस उद्देश्य के लिए दो एल्गोरिदम हैं, अर्थात् wait-die तथा wound-wait। आइए हम मान लें कि दो लेनदेन हैं, टी 1 और टी 2, जहां टी 1 एक डेटा आइटम को लॉक करने की कोशिश करता है जो पहले से ही टी 2 द्वारा लॉक है। एल्गोरिदम इस प्रकार हैं -

  • Wait-Die- यदि T1 T2 से पुराना है, तो T1 को प्रतीक्षा करने की अनुमति है। अन्यथा, यदि T1 T2 से छोटा है, तो T1 को निरस्त कर दिया गया और बाद में पुनः आरंभ किया गया।

  • Wound-Wait- यदि T1 T2 से अधिक पुराना है, तो T2 का गर्भपात हो जाता है और बाद में पुनः आरंभ होता है। अन्यथा, यदि T1 T2 से छोटा है, तो T1 को प्रतीक्षा करने की अनुमति है।

डेडलॉक डिटेक्शन एंड रिमूवल

गतिरोध का पता लगाने और हटाने का दृष्टिकोण समय-समय पर गतिरोध का पता लगाने वाले एल्गोरिथ्म को चलाता है और मामले में गतिरोध को हटा देता है। यह गतिरोध की जांच नहीं करता है जब कोई लेनदेन लॉक के लिए अनुरोध करता है। जब कोई लेन-देन किसी लॉक का अनुरोध करता है, तो लॉक प्रबंधक यह जांचता है कि क्या यह उपलब्ध है। यदि यह उपलब्ध है, तो लेनदेन को डेटा आइटम को लॉक करने की अनुमति है; अन्यथा लेन-देन की प्रतीक्षा करने की अनुमति है।

चूँकि लॉक अनुरोधों को देते समय कोई सावधानी नहीं बरती जाती है, इसलिए कुछ लेनदेनों का गतिरोध हो सकता है। गतिरोधों का पता लगाने के लिए, लॉक मैनेजर समय-समय पर जांच करता है कि क्या वेट-माफी का चक्र है। यदि सिस्टम डेडलॉक हो जाता है, तो लॉक मैनेजर प्रत्येक चक्र से एक पीड़ित लेनदेन चुनता है। पीड़ित का गर्भपात किया जाता है और उसे वापस घुमाया जाता है; और फिर बाद में पुनः आरंभ किया। पीड़ित चयन के लिए इस्तेमाल की जाने वाली कुछ विधियाँ हैं -

  • सबसे कम उम्र का लेन-देन चुनें।
  • कुछ डेटा आइटम के साथ लेनदेन चुनें।
  • उस लेनदेन को चुनें, जिसमें कम से कम अपडेट किए गए हों।
  • कम से कम ओवरहेड को फिर से शुरू करने वाले लेनदेन को चुनें।
  • वह लेनदेन चुनें जो दो या अधिक चक्रों के लिए सामान्य है।

यह दृष्टिकोण मुख्य रूप से लेनदेन कम करने वाली प्रणालियों के लिए अनुकूल है और जहां लॉक अनुरोधों के लिए तेजी से प्रतिक्रिया की आवश्यकता है।

डिस्ट्रीब्यूटेड सिस्टम्स में डेडलॉक हैंडलिंग

एक वितरित डेटाबेस प्रणाली में लेनदेन प्रसंस्करण भी वितरित किया जाता है, अर्थात एक ही लेनदेन एक से अधिक साइट पर प्रसंस्करण हो सकता है। एक वितरित डेटाबेस प्रणाली में दो मुख्य गतिरोध से निपटने की चिंताएं जो एक केंद्रीकृत प्रणाली में मौजूद नहीं हैंtransaction location तथा transaction control। एक बार जब इन चिंताओं को संबोधित किया जाता है, गतिरोध को किसी भी गतिरोध की रोकथाम, गतिरोध से बचाव या गतिरोध का पता लगाने और हटाने के माध्यम से नियंत्रित किया जाता है।

लेन-देन का स्थान

एक वितरित डेटाबेस सिस्टम में लेनदेन कई साइटों में संसाधित किए जाते हैं और कई साइटों में डेटा आइटम का उपयोग करते हैं। इन साइटों के बीच डेटा प्रोसेसिंग की मात्रा समान रूप से वितरित नहीं की जाती है। प्रसंस्करण की समय अवधि भी भिन्न होती है। इस प्रकार समान लेनदेन कुछ साइटों पर सक्रिय हो सकता है और दूसरों में निष्क्रिय हो सकता है। जब दो परस्पर विरोधी लेनदेन एक साइट में स्थित होते हैं, तो ऐसा हो सकता है कि उनमें से एक निष्क्रिय अवस्था में हो। यह स्थिति एक केंद्रीकृत प्रणाली में उत्पन्न नहीं होती है। इस चिंता को ट्रांजैक्शन लोकेशन इश्यू कहा जाता है।

इस चिंता को डेज़ी चेन मॉडल द्वारा संबोधित किया जा सकता है। इस मॉडल में, एक लेन-देन कुछ विवरणों को वहन करता है जब यह एक साइट से दूसरे में जाता है। कुछ विवरणों में आवश्यक तालिकाओं की सूची, आवश्यक साइटों की सूची, विज़िट की गई तालिकाओं और स्थलों की सूची, तालिकाओं और साइटों की सूची जिन्हें अभी तक देखा जाना है और प्रकारों के साथ अधिग्रहित ताले की सूची है। लेनदेन के बाद या तो समाप्त हो जाता है या गर्भपात हो जाता है, सूचना सभी संबंधित साइटों को भेज दी जानी चाहिए।

लेन-देन नियंत्रण

लेनदेन नियंत्रण एक वितरित डेटाबेस सिस्टम में लेनदेन के प्रसंस्करण के लिए आवश्यक साइटों को नामित और नियंत्रित करने से संबंधित है। लेन-देन की प्रक्रिया और नियंत्रण के केंद्र को कैसे नामित किया जाए, इसके विकल्प के बारे में कई विकल्प हैं, जैसे -

  • एक सर्वर को नियंत्रण केंद्र के रूप में चुना जा सकता है।
  • नियंत्रण का केंद्र एक सर्वर से दूसरे में जा सकता है।
  • नियंत्रित करने की जिम्मेदारी कई सर्वरों द्वारा साझा की जा सकती है।

डेडलॉक रोकथाम वितरित की

बस केंद्रीकृत गतिरोध निवारण में, वितरित गतिरोध निवारण दृष्टिकोण की तरह, एक लेनदेन को निष्पादित करने से पहले सभी तालों को प्राप्त करना चाहिए। यह गतिरोध को रोकता है।

वह साइट जहां लेन-देन में प्रवेश होता है, उसे नियंत्रित करने वाली साइट के रूप में नामित किया जाता है। नियंत्रण साइट उन साइटों को संदेश भेजती है जहां डेटा आइटम आइटम लॉक करने के लिए स्थित हैं। फिर यह पुष्टि की प्रतीक्षा करता है। जब सभी साइटों ने पुष्टि की है कि उन्होंने डेटा आइटम लॉक कर दिया है, तो लेनदेन शुरू होता है। यदि कोई साइट या संचार लिंक विफल हो जाता है, तो लेनदेन को तब तक इंतजार करना पड़ता है जब तक कि उनकी मरम्मत नहीं हो जाती।

हालांकि कार्यान्वयन सरल है, इस दृष्टिकोण में कुछ कमियां हैं -

  • ताले के पूर्व अधिग्रहण के लिए संचार देरी के लिए लंबे समय की आवश्यकता होती है। इससे लेन-देन के लिए आवश्यक समय बढ़ जाता है।

  • साइट या लिंक की विफलता के मामले में, एक लेनदेन को लंबे समय तक इंतजार करना पड़ता है ताकि साइटें ठीक हो जाएं। इस बीच, रनिंग साइट्स में, आइटम लॉक हो जाते हैं। यह अन्य लेनदेन को निष्पादित करने से रोक सकता है।

  • यदि नियंत्रित करने वाली साइट विफल हो जाती है, तो वह अन्य साइटों के साथ संवाद नहीं कर सकती है। ये साइटें लॉक किए गए डेटा आइटम को अपने लॉक किए गए राज्य में रखना जारी रखती हैं, इस प्रकार अवरुद्ध होने के परिणामस्वरूप।

डेडलॉक परिहार वितरित किया

केंद्रीकृत प्रणाली में, वितरित गतिरोध परिहार घटना से पहले गतिरोध को संभालता है। इसके अतिरिक्त, वितरित प्रणालियों में, लेनदेन के स्थान और लेनदेन नियंत्रण के मुद्दों को संबोधित करने की आवश्यकता है। लेनदेन की वितरित प्रकृति के कारण, निम्नलिखित संघर्ष हो सकते हैं -

  • एक ही साइट में दो लेनदेन के बीच संघर्ष।
  • विभिन्न साइटों में दो लेनदेन के बीच संघर्ष।

संघर्ष के मामले में, लेन-देन में से एक को समाप्त कर दिया जा सकता है या वितरित प्रतीक्षा-मरने या वितरित घाव-प्रतीक्षा एल्गोरिदम के अनुसार प्रतीक्षा करने की अनुमति दी जा सकती है।

आइए मान लें कि दो लेनदेन हैं, टी 1 और टी 2। T1 साइट P पर आता है और एक डेटा आइटम को लॉक करने की कोशिश करता है जो पहले से ही उस साइट पर T2 द्वारा लॉक है। इसलिए, साइट पी में एक संघर्ष है। एल्गोरिदम इस प्रकार हैं -

  • Distributed Wound-Die

    • यदि T1 T2 से अधिक पुराना है, तो T1 को प्रतीक्षा करने की अनुमति है। T1 साइट पी को एक संदेश प्राप्त होने के बाद T1 को फिर से शुरू कर सकता है जो कि T2 ने सभी साइटों पर या तो प्रतिबद्ध या सफलतापूर्वक निरस्त कर दिया है।

    • यदि T1 T2 से छोटा है, तो T1 का गर्भपात किया जाता है। साइट पी पर संगणना नियंत्रण सभी साइटों को एक संदेश भेजता है जहां टी 1 ने टी 1 को समाप्त करने का दौरा किया है। नियंत्रण साइट उपयोगकर्ता को सूचित करती है जब टी 1 को सभी साइटों में सफलतापूर्वक निरस्त कर दिया गया है।

  • Distributed Wait-Wait

    • यदि T1 T2 से अधिक पुराना है, तो T2 को निरस्त किया जाना चाहिए। यदि T2 साइट P पर सक्रिय है, तो साइट P गर्भपात करता है और वापस T2 को रोल करता है और फिर इस संदेश को अन्य संबंधित साइटों पर प्रसारित करता है। यदि T2 ने साइट P को छोड़ दिया है, लेकिन साइट Q पर सक्रिय है, तो साइट P ने प्रसारण किया है कि T2 निरस्त कर दिया गया है; साइट L तब गर्भपात करती है और T2 को वापस लाती है और इस संदेश को सभी साइटों पर भेजती है।

    • यदि T1 T1 से छोटा है, तो T1 को प्रतीक्षा करने की अनुमति है। T1, साइट P द्वारा एक संदेश प्राप्त करने के बाद T2 को फिर से शुरू कर सकता है, जिसे T2 ने पूरा कर लिया है।

डेडलॉक डिटेक्शन वितरित किया

केंद्रीकृत गतिरोध का पता लगाने के दृष्टिकोण की तरह, गतिरोध उत्पन्न होने की अनुमति दी जाती है और यदि पता चला तो हटा दिया जाता है। जब कोई लेनदेन लॉक अनुरोध करता है, तो सिस्टम कोई चेक नहीं करता है। कार्यान्वयन के लिए, वैश्विक प्रतीक्षा-रेखांकन बनाए जाते हैं। ग्लोबल वेट-फॉर-ग्राफ में एक चक्र का अस्तित्व गतिरोध को इंगित करता है। हालांकि, लेन-देन का पता लगाना मुश्किल है क्योंकि लेनदेन पूरे नेटवर्क में संसाधनों की प्रतीक्षा करता है।

वैकल्पिक रूप से, गतिरोध का पता लगाने वाले एल्गोरिदम टाइमर का उपयोग कर सकते हैं। प्रत्येक लेनदेन एक टाइमर के साथ जुड़ा होता है जो एक समय अवधि के लिए सेट होता है जिसमें लेनदेन समाप्त होने की उम्मीद होती है। यदि कोई लेनदेन इस समय अवधि के भीतर समाप्त नहीं होता है, तो टाइमर बंद हो जाता है, एक संभावित गतिरोध का संकेत देता है।

गतिरोध से निपटने के लिए उपयोग किया जाने वाला एक अन्य उपकरण एक डेडलॉक डिटेक्टर है। एक केंद्रीकृत प्रणाली में, एक गतिरोध डिटेक्टर होता है। एक वितरित प्रणाली में, एक से अधिक गतिरोध वाले डिटेक्टर हो सकते हैं। एक डेडलॉक डिटेक्टर साइटों के नियंत्रण के लिए गतिरोध पा सकता है। एक वितरित प्रणाली में गतिरोध का पता लगाने के लिए तीन विकल्प हैं, अर्थात्।

  • Centralized Deadlock Detector - एक साइट को केंद्रीय गतिरोधी डिटेक्टर के रूप में नामित किया गया है।

  • Hierarchical Deadlock Detector - पदानुक्रम में कई गतिरोध डिटेक्टरों की व्यवस्था की गई है।

  • Distributed Deadlock Detector - सभी साइटें गतिरोधों का पता लगाने और उन्हें हटाने में भाग लेती हैं।

यह अध्याय प्रतिकृति नियंत्रण में दिखता है, जो सभी साइटों में लगातार डेटा बनाए रखने के लिए आवश्यक है। हम प्रतिकृति नियंत्रण तकनीकों और प्रतिकृति नियंत्रण के लिए आवश्यक एल्गोरिदम का अध्ययन करेंगे।

जैसे कि पहले भी चर्चा की जा चुकी है, replicationअलग-अलग साइटों पर डेटा तालिका की कई प्रतियों को संग्रहीत करने के लिए वितरित डेटाबेस में उपयोग की जाने वाली तकनीक है। कई साइटों में कई प्रतियां होने के साथ समस्या यह है कि विशेष रूप से अद्यतन कार्यों के दौरान डेटा स्थिरता बनाए रखने की ओवरहेड है।

सभी साइटों में पारस्परिक रूप से लगातार डेटा बनाए रखने के लिए, प्रतिकृति नियंत्रण तकनीकों को अपनाने की आवश्यकता है। प्रतिकृति नियंत्रण के लिए दो दृष्टिकोण हैं, अर्थात् -

  • सिंक्रोनस प्रतिकृति नियंत्रण
  • अतुल्यकालिक प्रतिकृति नियंत्रण

सिंक्रोनस प्रतिकृति नियंत्रण

तुल्यकालिक प्रतिकृति दृष्टिकोण में, डेटाबेस को सिंक्रनाइज़ किया जाता है ताकि सभी प्रतिकृति में हमेशा समान मूल्य हो। डेटा आइटम का अनुरोध करने वाले लेन-देन के लिए सभी साइटों में समान मूल्य तक पहुंच होगी। इस एकरूपता को सुनिश्चित करने के लिए, डेटा आइटम को अपडेट करने वाले लेन-देन का विस्तार किया जाता है ताकि वह डेटा आइटम की सभी प्रतियों में अपडेट कर सके। आमतौर पर, दो-चरण प्रतिबद्ध प्रोटोकॉल का उपयोग उद्देश्य के लिए किया जाता है।

उदाहरण के लिए, आइए हम एक डेटा टेबल PROJECT (PId, PName, PLocation) पर विचार करें। हमें एक लेनदेन T1 चलाने की आवश्यकता है, जो 'मुंबई' के लिए '' मुंबई '' के लिए प्लॉटोकेशन को अपडेट करता है। यदि कोई प्रतिकृति नहीं है, तो लेनदेन T1 में परिचालन होगा -

Begin T1: 
   Update PROJECT Set PLocation = 'Mumbai' 
   Where PLocation = 'Bombay'; 
End T1;

यदि साइट A और साइट B में डेटा तालिका में दो प्रतिकृतियां हैं, तो T1 को दो बच्चों T1A और T1B को दो साइटों के अनुरूप बनाना होगा। विस्तारित लेनदेन T1 होगा -

Begin T1: 
   Begin T1A : 
      Update PROJECT Set PLocation = 'Mumbai' 
      Where PLocation = 'Bombay'; 
   End T1A;  
	
   Begin T2A : 
      Update PROJECT Set PLocation = 'Mumbai'
      Where PLocation = 'Bombay'; 
   End T2A; 
	
End T1;

अतुल्यकालिक प्रतिकृति नियंत्रण

अतुल्यकालिक प्रतिकृति दृष्टिकोण में, प्रतिकृतियां हमेशा समान मूल्य नहीं रखती हैं। एक या अधिक प्रतिकृतियां एक पुराने मूल्य को संग्रहीत कर सकती हैं, और एक लेनदेन विभिन्न मूल्यों को देख सकता है। सभी प्रतिकृतियों को वर्तमान मूल्य पर लाने की प्रक्रिया को कहा जाता हैsynchronization

सिंक्रनाइज़ेशन की एक लोकप्रिय विधि स्टोर और फॉरवर्ड विधि है। इस पद्धति में, एक साइट को प्राथमिक साइट के रूप में नामित किया गया है और अन्य साइटें द्वितीयक साइट हैं। प्राथमिक साइट में हमेशा अद्यतन मान शामिल होते हैं। सभी लेनदेन पहले प्राथमिक साइट में प्रवेश करते हैं। ये लेन-देन द्वितीयक साइटों में आवेदन के लिए कतारबद्ध हैं। द्वितीयक साइटें केवल रोलआउट पद्धति का उपयोग करके अपडेट की जाती हैं, जब कोई लेनदेन उस पर निष्पादित करने के लिए निर्धारित होता है।

प्रतिकृति नियंत्रण एल्गोरिदम

प्रतिकृति नियंत्रण एल्गोरिदम में से कुछ हैं -

  • मास्टर-दास प्रतिकृति नियंत्रण एल्गोरिदम।
  • वितरित एल्गोरिथ्म।
  • अधिकांश आम सहमति एल्गोरिथ्म।
  • टोकन एल्गोरिथ्म घूम रहा है।

मास्टर-स्लेव प्रतिकृति नियंत्रण एल्गोरिथम

एक मास्टर साइट और 'एन' दास साइटें हैं। एक मास्टर एल्गोरिदम संघर्षों का पता लगाने के लिए मास्टर साइट पर चलता है। प्रत्येक दास साइट पर दास एल्गोरिथ्म की एक प्रति चलती है। समग्र एल्गोरिथ्म निम्नलिखित दो चरणों में निष्पादित होता है -

  • Transaction acceptance/rejection phase- जब एक लेन-देन एक दास साइट के लेनदेन की निगरानी में प्रवेश करता है, तो दास साइट मास्टर साइट पर एक अनुरोध भेजती है। मास्टर साइट संघर्षों के लिए जाँच करता है। यदि कोई संघर्ष नहीं है, तो स्वामी दास साइट पर एक "ACK +" संदेश भेजता है जो तब लेनदेन एप्लिकेशन चरण शुरू करता है। अन्यथा, स्वामी दास को "ACK-" संदेश भेजता है जो तब लेनदेन को अस्वीकार कर देता है।

  • Transaction application phase- इस चरण में प्रवेश करने पर, दास साइट, जहां लेनदेन में प्रवेश किया गया है, लेनदेन को निष्पादित करने के लिए सभी दासों से अनुरोध करता है। अनुरोध प्राप्त करने पर, सहकर्मी दास लेनदेन को अंजाम देते हैं और पूरा होने पर अनुरोधकर्ता दास को "एसीके" भेजते हैं। अनुरोध करने के बाद दास को अपने सभी साथियों से "एसीके" संदेश मिले हैं, यह मास्टर साइट पर एक "पूर्ण" संदेश भेजता है। मास्टर समझता है कि लेनदेन पूरा हो गया है और इसे लंबित कतार से निकाल देता है।

वितरित वोटिंग एल्गोरिथम

इसमें 'एन' सहकर्मी साइटें शामिल हैं, जिनमें से सभी को निष्पादित करने से पहले "ओके" होना चाहिए। इस एल्गोरिथ्म के दो चरण निम्नलिखित हैं -

  • Distributed transaction acceptance phase- जब कोई लेन-देन किसी साइट के लेन-देन प्रबंधक में प्रवेश करता है, तो यह अन्य सभी साइटों पर लेनदेन का अनुरोध भेजता है। अनुरोध प्राप्त करने पर, एक सहकर्मी साइट प्राथमिकता आधारित मतदान नियमों का उपयोग करके संघर्षों का समाधान करती है। यदि सभी सहकर्मी साइट लेन-देन के साथ "ठीक" हैं, तो अनुरोध करने वाली साइट एप्लिकेशन चरण शुरू करती है। यदि कोई सहकर्मी साइट लेनदेन को "ठीक" नहीं करता है, तो अनुरोध करने वाली साइट लेनदेन को अस्वीकार कर देती है।

  • Distributed transaction application phase- इस चरण में प्रवेश करने पर, जिस स्थान पर लेन-देन दर्ज किया गया है, लेनदेन को निष्पादित करने के लिए सभी दासों से अनुरोध प्रसारित करता है। अनुरोध प्राप्त करने पर, सहकर्मी दास लेन-देन को अंजाम देते हैं और पूरा होने पर अनुरोध करने वाले दास को "ACK" संदेश भेजते हैं। अनुरोध करने के बाद दास को अपने सभी साथियों से "एसीके" संदेश मिले हैं, इससे लेनदेन प्रबंधक को पता चलता है कि लेनदेन पूरा हो गया है।

अधिकांश आम सहमति एल्गोरिथ्म

यह वितरित वोटिंग एल्गोरिथ्म से भिन्नता है, जहां एक लेन-देन को निष्पादित करने की अनुमति मिलती है, जब अधिकांश साथी लेनदेन को "ओके" करते हैं। इसे तीन चरणों में बांटा गया है -

  • Voting phase- जब कोई लेन-देन किसी साइट के लेन-देन प्रबंधक में प्रवेश करता है, तो यह अन्य सभी साइटों पर लेनदेन का अनुरोध भेजता है। एक अनुरोध प्राप्त करने पर, एक सहकर्मी मतदान नियमों का उपयोग करते हुए टकराव के लिए परीक्षण करता है और विवादित लेनदेन को, यदि कोई हो, लंबित कतार में रखता है। फिर, यह या तो "ओके" या "ओके नहीं" संदेश भेजता है।

  • Transaction acceptance/rejection phase- यदि अनुरोध वाली साइट को लेन-देन पर "ओके" बहुमत प्राप्त होता है, तो यह सभी साइटों के लिए लेनदेन और "एसीसीपीटी" को स्वीकार करता है। अन्यथा, यह सभी साइटों पर "REJECT" प्रसारित करता है और लेनदेन को अस्वीकार करता है।

  • Transaction application phase- जब कोई सहकर्मी साइट "REJECT" संदेश प्राप्त करता है, तो वह इस लेन-देन को अपनी लंबित सूची से हटा देता है और सभी स्थगित लेनदेन पर पुनर्विचार करता है। जब कोई सहकर्मी साइट "ACCEPT" संदेश प्राप्त करता है, तो यह लेनदेन को लागू करता है और लंबित कतार में सभी आस्थगित लेनदेन को अस्वीकार कर देता है जो इस लेनदेन के साथ विरोध में हैं। यह पूरा होने पर अनुरोध करने वाले दास को एक "एसीके" भेजता है।

टोकन एल्गोरिथ्म घूम रहा है

इस दृष्टिकोण में सिस्टम में लेन-देन को एक परिसंचारी टोकन का उपयोग करके क्रमबद्ध किया जाता है और डेटाबेस की प्रत्येक प्रतिकृति के अनुसार निष्पादित किया जाता है। इस प्रकार, सभी लेनदेन स्वीकार किए जाते हैं, अर्थात कोई भी अस्वीकार नहीं किया जाता है। इसके दो चरण हैं -

  • Transaction serialization phase- इस चरण में, सभी लेनदेन क्रमबद्ध क्रम में चलने वाले हैं। प्रत्येक साइट में प्रत्येक लेनदेन को अनुक्रमिक श्रृंखला से एक अद्वितीय टिकट सौंपा गया है, जो लेनदेन के आदेश को दर्शाता है। एक बार लेन-देन का टिकट आवंटित होने के बाद, इसे सभी साइटों पर प्रसारित किया जाता है।

  • Transaction application phase- जब कोई साइट अपने टिकट के साथ लेनदेन प्राप्त करती है, तो वह अपने टिकट के अनुसार लेनदेन के लिए लेनदेन करती है। लेन-देन का निष्पादन समाप्त होने के बाद, यह साइट एक उपयुक्त संदेश प्रसारित करती है। एक लेनदेन तब समाप्त होता है जब उसने सभी साइटों में निष्पादन पूरा कर लिया है।

एक डेटाबेस प्रबंधन प्रणाली कई विफलताओं के लिए अतिसंवेदनशील है। इस अध्याय में हम विफलता के प्रकारों का अध्ययन करेंगे और प्रोटोकॉल बनाएंगे। एक वितरित डेटाबेस प्रणाली में, विफलताओं को मोटे तौर पर नरम विफलताओं, कठिन विफलताओं और नेटवर्क विफलताओं में वर्गीकृत किया जा सकता है।

नरम विफलता

नरम विफलता विफलता का प्रकार है जो कंप्यूटर की अस्थिर मेमोरी में नुकसान का कारण बनता है और लगातार भंडारण में नहीं। यहां, मुख्य मेमोरी, बफ़र्स, कैश या रजिस्टरों जैसे गैर-स्थिर भंडारण में संग्रहीत जानकारी खो जाती है। उन्हें सिस्टम क्रैश के रूप में भी जाना जाता है। विभिन्न प्रकार की नरम विफलताएँ निम्नानुसार हैं -

  • ऑपरेटिंग सिस्टम की विफलता।
  • मुख्य मेमोरी क्रैश।
  • लेन-देन की विफलता या गर्भपात।
  • सिस्टम उत्पन्न त्रुटि जैसे पूर्णांक अतिप्रवाह या विभाजन-दर-शून्य त्रुटि।
  • सहायक सॉफ्टवेयर की विफलता।
  • बिजली की विफलता।

कठिन असफलता

एक कठिन विफलता विफलता का प्रकार है जो डिस्क जैसे लगातार या गैर-वाष्पशील भंडारण में डेटा की हानि का कारण बनता है। डिस्क विफलता कुछ डिस्क ब्लॉक में डेटा का भ्रष्टाचार या कुल डिस्क की विफलता का कारण हो सकता है। एक कठिन विफलता के कारण हैं -

  • बिजली की विफलता।
  • मीडिया में दोष।
  • पढ़ो-लिखो खराबी।
  • डिस्क पर सूचना का भ्रष्टाचार।
  • डिस्क की हेड क्रैश पढ़ें / लिखें।

यदि रिजर्व में कोई नया, स्वरूपित और रेडी-टू-यूज़ डिस्क है, तो डिस्क विफलताओं से रिकवरी कम हो सकती है। अन्यथा, अवधि में खरीदारी ऑर्डर प्राप्त करने, डिस्क खरीदने और उसे तैयार करने में लगने वाला समय शामिल है।

नेटवर्क विफलता

नेटवर्क विफलताओं वितरित या नेटवर्क डेटाबेस में प्रचलित हैं। इनमें डेटा की वितरित प्रकृति और नेटवर्क पर डेटा को स्थानांतरित करने के कारण डेटाबेस सिस्टम में प्रेरित त्रुटियां शामिल हैं। नेटवर्क विफलता के कारण इस प्रकार हैं -

  • संचार लिंक विफलता।
  • नेटवर्क संकुलन।
  • स्थानांतरण के दौरान सूचना भ्रष्टाचार।
  • साइट विफलताओं।
  • नेटवर्क विभाजन।

प्रतिबद्ध प्रोटोकॉल

किसी भी डेटाबेस सिस्टम को गारंटी देनी चाहिए कि विफलताओं के बाद भी लेनदेन के वांछनीय गुणों को बनाए रखा जाता है। यदि किसी लेनदेन के निष्पादन के दौरान विफलता होती है, तो ऐसा हो सकता है कि लेन-देन के बारे में सभी परिवर्तन प्रतिबद्ध नहीं हैं। यह डेटाबेस को असंगत बनाता है। प्रतिबद्ध प्रोटोकॉल इस परिदृश्य को लेनदेन पूर्ववत करें (रोलबैक) या लेनदेन फिर से करें (आगे रोल) का उपयोग करके रोकते हैं।

कमिट प्वाइंट

समय का वह बिंदु जिस पर निर्णय किया जाता है कि लेन-देन करना या निरस्त करना, प्रतिबद्ध बिंदु के रूप में जाना जाता है। निम्नलिखित एक प्रतिबद्ध बिंदु के गुण हैं।

  • यह उस समय की बात है जब डेटाबेस सुसंगत है।

  • इस बिंदु पर, डेटाबेस द्वारा लाए गए संशोधनों को अन्य लेनदेन द्वारा देखा जा सकता है। सभी लेन-देन डेटाबेस का एक सुसंगत दृश्य हो सकते हैं।

  • इस बिंदु पर, लेनदेन के सभी कार्यों को सफलतापूर्वक निष्पादित किया गया है और उनका प्रभाव लेनदेन लॉग में दर्ज किया गया है।

  • यदि आवश्यक हो तो इस बिंदु पर, एक लेनदेन सुरक्षित रूप से पूर्ववत किया जा सकता है।

  • इस बिंदु पर, एक लेनदेन इसके द्वारा आयोजित सभी ताले जारी करता है।

लेन-देन पूर्ववत करें

लेन-देन द्वारा डेटाबेस में किए गए सभी परिवर्तनों को पूर्ववत करने की प्रक्रिया को लेनदेन पूर्ववत या लेनदेन रोलबैक कहा जाता है। यह ज्यादातर नरम विफलता के मामले में लागू होता है।

लेन-देन फिर से करें

लेन-देन द्वारा डेटाबेस में किए गए परिवर्तनों को फिर से लागू करने की प्रक्रिया को लेन-देन पुनर्निधारण या लेनदेन रोल फॉरवर्ड कहा जाता है। यह ज्यादातर एक कठिन विफलता से वसूली के लिए लागू किया जाता है।

लेन देन सुची

लेन-देन लॉग एक अनुक्रमिक फ़ाइल है जो डेटाबेस आइटम पर लेनदेन संचालन का ट्रैक रखता है। के रूप में लॉग प्रकृति में अनुक्रमिक है, यह या तो शुरुआत से या अंत से क्रमिक रूप से संसाधित होता है।

लेन-देन लॉग के उद्देश्य -

  • लेनदेन करने या समर्थन करने के लिए प्रतिबद्ध प्रोटोकॉल का समर्थन करने के लिए।
  • विफलता के बाद डेटाबेस रिकवरी में सहायता करना।

एक लेन-देन लॉग आमतौर पर डिस्क पर रखा जाता है, ताकि यह नरम विफलताओं से प्रभावित न हो। इसके अतिरिक्त, लॉग को समय-समय पर चुंबकीय टेप जैसे एक अभिलेखीय भंडारण तक बैकअप किया जाता है ताकि इसे डिस्क विफलताओं से भी बचाया जा सके।

लेन-देन लॉग में सूची

लेन-देन लॉग स्थिति की स्थिति के आधार पर पाँच प्रकार की सूचियाँ रखता है। यह सूची पुनर्प्राप्ति प्रबंधक को लेनदेन की स्थिति का पता लगाने में सहायता करती है। स्थिति और संबंधित सूचियां इस प्रकार हैं -

  • एक लेनदेन जिसमें एक लेनदेन प्रारंभ रिकॉर्ड होता है और एक लेनदेन प्रतिबद्ध रिकॉर्ड होता है, एक प्रतिबद्ध लेनदेन होता है - प्रतिबद्ध सूची में बनाए रखा जाता है।

  • एक लेन-देन जिसमें एक लेनदेन प्रारंभ रिकॉर्ड होता है और एक लेनदेन विफल रिकॉर्ड होता है, लेकिन लेन-देन गर्भपात रिकॉर्ड नहीं होता है, एक असफल लेनदेन है - असफल सूची में बनाए रखा जाता है।

  • एक लेनदेन जिसमें एक लेनदेन प्रारंभ रिकॉर्ड होता है और एक लेन-देन गर्भपात रिकॉर्ड एक निरस्त लेनदेन होता है - गर्भपात सूची में बनाए रखा जाता है।

  • एक लेन-देन जिसमें एक लेनदेन प्रारंभ रिकॉर्ड होता है और एक लेनदेन पहले-प्रतिबद्ध रिकॉर्ड एक पूर्व-प्रतिबद्ध लेनदेन होता है, यानी एक लेनदेन जहां सभी ऑपरेशन निष्पादित किए गए हैं, लेकिन प्रतिबद्ध नहीं हैं - पहले-प्रतिबद्ध सूची में बनाए रखा गया है।

  • एक लेन-देन जिसमें एक लेन-देन प्रारंभ रिकॉर्ड होता है, लेकिन पहले-प्रतिबद्ध, प्रतिबद्ध, गर्भपात या असफल होने का कोई रिकॉर्ड, एक सक्रिय लेनदेन नहीं है - सक्रिय सूची में बनाए रखा जाता है।

तत्काल अद्यतन और आस्थगित अद्यतन

लेन-देन लॉग को बनाए रखने के लिए तत्काल अद्यतन और आस्थगित अद्यतन दो तरीके हैं।

में immediate updateमोड, जब कोई लेन-देन निष्पादित होता है, तो लेन-देन द्वारा किए गए अपडेट सीधे डिस्क पर लिखे जाते हैं। पुराने मान और अद्यतन मान डेटाबेस में डिस्क पर लिखने से पहले लॉग पर लिखे जाते हैं। प्रतिबद्ध होने पर, डिस्क में किए गए परिवर्तन स्थायी हो जाते हैं। रोलबैक पर, डेटाबेस में लेन-देन द्वारा किए गए परिवर्तन को छोड़ दिया जाता है और पुराने मानों को लॉग में संग्रहीत पुराने मूल्यों से डेटाबेस में पुनर्स्थापित किया जाता है।

में deferred updateमोड, जब कोई लेन-देन निष्पादित होता है, तो लेन-देन द्वारा डेटाबेस में किए गए अपडेट लॉग फ़ाइल में दर्ज किए जाते हैं। प्रतिबद्ध पर, लॉग में परिवर्तन डिस्क पर लिखे गए हैं। रोलबैक पर, लॉग में परिवर्तन छोड़ दिए जाते हैं और डेटाबेस में कोई परिवर्तन लागू नहीं होते हैं।

डेटाबेस विफलता से पुनर्प्राप्त करने के लिए, डेटाबेस प्रबंधन सिस्टम कई पुनर्प्राप्ति प्रबंधन तकनीकों का सहारा लेते हैं। इस अध्याय में, हम डेटाबेस रिकवरी के विभिन्न तरीकों का अध्ययन करेंगे।

डेटाबेस रिकवरी के लिए विशिष्ट रणनीतियाँ हैं -

  • डेटाबेस की असंगतता के परिणामस्वरूप नरम विफलताओं के मामले में, पुनर्प्राप्ति रणनीति में लेनदेन पूर्ववत या रोलबैक शामिल है। हालाँकि, कभी-कभी, लेन-देन की सुसंगत स्थिति को पुनर्प्राप्त करने के लिए लेन-देन फिर से अपनाया जा सकता है।

  • डेटाबेस को व्यापक क्षति के परिणामस्वरूप हार्ड विफलताओं के मामले में, पुनर्प्राप्ति रणनीतियों में अभिलेखीय बैकअप से डेटाबेस की पिछली प्रतिलिपि को पुनर्स्थापित करना शामिल है। डेटाबेस का एक और अधिक वर्तमान स्थिति लेनदेन लॉग से प्रतिबद्ध लेनदेन के संचालन के माध्यम से प्राप्त किया जाता है।

पावर विफलता से पुनर्प्राप्ति

बिजली की विफलता गैर-लगातार स्मृति में जानकारी के नुकसान का कारण बनती है। जब बिजली बहाल हो जाती है, तो ऑपरेटिंग सिस्टम और डेटाबेस मैनेजमेंट सिस्टम पुनरारंभ होता है। रिकवरी प्रबंधक लेनदेन लॉग से वसूली शुरू करता है।

तत्काल अद्यतन मोड के मामले में, वसूली प्रबंधक निम्नलिखित कार्रवाई करता है -

  • लेनदेन जो सक्रिय सूची में हैं और असफल सूची पूर्ववत है और गर्भपात सूची पर लिखी गई है।

  • लेन-देन जो पहले की कमेटी की सूची में हैं, फिर से किए गए हैं।

  • प्रतिबद्ध या गर्भपात सूचियों में लेनदेन के लिए कोई कार्रवाई नहीं की जाती है।

आस्थगित अद्यतन मोड के मामले में, वसूली प्रबंधक निम्नलिखित कार्रवाई करता है -

  • लेन-देन जो सक्रिय सूची में हैं और असफल सूची गर्भपात सूची पर लिखी गई है। डिस्क में अभी तक परिवर्तन नहीं लिखे जाने के बाद किसी भी पूर्ववत संचालन की आवश्यकता नहीं है।

  • लेन-देन जो पहले की कमेटी की सूची में हैं, फिर से किए गए हैं।

  • प्रतिबद्ध या गर्भपात सूचियों में लेनदेन के लिए कोई कार्रवाई नहीं की जाती है।

डिस्क विफलता से पुनर्प्राप्ति

डिस्क विफलता या हार्ड क्रैश कुल डेटाबेस हानि का कारण बनता है। इस कठिन दुर्घटना से उबरने के लिए, एक नया डिस्क तैयार किया जाता है, फिर ऑपरेटिंग सिस्टम को पुनर्स्थापित किया जाता है, और अंत में डेटाबेस बैकअप और लेनदेन लॉग का उपयोग करके डेटाबेस को पुनर्प्राप्त किया जाता है। पुनर्प्राप्ति विधि तत्काल और आस्थगित अद्यतन मोड दोनों के लिए समान है।

वसूली प्रबंधक निम्नलिखित कार्रवाई करता है -

  • लेन-देन सूची और पूर्व-सूची में लेन-देन फिर से किया जाता है और लेनदेन लॉग में प्रतिबद्ध सूची में लिखा जाता है।

  • सक्रिय सूची और असफल सूची में लेनदेन पूर्ववत हैं और लेन-देन लॉग में गर्भपात सूची में लिखे गए हैं।

checkpointing

Checkpointसमय का एक बिंदु है जिस पर बफ़र्स से डेटाबेस पर एक रिकॉर्ड लिखा जाता है। परिणामस्वरूप, सिस्टम क्रैश की स्थिति में, रिकवरी मैनेजर को उन लेनदेन को फिर से करना नहीं पड़ता है जो चेकपॉइंट से पहले किए गए हैं। समय-समय पर चेकपॉइंट करने से रिकवरी की प्रक्रिया छोटी हो जाती है।

दो प्रकार की चेकपॉइंटिंग तकनीकें हैं -

  • लगातार चेकपॉइंट करना
  • फजी चेकपॉइंटिंग

लगातार चेकपॉइंट करना

लगातार चेकपॉइंटिंग चेकपॉइंट पर डेटाबेस की एक सुसंगत छवि बनाता है। पुनर्प्राप्ति के दौरान, केवल वे लेनदेन जो अंतिम चेकपॉइंट के दाईं ओर हैं, पूर्ववत या फिर से किए गए हैं। अंतिम सुसंगत चेकपॉइंट के बाईं ओर लेनदेन पहले से ही प्रतिबद्ध हैं और उन्हें फिर से संसाधित करने की आवश्यकता नहीं है। चेकपॉइंटिंग के लिए किए गए कार्य हैं -

  • सक्रिय लेनदेन अस्थायी रूप से निलंबित हैं।
  • मुख्य मेमोरी बफ़र्स में सभी परिवर्तन डिस्क पर लिखे गए हैं।
  • लेन-देन लॉग में "चेकपॉइंट" रिकॉर्ड लिखा जाता है।
  • लेन-देन लॉग डिस्क पर लिखा है।
  • निलंबित लेनदेन फिर से शुरू हो जाते हैं।

यदि चरण 4 में, लेन-देन लॉग को संग्रहीत किया जाता है, तो यह डिस्क विफलता और पावर विफलताओं से पुनर्प्राप्ति में सहायक चेकपॉइंटिंग है, अन्यथा यह केवल पावर विफलताओं से पुनर्प्राप्ति एड्स करता है।

फजी चेकपॉइंटिंग

फज़ी चेकपॉइंटिंग में, चेकपॉइंट के समय, सभी सक्रिय लेनदेन लॉग में लिखे जाते हैं। बिजली की विफलता के मामले में, वसूली प्रबंधक केवल उन लेनदेन को संसाधित करता है जो चेकपॉइंट के दौरान और बाद में सक्रिय थे। चेकपॉइंट से पहले किए गए लेन-देन डिस्क पर लिखे गए हैं और इसलिए उन्हें फिर से तैयार करने की आवश्यकता नहीं है।

चेकपॉइंटिंग का उदाहरण

आइए हम मानते हैं कि सिस्टम में चेकपॉइंटिंग का समय tcheck है और सिस्टम क्रैश का समय tfail है। बता दें कि चार ट्रांजैक्शन T a , T b , T c और T d ऐसे हैं -

  • टी एक चौकी से पहले करता है।

  • T b चेकपॉइंट से पहले शुरू होता है और सिस्टम क्रैश से पहले शुरू होता है।

  • T c चेकपॉइंट के बाद शुरू होता है और सिस्टम क्रैश से पहले शुरू होता है।

  • T d, चौकी के बाद शुरू होता है और सिस्टम क्रैश के समय सक्रिय था।

स्थिति को निम्नलिखित चित्र में दर्शाया गया है -

पुनर्प्राप्ति प्रबंधक द्वारा की जाने वाली क्रियाएँ हैं -

  • T a के साथ कुछ भी नहीं किया जाता है ।
  • ट्रांजेक्शन रीडो टी बी और टी सी के लिए किया जाता है
  • T d के लिए लेनदेन पूर्ववत किया जाता है ।

यूएनडीओ / REDO का उपयोग करके लेनदेन की वसूली

असफलता से उबरने के बजाय दोषपूर्ण लेनदेन के प्रतिकूल प्रभावों को समाप्त करने के लिए लेन-देन की वसूली की जाती है। दोषपूर्ण लेनदेन में सभी लेनदेन शामिल होते हैं जिन्होंने डेटाबेस को अवांछित स्थिति में बदल दिया है और उन लेनदेन में दोषपूर्ण लेनदेन द्वारा लिखे गए मूल्यों का उपयोग किया है।

इन मामलों में लेन-देन की वसूली एक दो कदम प्रक्रिया है -

  • UNDO सभी दोषपूर्ण लेनदेन और लेनदेन जो दोषपूर्ण लेनदेन से प्रभावित हो सकते हैं।

  • सभी लेनदेन जो दोषपूर्ण नहीं हैं, लेकिन दोषपूर्ण लेनदेन के कारण पूर्ववत कर दिए गए हैं।

UNDO ऑपरेशन के लिए चरण हैं -

  • यदि दोषपूर्ण लेनदेन ने INSERT किया है, तो पुनर्प्राप्ति प्रबंधक सम्मिलित किए गए डेटा आइटम को हटा देता है।

  • यदि दोषपूर्ण लेनदेन ने DELETE किया है, तो पुनर्प्राप्ति प्रबंधक लॉग से हटाए गए डेटा आइटम (ओं) को सम्मिलित करता है।

  • यदि दोषपूर्ण लेनदेन ने अद्यतन किया है, तो पुनर्प्राप्ति प्रबंधक लॉग से पहले-अद्यतन मान लिखकर मान को समाप्त कर देता है।

REDO ऑपरेशन के चरण हैं -

  • यदि लेन-देन INSERT किया गया है, तो पुनर्प्राप्ति प्रबंधक लॉग से एक प्रविष्टि उत्पन्न करता है।

  • यदि लेन-देन DELETE किया गया है, तो पुनर्प्राप्ति प्रबंधक लॉग से हटाता है।

  • यदि लेन-देन ने अद्यतन किया है, तो पुनर्प्राप्ति प्रबंधक लॉग से एक अद्यतन बनाता है।

एक स्थानीय डेटाबेस प्रणाली में, लेनदेन करने के लिए, लेनदेन प्रबंधक को केवल रिकवरी प्रबंधक के लिए निर्णय लेने के लिए सूचित करना होता है। हालांकि, एक वितरित प्रणाली में, लेनदेन प्रबंधक को उन सभी सर्वरों के लिए प्रतिबद्ध होना चाहिए जो विभिन्न साइटों में लेनदेन को निष्पादित कर रहे हैं और निर्णय को समान रूप से लागू करते हैं। जब प्रत्येक साइट पर प्रसंस्करण पूरा हो जाता है, तो यह आंशिक रूप से प्रतिबद्ध लेनदेन स्थिति तक पहुंच जाता है और अन्य सभी लेनदेन के लिए आंशिक रूप से प्रतिबद्ध राज्यों तक पहुंचने का इंतजार करता है। जब यह संदेश प्राप्त होता है कि सभी साइटें प्रतिबद्ध होने के लिए तैयार हैं, तो यह प्रतिबद्ध होना शुरू हो जाता है। एक वितरित प्रणाली में, सभी साइटें कमिट करती हैं या उनमें से कोई भी नहीं करती है।

विभिन्न वितरित प्रतिबद्ध प्रोटोकॉल हैं -

  • एक चरण की प्रतिबद्धता
  • दो चरण की प्रतिबद्धता
  • तीन चरण की प्रतिबद्धता

एक चरण की कमिट वितरित की

वितरित एक-चरण प्रतिबद्ध सबसे सरल प्रतिबद्ध प्रोटोकॉल है। आइए हम विचार करें कि एक नियंत्रित साइट और कई दास साइट हैं, जहां लेनदेन निष्पादित किया जा रहा है। वितरित समितियों के चरण हैं -

  • प्रत्येक गुलाम ने स्थानीय रूप से अपना लेन-देन पूरा करने के बाद, यह नियंत्रित करने वाले साइट पर "DONE" संदेश भेजता है।

  • दास नियंत्रण स्थल से "कमिट" या "एबोर्ट" संदेश की प्रतीक्षा करते हैं। इस प्रतीक्षा समय को कहा जाता हैwindow of vulnerability

  • जब नियंत्रण साइट प्रत्येक दास से "पूर्ण" संदेश प्राप्त करता है, तो यह प्रतिबद्ध या गर्भपात करने का निर्णय लेता है। इसे कमिट पॉइंट कहा जाता है। फिर, यह संदेश सभी दासों को भेजता है।

  • इस संदेश को प्राप्त करने पर, एक गुलाम या तो अपमान करता है या गर्भपात करता है और फिर नियंत्रित साइट पर एक पावती संदेश भेजता है।

दो चरण की कमिट वितरित की

वितरित दो-चरण प्रतिबद्ध एक-चरण प्रतिबद्ध प्रोटोकॉल की भेद्यता को कम करता है। दो चरणों में किए गए कदम इस प्रकार हैं -

Phase 1: Prepare Phase

  • प्रत्येक गुलाम ने स्थानीय रूप से अपना लेन-देन पूरा करने के बाद, यह नियंत्रित करने वाले साइट पर "DONE" संदेश भेजता है। जब नियंत्रण साइट को सभी दासों से "पूर्ण" संदेश प्राप्त हुआ है, तो यह दासों को "तैयार" संदेश भेजता है।

  • दास इस बात पर वोट देते हैं कि वे अभी भी कमिटमेंट करना चाहते हैं या नहीं। यदि कोई दास करना चाहता है, तो वह "रेडी" संदेश भेजता है।

  • एक गुलाम जो प्रतिबद्ध नहीं करना चाहता है वह "तैयार नहीं" संदेश भेजता है। यह तब हो सकता है जब गुलाम में समवर्ती लेनदेन का विरोध हो या कोई समय समाप्त हो।

Phase 2: Commit/Abort Phase

  • कंट्रोलिंग साइट को सभी गुलामों से "तैयार" संदेश मिला है -

    • नियंत्रित करने वाली साइट दासों को "ग्लोबल कमिट" संदेश भेजती है।

    • दास लेन-देन को लागू करते हैं और नियंत्रण स्थल पर एक "कमिट एसीके" संदेश भेजते हैं।

    • जब नियंत्रण साइट को सभी दासों से "कमिट एसीके" संदेश प्राप्त होता है, तो यह लेनदेन को प्रतिबद्ध मानते हैं।

  • कंट्रोलिंग साइट को किसी भी गुलाम से पहला "नॉट रेडी" संदेश प्राप्त हुआ है -

    • नियंत्रित करने वाली साइट दासों को "ग्लोबल एबॉर्ट" संदेश भेजती है।

    • दास लेन-देन को निरस्त करते हैं और नियंत्रण स्थल पर "एबॉर्ट एसीके" संदेश भेजते हैं।

    • जब कंट्रोलिंग साइट को सभी दासों से "एबॉर्ट एसीके" संदेश प्राप्त होता है, तो यह लेनदेन को निरस्त मानता है।

तीन चरण की कमिट वितरित की

वितरित तीन चरण की प्रतिबद्धताओं के चरण इस प्रकार हैं -

Phase 1: Prepare Phase

चरण दो-चरणबद्ध वितरित वितरित के समान हैं।

Phase 2: Prepare to Commit Phase

  • नियंत्रित करने वाली साइट "प्रवेश तैयार राज्य" प्रसारण संदेश जारी करती है।
  • दास साइटें प्रतिक्रिया में "ओके" वोट देती हैं।

Phase 3: Commit / Abort Phase

चरण दो चरण की प्रतिबद्धताओं के समान हैं सिवाय इसके कि "कमिट एसीके" / "एबॉर्ट एसीके" संदेश की आवश्यकता नहीं है।

इस अध्याय में, हम उन खतरों को देखेंगे जो एक डेटाबेस प्रणाली का सामना करते हैं और नियंत्रण के उपाय। हम एक सुरक्षा उपकरण के रूप में क्रिप्टोग्राफी का भी अध्ययन करेंगे।

डेटाबेस सुरक्षा और खतरे

डेटा सुरक्षा किसी भी डेटाबेस सिस्टम का एक अनिवार्य पहलू है। बड़ी संख्या में उपयोगकर्ताओं, खंडित और प्रतिकृति डेटा, कई साइटों और वितरित नियंत्रण के कारण वितरित प्रणालियों में इसका विशेष महत्व है।

एक डेटाबेस में धमकी

  • Availability loss - उपलब्धता हानि वैध उपयोगकर्ताओं द्वारा डेटाबेस ऑब्जेक्ट्स की अनुपलब्धता को संदर्भित करता है।

  • Integrity loss- अखंडता हानि तब होती है जब अस्वीकार्य संचालन डेटाबेस पर गलती से या दुर्भावनापूर्ण रूप से किया जाता है। डेटा बनाते, सम्मिलित करते, अद्यतन या हटाते समय यह हो सकता है। यह दूषित डेटा के परिणामस्वरूप गलत निर्णय लेता है।

  • Confidentiality loss- गोपनीय जानकारी के अनधिकृत या अनजाने प्रकटीकरण के कारण गोपनीयता हानि होती है। इसके परिणामस्वरूप अवैध कार्य, सुरक्षा खतरे और जनता के विश्वास में हानि हो सकती है।

नियंत्रण के उपाय

नियंत्रण के उपायों को मोटे तौर पर निम्नलिखित श्रेणियों में विभाजित किया जा सकता है -

  • Access Control- एक्सेस कंट्रोल में अनधिकृत पहुंच से बचाने के लिए डेटाबेस मैनेजमेंट सिस्टम में सुरक्षा तंत्र शामिल हैं। केवल मान्य उपयोगकर्ता खातों के माध्यम से लॉगिन प्रक्रिया को साफ़ करने के बाद एक उपयोगकर्ता डेटाबेस तक पहुंच प्राप्त कर सकता है। प्रत्येक उपयोगकर्ता खाता पासवर्ड से सुरक्षित है।

  • Flow Control- वितरित सिस्टम में एक साइट से दूसरे में और एक साइट के भीतर बहुत अधिक डेटा प्रवाह शामिल है। फ्लो कंट्रोल डेटा को इस तरह से ट्रांसफर होने से रोकता है कि इसे अनधिकृत एजेंटों द्वारा एक्सेस किया जा सकता है। एक प्रवाह नीति उन चैनलों को सूचीबद्ध करती है जिनके माध्यम से जानकारी प्रवाहित हो सकती है। यह डेटा के साथ-साथ लेनदेन के लिए सुरक्षा वर्गों को भी परिभाषित करता है।

  • Data Encryption- डेटा एन्क्रिप्शन कोडिंग डेटा को संदर्भित करता है जब संवेदनशील डेटा सार्वजनिक चैनलों पर संचार किया जाना है। यहां तक ​​कि अगर कोई अनधिकृत एजेंट डेटा तक पहुंच प्राप्त करता है, तो वह इसे समझ नहीं सकता है क्योंकि यह एक समझ से बाहर प्रारूप में है।

क्रिप्टोग्राफी क्या है?

Cryptography अविश्वसनीय संचार पथ के माध्यम से भेजने से पहले जानकारी को एन्कोडिंग करने का विज्ञान है ताकि केवल एक अधिकृत रिसीवर ही इसे डिकोड और उपयोग कर सके।

कोडित संदेश कहा जाता है cipher text और मूल संदेश कहा जाता है plain text। प्रेषक द्वारा पाठ को सिफर करने के लिए सादे पाठ को परिवर्तित करने की प्रक्रिया को एन्कोडिंग या कहा जाता हैencryption। रिसीवर द्वारा साइफर टेक्स्ट को सादे टेक्स्ट में बदलने की प्रक्रिया को डिकोडिंग या कहा जाता हैdecryption

क्रिप्टोग्राफी का उपयोग करते हुए संचार की पूरी प्रक्रिया को निम्न आरेख के माध्यम से चित्रित किया जा सकता है -

पारंपरिक एन्क्रिप्शन तरीके

पारंपरिक क्रिप्टोग्राफी में, एन्क्रिप्शन और डिक्रिप्शन एक ही गुप्त कुंजी का उपयोग करके किया जाता है। यहां, प्रेषक गुप्त कुंजी की एक प्रति का उपयोग करके एन्क्रिप्शन एल्गोरिथ्म के साथ संदेश को एन्क्रिप्ट करता है। एन्क्रिप्ट किया गया संदेश तब सार्वजनिक संचार चैनलों पर भेजा जाता है। एन्क्रिप्टेड संदेश प्राप्त करने पर, रिसीवर एक ही गुप्त कुंजी का उपयोग करके इसी डिक्रिप्शन एल्गोरिथ्म के साथ इसे डिक्रिप्ट करता है।

पारंपरिक क्रिप्टोग्राफी में सुरक्षा दो कारकों पर निर्भर करती है -

  • एक ध्वनि एल्गोरिथ्म जो सभी के लिए जाना जाता है।

  • एक यादृच्छिक रूप से उत्पन्न, अधिमानतः लंबे गुप्त कुंजी जिसे केवल प्रेषक और रिसीवर द्वारा जाना जाता है।

सबसे प्रसिद्ध पारंपरिक क्रिप्टोग्राफी एल्गोरिथ्म है Data Encryption Standard या DES

इस विधि का लाभ इसकी आसान प्रयोज्यता है। हालांकि, पारंपरिक क्रिप्टोग्राफी की सबसे बड़ी समस्या संचार दलों के बीच गुप्त कुंजी साझा करना है। कुंजी भेजने के तरीके बोझिल और बेहद संवेदनशील हैं।

सार्वजनिक कुंजी क्रिप्टोग्राफी

पारंपरिक क्रिप्टोग्राफी के विपरीत, सार्वजनिक कुंजी क्रिप्टोग्राफी दो अलग-अलग कुंजी का उपयोग करती है, जिसे सार्वजनिक कुंजी और निजी कुंजी कहा जाता है। प्रत्येक उपयोगकर्ता सार्वजनिक कुंजी और निजी कुंजी की जोड़ी उत्पन्न करता है। उपयोगकर्ता तब सार्वजनिक कुंजी को एक सुलभ स्थान पर रखता है। जब कोई प्रेषक संदेश भेजना चाहता है, तो वह रिसीवर की सार्वजनिक कुंजी का उपयोग करके उसे एन्क्रिप्ट करता है। एन्क्रिप्टेड संदेश प्राप्त करने पर, रिसीवर अपनी निजी कुंजी का उपयोग करके इसे डिक्रिप्ट करता है। चूंकि निजी कुंजी किसी को भी नहीं पता है, लेकिन रिसीवर, संदेश प्राप्त करने वाला कोई अन्य व्यक्ति इसे डिक्रिप्ट नहीं कर सकता है।

सबसे लोकप्रिय सार्वजनिक कुंजी क्रिप्टोग्राफी एल्गोरिदम हैं RSA एल्गोरिथ्म और Diffie– Hellmanकलन विधि। निजी संदेश भेजने के लिए यह विधि बहुत सुरक्षित है। हालाँकि, समस्या यह है कि इसमें बहुत सारी संगणनाएँ शामिल हैं और इसलिए यह लंबे संदेशों के लिए अक्षम साबित होता है।

समाधान पारंपरिक और सार्वजनिक कुंजी क्रिप्टोग्राफी के संयोजन का उपयोग करना है। गुप्त कुंजी को संचार दलों के बीच साझा करने से पहले सार्वजनिक कुंजी क्रिप्टोग्राफी का उपयोग करके एन्क्रिप्ट किया गया है। फिर, संदेश साझा गुप्त कुंजी की सहायता से पारंपरिक क्रिप्टोग्राफी का उपयोग करके संदेश भेजा जाता है।

डिजीटल हस्ताक्षर

डिजिटल सिग्नेचर (डीएस) ई-कॉमर्स अनुप्रयोगों में उपयोग की जाने वाली सार्वजनिक कुंजी क्रिप्टोग्राफी पर आधारित एक प्रमाणीकरण तकनीक है। यह अपने संदेश के मुख्य भाग के भीतर एक व्यक्ति के लिए एक विशिष्ट चिह्न जोड़ता है। यह दूसरों को संदेशों के वैध प्रेषकों को प्रमाणित करने में मदद करता है।

आमतौर पर, उपयोगकर्ता का डिजिटल हस्ताक्षर जालसाजी के खिलाफ सुरक्षा प्रदान करने के लिए संदेश से संदेश में भिन्न होता है। विधि इस प्रकार है -

  • प्रेषक एक संदेश लेता है, संदेश के संदेश को पचाने की गणना करता है और एक निजी कुंजी के साथ इसे पचाने का संकेत देता है।

  • प्रेषक सादे हस्ताक्षर के साथ हस्ताक्षरित पाचन को जोड़ता है।

  • संदेश संचार चैनल पर भेजा जाता है।

  • रिसीवर ने हस्ताक्षरित डाइजेस्ट को हटा दिया और संबंधित सार्वजनिक कुंजी का उपयोग करके डाइजेस्ट को सत्यापित करता है।

  • रिसीवर फिर प्लेनटेक्स्ट मैसेज लेता है और उसे उसी मैसेज डाइजेस्ट अल्गोरिथम के जरिए चलाता है।

  • यदि चरण 4 और चरण 5 के परिणाम मेल खाते हैं, तो रिसीवर जानता है कि संदेश में अखंडता और प्रामाणिक है।

एक वितरित प्रणाली को केंद्रीकृत प्रणाली की तुलना में अतिरिक्त सुरक्षा उपायों की आवश्यकता होती है, क्योंकि कई उपयोगकर्ता, विविध डेटा, कई साइटें और वितरित नियंत्रण हैं। इस अध्याय में, हम वितरित डेटाबेस सुरक्षा के विभिन्न पहलुओं पर ध्यान देंगे।

वितरित संचार प्रणालियों में, घुसपैठियों के दो प्रकार हैं -

  • Passive eavesdroppers - वे संदेशों की निगरानी करते हैं और निजी जानकारी प्राप्त करते हैं।

  • Active attackers - वे न केवल संदेशों की निगरानी करते हैं, बल्कि नए डेटा को सम्मिलित करके या मौजूदा डेटा को संशोधित करके भ्रष्ट डेटा को भी दिखाते हैं।

सुरक्षा उपाय संचार में सुरक्षा, डेटा और डेटा ऑडिटिंग में सुरक्षा को शामिल करते हैं।

संचार सुरक्षा

एक वितरित डेटाबेस में, डेटा का बहुत से संचार डेटा, उपयोगकर्ताओं और लेनदेन के विविध स्थान के कारण होता है। इसलिए, यह उपयोगकर्ताओं और डेटाबेस के बीच और विभिन्न डेटाबेस वातावरणों के बीच सुरक्षित संचार की मांग करता है।

संचार में सुरक्षा निम्नलिखित शामिल हैं -

  • स्थानांतरण के दौरान डेटा भ्रष्ट नहीं होना चाहिए।

  • संचार चैनल को निष्क्रिय ईगरवॉडर और सक्रिय हमलावर दोनों के खिलाफ संरक्षित किया जाना चाहिए।

  • उपर्युक्त आवश्यकताओं को प्राप्त करने के लिए, अच्छी तरह से परिभाषित सुरक्षा एल्गोरिदम और प्रोटोकॉल को अपनाया जाना चाहिए।

एंड-टू-एंड सुरक्षित संचार प्राप्त करने के लिए दो लोकप्रिय, सुसंगत प्रौद्योगिकियां हैं -

  • सिक्योर सॉकेट लेयर प्रोटोकॉल या ट्रांसपोर्ट लेयर सिक्योरिटी प्रोटोकॉल।
  • वर्चुअल प्राइवेट नेटवर्क (वीपीएन)।

डाटा सुरक्षा

वितरित प्रणालियों में, संचार से अलग डेटा को सुरक्षित करने के लिए उपाय अपनाना अत्यावश्यक है। डेटा सुरक्षा उपाय हैं -

  • Authentication and authorization- ये अभिगम नियंत्रण के उपाय हैं जो यह सुनिश्चित करने के लिए अपनाए जाते हैं कि केवल प्रामाणिक उपयोगकर्ता ही डेटाबेस का उपयोग कर सकते हैं। प्रमाणीकरण प्रदान करने के लिए डिजिटल प्रमाणपत्र का उपयोग किया जाता है। इसके अलावा, उपयोगकर्ता नाम / पासवर्ड संयोजन के माध्यम से प्रवेश प्रतिबंधित है।

  • Data encryption वितरित सिस्टम में डेटा एन्क्रिप्शन के लिए दो दृष्टिकोण हैं -

    • वितरित डेटाबेस दृष्टिकोण के लिए आंतरिक: उपयोगकर्ता अनुप्रयोग डेटा को एन्क्रिप्ट करते हैं और फिर डेटाबेस में एन्क्रिप्ट किए गए डेटा को संग्रहीत करते हैं। संग्रहीत डेटा का उपयोग करने के लिए, एप्लिकेशन डेटाबेस से एन्क्रिप्टेड डेटा प्राप्त करते हैं और फिर इसे डिक्रिप्ट करते हैं।

    • वितरित डेटाबेस के लिए बाहरी: वितरित डेटाबेस सिस्टम की अपनी एन्क्रिप्शन क्षमताएं हैं। उपयोगकर्ता एप्लिकेशन डेटा संग्रहीत करते हैं और उन्हें यह महसूस किए बिना पुनर्प्राप्त करते हैं कि डेटा डेटाबेस में एन्क्रिप्टेड रूप में संग्रहीत है।

  • Validated input- इस सुरक्षा उपाय में, डेटाबेस को अपडेट करने के लिए उपयोग किए जाने से पहले उपयोगकर्ता एप्लिकेशन प्रत्येक इनपुट की जांच करता है। एक गैर-वैध इनपुट डेटा में बफर ओवररन, कमांड इंजेक्शन, क्रॉस-साइट स्क्रिप्टिंग और भ्रष्टाचार जैसे कई प्रकार के कारनामों का कारण बन सकता है।

डेटा ऑडिटिंग

एक डेटाबेस सुरक्षा प्रणाली को सुरक्षा उपायों का पता लगाने और निगरानी करने की आवश्यकता होती है, ताकि इसे अपनाए जाने वाले सुरक्षा उपायों का पता लगाया जा सके। घटनाओं के समय सुरक्षा के उल्लंघन का पता लगाना बहुत मुश्किल है। सुरक्षा उल्लंघनों की पहचान करने के लिए एक विधि ऑडिट लॉग की जांच करना है। ऑडिट लॉग में जानकारी होती है जैसे -

  • दिनांक, समय और विफल प्रयासों के साइट।
  • सफल पहुँच प्रयासों का विवरण।
  • डेटाबेस सिस्टम में महत्वपूर्ण संशोधन।
  • विशेष रूप से कई साइटों के डेटाबेस से भारी मात्रा में डेटा का उपयोग।

उपरोक्त सभी जानकारी डेटाबेस में गतिविधियों की जानकारी देती है। लॉग का एक आवधिक विश्लेषण इसकी साइट और घटना के समय के साथ किसी भी अप्राकृतिक गतिविधि की पहचान करने में मदद करता है। यह लॉग आदर्श रूप से एक अलग सर्वर में संग्रहीत है ताकि यह हमलावरों के लिए दुर्गम हो।