क्वेरी अनुकूलन के लिए संबंधिक बीजगणित
जब कोई क्वेरी रखी जाती है, तो वह पहले स्कैन की जाती है, पार्स की जाती है और वैरिफाइड की जाती है। क्वेरी का आंतरिक प्रतिनिधित्व तब क्वेरी ट्री या क्वेरी ग्राफ़ जैसे बनाया जाता है। फिर वैकल्पिक निष्पादन रणनीतियों को डेटाबेस तालिकाओं से परिणाम प्राप्त करने के लिए तैयार किया जाता है। क्वेरी प्रसंस्करण के लिए सबसे उपयुक्त निष्पादन रणनीति चुनने की प्रक्रिया को क्वेरी ऑप्टिमाइज़ेशन कहा जाता है।
DDBMS में क्वेरी ऑप्टिमाइज़ेशन समस्याएँ
DDBMS में, क्वेरी ऑप्टिमाइज़ेशन एक महत्वपूर्ण कार्य है। निम्नलिखित कारकों के कारण वैकल्पिक रणनीतियों की संख्या तेजी से बढ़ सकती है क्योंकि जटिलता अधिक है -
- कई टुकड़ों की उपस्थिति।
- विभिन्न स्थलों पर टुकड़ों या तालिकाओं का वितरण।
- संचार लिंक की गति।
- स्थानीय प्रसंस्करण क्षमताओं में असमानता।
इसलिए, एक वितरित प्रणाली में, लक्ष्य को अक्सर सर्वश्रेष्ठ के बजाय क्वेरी प्रसंस्करण के लिए एक अच्छा निष्पादन रणनीति ढूंढनी होती है। किसी क्वेरी को निष्पादित करने का समय निम्नलिखित का योग है -
- डेटाबेस में प्रश्नों को संप्रेषित करने का समय।
- स्थानीय क्वेरी अंशों को निष्पादित करने का समय।
- विभिन्न साइटों से डेटा इकट्ठा करने का समय।
- आवेदन के लिए परिणाम प्रदर्शित करने का समय।
क्वेरी प्रसंस्करण
क्वेरी प्रोसेसिंग क्वेरी प्लेसमेंट से शुरू होने वाली सभी गतिविधियों का एक सेट है जो क्वेरी के परिणामों को प्रदर्शित करता है। चरण निम्न चित्र में दिखाए गए हैं -
संबंधपरक बीजगणित
संबंधपरक बीजगणित संबंधपरक डेटाबेस मॉडल के संचालन के मूल सेट को परिभाषित करता है। संबंधपरक बीजगणित संचालन का एक क्रम एक संबंधपरक बीजगणित अभिव्यक्ति बनाता है। इस अभिव्यक्ति का परिणाम डेटाबेस क्वेरी के परिणाम को दर्शाता है।
मूल संचालन हैं -
- Projection
- Selection
- Union
- Intersection
- Minus
- Join
प्रक्षेपण
प्रोजेक्शन ऑपरेशन एक तालिका के फ़ील्ड का सबसेट प्रदर्शित करता है। यह तालिका का एक ऊर्ध्वाधर विभाजन देता है।
Syntax in Relational Algebra
$ $ \ pi _ {<{विशेषता सूची}>} {(<{तालिका नाम}>)} $ $
उदाहरण के लिए, हम निम्नलिखित छात्र डेटाबेस पर विचार करें -
|
||||
Roll_No | Name | Course | Semester | Gender |
2 | अमित प्रसाद | बीसीए | 1 | पुरुष |
4 | वर्षा तिवारी | बीसीए | 1 | महिला |
5 | आसिफ अली | एमसीए | 2 | पुरुष |
6 | जो वालेस | एमसीए | 1 | पुरुष |
8 | शिवानी अयंगर | बीसीए | 1 | महिला |
यदि हम सभी छात्रों के नाम और पाठ्यक्रम प्रदर्शित करना चाहते हैं, तो हम निम्नलिखित संबंधपरक बीजगणित अभिव्यक्ति का उपयोग करेंगे -
$$ \ pi_ {नाम, पाठ्यक्रम} {(छात्र)} $$
चयन
चयन ऑपरेशन एक तालिका के टुपल्स का एक सबसेट प्रदर्शित करता है जो कुछ शर्तों को पूरा करता है। यह तालिका का एक क्षैतिज विभाजन देता है।
Syntax in Relational Algebra
$ $ \ _ सिग्मा _ {<{शर्तें}>} {(<{तालिका नाम}>)} $ $
उदाहरण के लिए, छात्र तालिका में, यदि हम एमसीए पाठ्यक्रम के लिए चुने गए सभी छात्रों का विवरण प्रदर्शित करना चाहते हैं, तो हम निम्नलिखित संबंधपरक बीजगणित अभिव्यक्ति का उपयोग करेंगे -
$$ \ sigma_ {कोर्स} = {\ _ "छोटा" BCA "} ^ {(छात्र)} $ $
प्रोजेक्शन और चयन संचालन का संयोजन
अधिकांश प्रश्नों के लिए, हमें प्रक्षेपण और चयन कार्यों के संयोजन की आवश्यकता है। इन भावों को लिखने के दो तरीके हैं -
- प्रक्षेपण और चयन संचालन के अनुक्रम का उपयोग करना।
- मध्यवर्ती परिणाम उत्पन्न करने के लिए नाम बदलने के संचालन का उपयोग करना।
उदाहरण के लिए, BCA पाठ्यक्रम की सभी महिला छात्रों के नाम प्रदर्शित करने के लिए -
- प्रक्षेपण और चयन संचालन के अनुक्रम का उपयोग करके संबंधिक बीजगणित अभिव्यक्ति
$ $ \ pi_ {नाम} (\ sigma_ {लिंग = \ _ "छोटा" महिला "और \": पाठ्यक्रम = \ छोटा "BCA"} {{(छात्र)}} $ $
- मध्यवर्ती परिणाम उत्पन्न करने के लिए नाम बदलने के संचालन के साथ संबंधिक बीजगणित अभिव्यक्ति
$$ FemaleBCAStudent \ leftarrow \ sigma_ {लिंग = \ _ "छोटा" महिला और AND: कोर्स = \ छोटा "BCA"} {{(छात्र)} $ $
$ $ परिणाम \ leftarrow \ pi_ {नाम} {(FemaleBCtudent)} $ $
संघ
यदि P एक ऑपरेशन का परिणाम है और Q एक अन्य ऑपरेशन का परिणाम है, P और Q का मिलन ($ p \ cup Q $) सभी ट्यूपल्स का सेट है जो या तो P में है या Q या दोनों में डुप्लिकेट के बिना है ।
उदाहरण के लिए, उन सभी छात्रों को प्रदर्शित करने के लिए जो या तो सेमेस्टर 1 में हैं या बीसीए पाठ्यक्रम में हैं -
$$ Sem1Student \ leftarrow \ sigma_ {सेमेस्टर = 1} {(छात्र)} $ +
$ $ BCAStudent \ leftarrow \ sigma_ {कोर्स = \ छोटा "BCA"}} {(छात्र)} $$
$$ परिणाम \ leftarrow Sem1Student \ cup BCAStudent $$
चौराहा
यदि P एक ऑपरेशन का परिणाम है और Q एक अन्य ऑपरेशन का परिणाम है, P और Q का प्रतिच्छेदन ($ p \ cap Q $) सभी ट्यूपल का सेट है जो P और Q दोनों में हैं।
उदाहरण के लिए, निम्नलिखित दो स्कीमा दिए गए हैं -
EMPLOYEE
EmpID | नाम | Faridabad | विभाग | वेतन |
PROJECT
पीआईडी | Faridabad | विभाग | स्थिति |
उन सभी शहरों के नाम प्रदर्शित करने के लिए जहां एक परियोजना स्थित है और एक कर्मचारी भी रहता है -
$$ CityEmp \ leftarrow \ pi_ {शहर} {(EMPLOYEE)} $ $
$$ CityProject \ leftarrow \ pi_ {शहर} {(परियोजना)} $ $
$ $ परिणाम \ leftarrow CityEmp \ टोपी CityProject $ $
ऋण
यदि P एक ऑपरेशन का परिणाम है और Q दूसरे ऑपरेशन का परिणाम है, P - Q उन सभी ट्यूपलों का समूह है जो P में हैं और Q में नहीं हैं।
उदाहरण के लिए, उन सभी विभागों को सूचीबद्ध करने के लिए जिनके पास एक चालू परियोजना नहीं है (स्थिति = चल रही परियोजनाएँ) -
$$ AllDept \ leftarrow \ pi_ {विभाग} {(EMPLOYEE)} $ $
$$ ProjectDept \ leftarrow \ pi_ {विभाग} (\ sigma_ {स्थिति = \ small "चल रहा है"} {{(PROJECT)}) $$
$ $ परिणाम \ leftarrow AllDept - $ $ $
शामिल हों
ऑपरेशन में शामिल हों एक ही तालिका में दो अलग-अलग तालिकाओं (प्रश्नों के परिणाम) के संबंधित tuples को जोड़ती है।
उदाहरण के लिए, बैंक डेटाबेस में दो स्कीमा, ग्राहक और शाखा पर विचार करें -
CUSTOMER
ग्राहकआईडी | AccNo | TypeOfAc | BranchID | DateOfOpening |
BRANCH
BranchID | शाखा का नाम | IFSCcode | पता |
शाखा विवरण के साथ कर्मचारी विवरण को सूचीबद्ध करने के लिए -
$$ रिजल्ट \ leftarrow कस्टोमर \ bowtie_ {ग्राहक.ब्रांचिड = शाखा।ब्रांचिड} {ब्रांच} $$
संबंधपरक बीजगणित में SQL क्वेरी का अनुवाद करना
एसक्यूएल प्रश्नों को अनुकूलन से पहले समतुल्य संबंधपरक बीजगणित अभिव्यक्तियों में अनुवादित किया जाता है। एक क्वेरी पहले छोटे क्वेरी ब्लॉक में विघटित होती है। इन ब्लॉकों को समतुल्य सापेक्ष बीजगणितीय अभिव्यक्तियों के लिए अनुवादित किया जाता है। अनुकूलन में प्रत्येक ब्लॉक का अनुकूलन और फिर समग्र रूप में क्वेरी का अनुकूलन शामिल है।
उदाहरण
आइए हम निम्नलिखित स्कीमाओं पर विचार करें -
कर्मचारी
EmpID | नाम | Faridabad | विभाग | वेतन |
परियोजना
पीआईडी | Faridabad | विभाग | स्थिति |
काम करता है
EmpID | पीआईडी | घंटे |
उदाहरण 1
औसत वेतन से कम वेतन पाने वाले सभी कर्मचारियों का विवरण प्रदर्शित करने के लिए, हम SQL क्वेरी लिखते हैं -
SELECT * FROM EMPLOYEE
WHERE SALARY < ( SELECT AVERAGE(SALARY) FROM EMPLOYEE ) ;
इस क्वेरी में एक नेस्टेड सब-क्वेरी है। तो, यह दो ब्लॉकों में टूट सकता है।
आंतरिक ब्लॉक है -
SELECT AVERAGE(SALARY)FROM EMPLOYEE ;
यदि इस क्वेरी का परिणाम औसत है, तो बाहरी ब्लॉक है -
SELECT * FROM EMPLOYEE WHERE SALARY < AvgSal;
आंतरिक ब्लॉक के लिए संबंधिक बीजगणित अभिव्यक्ति -
$$ एक्सप्रेससल \ लेयररो \ Im_ {एवरेज (वेतन)} {EMPLOYEE} $ $
बाहरी ब्लॉक के लिए संबंधिक बीजगणित अभिव्यक्ति -
$$ \ sigma_ {वेतन <{औसत वेतन}>} {EMPLOYEE} $$
उदाहरण 2
कर्मचारी 'अरुण कुमार' की सभी परियोजनाओं की परियोजना आईडी और स्थिति प्रदर्शित करने के लिए, हम SQL क्वेरी लिखते हैं -
SELECT PID, STATUS FROM PROJECT
WHERE PID = ( SELECT FROM WORKS WHERE EMPID = ( SELECT EMPID FROM EMPLOYEE
WHERE NAME = 'ARUN KUMAR'));
इस क्वेरी में दो नेस्टेड उप-प्रश्न हैं। इस प्रकार, तीन ब्लॉकों में विभाजित किया जा सकता है, इस प्रकार है -
SELECT EMPID FROM EMPLOYEE WHERE NAME = 'ARUN KUMAR';
SELECT PID FROM WORKS WHERE EMPID = ArunEmpID;
SELECT PID, STATUS FROM PROJECT WHERE PID = ArunPID;
(यहां अरुणईम्पिड और अरुणपीआईडी आंतरिक प्रश्नों के परिणाम हैं)
तीन ब्लॉकों के लिए संबंधिक बीजगणित के भाव हैं -
$$ अरुणम्पिड \ leftarrow \ pi_ {EmpID} (\ sigma_ {नाम = \ small "अरुण कुमार"} {(EMPLOYEE)}) $$
$$ अरुणपीड \ _ वामो \ _ पि_ {पीआईडी} (\ sigma_ {EmpID = \ small "अरुणम्पिड"} {{(कार्य))} $ $
$$ रिजल्ट \ leftarrow \ pi_ {PID, स्थिति} (\ sigma_ {PID = \ small "ArunPID"} {{(PROJECT)}) $ $
रिलेशनल बीजगणित संचालकों की गणना
रिलेशनल बीजगणित ऑपरेटरों की गणना कई अलग-अलग तरीकों से की जा सकती है, और प्रत्येक विकल्प को ए कहा जाता है access path।
गणना विकल्प तीन मुख्य कारकों पर निर्भर करता है -
- संचालक प्रकार
- उपलब्ध स्मृति
- डिस्क संरचनाएँ
संबंधपरक बीजगणित संचालन के निष्पादन का समय निम्नलिखित का योग है -
- टुपल्स को संसाधित करने का समय।
- स्मृति से तालिका के टुपल्स लाने का समय।
चूंकि ट्यूपल को संसाधित करने का समय भंडारण से टपल लाने के लिए समय की तुलना में बहुत छोटा है, विशेष रूप से एक वितरित प्रणाली में, डिस्क एक्सेस को अक्सर संबंधपरक अभिव्यक्ति की लागत की गणना के लिए मीट्रिक माना जाता है।
चयन की संगणना
चयन ऑपरेशन की गणना चयन स्थिति की जटिलता और तालिका की विशेषताओं पर अनुक्रमित की उपलब्धता पर निर्भर करती है।
सूचकांक के आधार पर गणना विकल्प निम्नलिखित हैं -
No Index- यदि टेबल अनसोल्ड है और इसमें कोई इंडेक्स नहीं है, तो चयन प्रक्रिया में टेबल के सभी डिस्क ब्लॉक को स्कैन करना शामिल है। प्रत्येक ब्लॉक को मेमोरी में लाया जाता है और ब्लॉक में प्रत्येक टपल की जांच की जाती है कि क्या यह चयन की स्थिति को संतुष्ट करता है। यदि स्थिति संतुष्ट है, तो इसे आउटपुट के रूप में प्रदर्शित किया जाता है। यह सबसे महंगा तरीका है क्योंकि प्रत्येक टपल को मेमोरी में लाया जाता है और प्रत्येक टपल को संसाधित किया जाता है।
B+ Tree Index- अधिकांश डेटाबेस सिस्टम B + ट्री इंडेक्स पर बनाए गए हैं। यदि चयन स्थिति फ़ील्ड पर आधारित है, जो इस B + ट्री इंडेक्स की कुंजी है, तो इस इंडेक्स का उपयोग परिणामों को प्राप्त करने के लिए किया जाता है। हालांकि, जटिल स्थितियों के साथ चयन चयन प्रसंस्करण में बड़ी संख्या में डिस्क ब्लॉक एक्सेस शामिल हो सकते हैं और कुछ मामलों में तालिका की पूरी स्कैनिंग भी हो सकती है।
Hash Index- यदि हैश इंडेक्स का उपयोग किया जाता है और इसका प्रमुख क्षेत्र चयन की स्थिति में उपयोग किया जाता है, तो हैश इंडेक्स का उपयोग करके ट्यूपल्स को पुनः प्राप्त करना एक सरल प्रक्रिया बन जाती है। एक हैश इंडेक्स एक हैश फ़ंक्शन का उपयोग एक बकेट के पते को खोजने के लिए करता है जहां हैश मूल्य के अनुरूप कुंजी मूल्य संग्रहीत होता है। सूचकांक में एक महत्वपूर्ण मूल्य खोजने के लिए, हैश फ़ंक्शन निष्पादित किया जाता है और बाल्टी का पता चलता है। बाल्टी में प्रमुख मान खोजे जाते हैं। यदि कोई मिलान पाया जाता है, तो वास्तविक टपल को डिस्क ब्लॉक से मेमोरी में लाया जाता है।
जोड़ों की गणना
जब हम दो तालिकाओं में शामिल होना चाहते हैं, तो P और Q कहते हैं, P में प्रत्येक tuple की तुलना Q से प्रत्येक tuple के साथ करने के लिए की जाती है ताकि परीक्षण किया जा सके कि सम्मिलित स्थिति संतुष्ट है या नहीं। यदि स्थिति संतुष्ट हो जाती है, तो संबंधित टुपल्स को समाप्त कर दिया जाता है, डुप्लिकेट फ़ील्ड को हटा दिया जाता है और परिणाम संबंध में जोड़ा जाता है। नतीजतन, यह सबसे महंगा ऑपरेशन है।
कंप्यूटिंग जोड़ के लिए सामान्य दृष्टिकोण हैं -
नेस्टेड-लूप दृष्टिकोण
यह पारंपरिक जुड़ाव दृष्टिकोण है। यह निम्नलिखित छद्मकोश (टेबल्स पी और क्यू, ट्यूपल्स tuple_p और tuple_q के साथ और विशेषता में शामिल होने के माध्यम से चित्रित किया जा सकता है) -
For each tuple_p in P
For each tuple_q in Q
If tuple_p.a = tuple_q.a Then
Concatenate tuple_p and tuple_q and append to Result
End If
Next tuple_q
Next tuple-p
क्रमबद्ध-मर्ज दृष्टिकोण
इस दृष्टिकोण में, दो तालिकाओं को व्यक्तिगत रूप से जुड़ने की विशेषता के आधार पर क्रमबद्ध किया जाता है और फिर क्रमबद्ध तालिकाओं को मिला दिया जाता है। बाहरी सॉर्टिंग तकनीकों को अपनाया जाता है क्योंकि रिकॉर्ड की संख्या बहुत अधिक है और इसे मेमोरी में समायोजित नहीं किया जा सकता है। एक बार व्यक्तिगत तालिकाओं को छांटने के बाद, छांटे गए तालिकाओं में से प्रत्येक के एक पृष्ठ को मेमोरी में लाया जाता है, जो कि जुड़ने की विशेषता के आधार पर मर्ज किया जाता है और सम्मिलित ट्यूपल्स को लिखा जाता है।
हैश-अप्रोच
इस दृष्टिकोण में दो चरण होते हैं: विभाजन चरण और जांच चरण। विभाजन के चरण में, तालिकाओं के विभाजन के दो सेटों में पी और क्यू को तोड़ दिया जाता है। एक सामान्य हैश फ़ंक्शन का निर्णय लिया जाता है। इस हैश फ़ंक्शन का उपयोग विभाजन को ट्यूपल्स निर्दिष्ट करने के लिए किया जाता है। प्रोबिंग चरण में, P के एक विभाजन में tuples की तुलना Q के इसी विभाजन के tuples से की जाती है। यदि वे मेल खाते हैं, तो उन्हें लिखा जाता है।