कम्पाइलर डिज़ाइन - क्विक गाइड
कंप्यूटर सॉफ्टवेयर और हार्डवेयर का एक संतुलित मिश्रण है। हार्डवेयर केवल यांत्रिक उपकरण का एक टुकड़ा है और इसके कार्यों को एक संगत सॉफ्टवेयर द्वारा नियंत्रित किया जा रहा है। हार्डवेयर निर्देश को इलेक्ट्रॉनिक चार्ज के रूप में समझता है, जो सॉफ्टवेयर प्रोग्रामिंग में बाइनरी भाषा का प्रतिरूप है। बाइनरी भाषा में केवल दो अक्षर हैं, 0 और 1. निर्देश देने के लिए, हार्डवेयर कोड बाइनरी प्रारूप में लिखे जाने चाहिए, जो कि केवल 1s और 0s की एक श्रृंखला है। कंप्यूटर प्रोग्रामर के लिए इस तरह के कोड लिखना एक कठिन और बोझिल काम होगा, यही वजह है कि हमारे पास ऐसे कोड लिखने के लिए कंपाइलर हैं।
भाषा प्रसंस्करण प्रणाली
हमने सीखा है कि कोई भी कंप्यूटर सिस्टम हार्डवेयर और सॉफ्टवेयर से बना होता है। हार्डवेयर एक भाषा को समझता है, जिसे मनुष्य समझ नहीं सकता है। इसलिए हम उच्च-स्तरीय भाषा में कार्यक्रम लिखते हैं, जिसे समझना और याद रखना हमारे लिए आसान है। इन कार्यक्रमों को मशीन द्वारा उपयोग किए जाने वाले वांछित कोड को प्राप्त करने के लिए उपकरण और ओएस घटकों की एक श्रृंखला में खिलाया जाता है। इसे भाषा प्रसंस्करण प्रणाली के रूप में जाना जाता है।
उच्च-स्तरीय भाषा को विभिन्न चरणों में द्विआधारी भाषा में परिवर्तित किया जाता है। एcompilerएक ऐसा कार्यक्रम है जो उच्च-स्तरीय भाषा को असेंबली भाषा में परिवर्तित करता है। इसी तरह, एassembler एक प्रोग्राम है जो असेंबली लैंग्वेज को मशीन-लेवल लैंग्वेज में कनवर्ट करता है।
आइए पहले समझते हैं कि एक प्रोग्राम, सी कंपाइलर का उपयोग करके, एक होस्ट मशीन पर कैसे निष्पादित किया जाता है।
उपयोगकर्ता सी भाषा (उच्च-स्तरीय भाषा) में एक कार्यक्रम लिखता है।
सी कंपाइलर, प्रोग्राम को संकलित करता है और इसे असेंबली प्रोग्राम (निम्न-स्तरीय भाषा) में अनुवाद करता है।
एक असेंबलर तब असेंबली प्रोग्राम को मशीन कोड (ऑब्जेक्ट) में तब्दील करता है।
निष्पादन (निष्पादन योग्य मशीन कोड) के लिए प्रोग्रामर के सभी भागों को एक साथ जोड़ने के लिए एक लिंकर टूल का उपयोग किया जाता है।
एक लोडर उन सभी को मेमोरी में लोड करता है और फिर प्रोग्राम को निष्पादित किया जाता है।
सीधे संकलक की अवधारणाओं में गोता लगाने से पहले, हमें कुछ अन्य साधनों को समझना चाहिए जो संकलक के साथ मिलकर काम करते हैं।
पूर्वप्रक्रमक
एक प्रीप्रोसेसर, जिसे आमतौर पर कंपाइलर के एक भाग के रूप में माना जाता है, एक उपकरण है जो कंपाइलर के लिए इनपुट का उत्पादन करता है। यह मैक्रो-प्रोसेसिंग, संवर्द्धन, फ़ाइल समावेशन, भाषा विस्तार आदि से संबंधित है।
दुभाषिया
एक दुभाषिया, एक संकलक की तरह, उच्च-स्तरीय भाषा का निम्न-स्तरीय मशीन भाषा में अनुवाद करता है। अंतर स्रोत कोड या इनपुट पढ़ने के तरीके में निहित है। एक कंपाइलर एक बार में पूरे स्रोत कोड को पढ़ता है, टोकन बनाता है, शब्दार्थ की जांच करता है, मध्यवर्ती कोड बनाता है, पूरे कार्यक्रम को निष्पादित करता है और इसमें कई पास शामिल हो सकते हैं। इसके विपरीत, एक दुभाषिया इनपुट से एक बयान पढ़ता है, इसे एक मध्यवर्ती कोड में परिवर्तित करता है, इसे निष्पादित करता है, फिर अगले बयान को क्रम में लेता है। यदि कोई त्रुटि होती है, तो एक दुभाषिया निष्पादन को रोक देता है और रिपोर्ट करता है। जबकि एक कंपाइलर पूरे प्रोग्राम को पढ़ता है भले ही वह कई त्रुटियों का सामना करता हो।
कोडांतरक
एक कोडांतरक विधानसभा भाषा के कार्यक्रमों को मशीन कोड में अनुवादित करता है। एक कोडांतरक के आउटपुट को ऑब्जेक्ट फाइल कहा जाता है, जिसमें मशीन निर्देशों के संयोजन के साथ-साथ इन निर्देशों को स्मृति में रखने के लिए आवश्यक डेटा भी शामिल होता है।
लिंकर
लिंकर एक कंप्यूटर प्रोग्राम है जो एक निष्पादन योग्य फ़ाइल बनाने के लिए विभिन्न ऑब्जेक्ट फ़ाइलों को एक साथ जोड़ता है और विलय करता है। इन सभी फाइलों को अलग-अलग असेंबलरों द्वारा संकलित किया गया हो सकता है। एक लिंकर का मुख्य कार्य किसी प्रोग्राम में संदर्भित मॉड्यूल / रूटीन की खोज करना और पता लगाना है और मेमोरी स्थान का निर्धारण करना है जहां ये कोड लोड किए जाएंगे, जिससे प्रोग्राम को निरपेक्ष संदर्भ देने का निर्देश मिलता है।
लोडर
लोडर ऑपरेटिंग सिस्टम का एक हिस्सा है और निष्पादन योग्य फ़ाइलों को मेमोरी में लोड करने और उन्हें निष्पादित करने के लिए जिम्मेदार है। यह एक प्रोग्राम (निर्देश और डेटा) के आकार की गणना करता है और इसके लिए मेमोरी स्पेस बनाता है। यह निष्पादन शुरू करने के लिए विभिन्न रजिस्टरों को आरंभ करता है।
पार संकलक
एक कंपाइलर जो प्लेटफ़ॉर्म (A) पर चलता है और प्लेटफ़ॉर्म (B) के लिए निष्पादन योग्य कोड बनाने में सक्षम है, क्रॉस-कंपाइलर कहलाता है।
स्रोत-से-स्रोत संकलक
एक संकलक जो एक प्रोग्रामिंग भाषा के स्रोत कोड को लेता है और किसी अन्य प्रोग्रामिंग भाषा के स्रोत कोड में अनुवाद करता है, उसे स्रोत-से-स्रोत संकलक कहा जाता है।
संकलक वास्तुकला
एक संकलक को मोटे तौर पर दो चरणों में विभाजित किया जा सकता है जिस तरह से वे संकलित करते हैं।
विश्लेषण चरण
संकलक के सामने के अंत के रूप में जाना जाता है analysis कंपाइलर का चरण स्रोत प्रोग्राम को पढ़ता है, इसे कोर भागों में विभाजित करता है और फिर लेक्सिकल, व्याकरण और वाक्यविन्यास त्रुटियों के लिए जाँच करता है। विश्लेषण चरण स्रोत प्रोग्राम और प्रतीक तालिका का एक मध्यवर्ती प्रतिनिधित्व उत्पन्न करता है, जिसे इनपुट के रूप में संश्लेषण चरण में खिलाया जाना चाहिए। ।
संश्लेषण चरण
संकलक के बैक-एंड के रूप में जाना जाता है synthesis चरण मध्यवर्ती स्रोत कोड प्रतिनिधित्व और प्रतीक तालिका की मदद से लक्ष्य कार्यक्रम उत्पन्न करता है।
एक कंपाइलर में कई चरण और पास हो सकते हैं।
Pass : एक पास पूरे कार्यक्रम के माध्यम से एक संकलक के ट्रैवर्सल को संदर्भित करता है।
Phase: एक कंपाइलर का एक चरण एक विशिष्ट चरण है, जो पिछले चरण से इनपुट लेता है, प्रक्रियाएं और पैदावार का उत्पादन करता है जिसे अगले चरण के इनपुट के रूप में उपयोग किया जा सकता है। एक पास में एक से अधिक चरण हो सकते हैं।
कम्पाइलर के चरण
संकलन प्रक्रिया विभिन्न चरणों का एक क्रम है। प्रत्येक चरण अपने पिछले चरण से इनपुट लेता है, अपने स्वयं के स्रोत कार्यक्रम का प्रतिनिधित्व करता है, और इसके आउटपुट को कंपाइलर के अगले चरण में खिलाता है। आइए एक कंपाइलर के चरणों को समझते हैं।
लेक्सिकल विश्लेषण
स्कैनर का पहला चरण एक टेक्स्ट स्कैनर के रूप में काम करता है। यह चरण वर्णों की एक धारा के रूप में स्रोत कोड को स्कैन करता है और इसे सार्थक लेक्सेम में परिवर्तित करता है। लेज़िकल एनालाइज़र टोकन के रूप में इन लेक्सेम का प्रतिनिधित्व करता है:
<token-name, attribute-value>
सिंटेक्स विश्लेषण
अगले चरण को वाक्यविन्यास विश्लेषण या कहा जाता है parsing। यह लेक्सिकल विश्लेषण द्वारा उत्पन्न टोकन को इनपुट के रूप में लेता है और एक पार्स ट्री (या सिंटैक्स ट्री) उत्पन्न करता है। इस चरण में, स्रोत कोड व्याकरण के खिलाफ टोकन व्यवस्था की जाँच की जाती है, अर्थात पार्सर जाँचता है कि टोकन द्वारा किया गया अभिव्यक्ति वाक्य-विन्यास सही है या नहीं।
शब्दार्थ विश्लेषण
सिमेंटिक विश्लेषण यह जाँचता है कि क्या बनाए गए पार्स ट्री भाषा के नियमों का पालन करते हैं। उदाहरण के लिए, मूल्यों का असाइनमेंट संगत डेटा प्रकारों के बीच है, और स्ट्रिंग को पूर्णांक में जोड़ना है। इसके अलावा, सिमेंटिक विश्लेषक पहचानकर्ताओं, उनके प्रकारों और अभिव्यक्तियों पर नज़र रखता है; उपयोग करने से पहले पहचानकर्ता घोषित किए जाते हैं या नहीं आदि। सिमेंटिक विश्लेषक आउटपुट के रूप में एनोटेट सिंटैक्स ट्री का उत्पादन करता है।
इंटरमीडिएट कोड जनरेशन
सिमेंटिक विश्लेषण के बाद संकलक लक्ष्य मशीन के लिए स्रोत कोड का एक मध्यवर्ती कोड उत्पन्न करता है। यह कुछ अमूर्त मशीन के लिए एक कार्यक्रम का प्रतिनिधित्व करता है। यह उच्च-स्तरीय भाषा और मशीन भाषा के बीच में है। इस मध्यवर्ती कोड को इस तरह से उत्पन्न किया जाना चाहिए कि इससे लक्ष्य मशीन कोड में अनुवाद करना आसान हो जाए।
कोड अनुकूलन
अगला चरण मध्यवर्ती कोड का कोड अनुकूलन करता है। अनुकूलन को कुछ ऐसा माना जा सकता है जो अनावश्यक कोड लाइनों को हटाता है, और संसाधनों को बर्बाद किए बिना प्रोग्राम निष्पादन को गति देने के लिए बयानों के अनुक्रम को व्यवस्थित करता है (सीपीयू, मेमोरी)।
कोड जनरेशन
इस चरण में, कोड जनरेटर मध्यवर्ती कोड का अनुकूलित प्रतिनिधित्व लेता है और इसे लक्ष्य मशीन भाषा में मैप करता है। कोड जनरेटर मध्यवर्ती कोड को (आमतौर पर) री-लोकेबल मशीन कोड के अनुक्रम में अनुवाद करता है। मशीन कोड के निर्देशों का अनुक्रम कार्य करता है जैसा कि मध्यवर्ती कोड करेगा।
प्रतीक तालिका
यह एक संकलक के सभी चरणों में बनाए गए डेटा-संरचना है। उनके प्रकार के साथ सभी पहचानकर्ता के नाम यहां संग्रहीत हैं। प्रतीक तालिका कंपाइलर के लिए पहचानकर्ता रिकॉर्ड को जल्दी से खोजना और उसे पुनः प्राप्त करना आसान बनाती है। गुंजाइश प्रबंधन के लिए प्रतीक तालिका का भी उपयोग किया जाता है।
लेक्सिकल विश्लेषण एक संकलक का पहला चरण है। यह भाषा प्रीप्रोसेसरों से संशोधित स्रोत कोड लेता है जो वाक्यों के रूप में लिखे गए हैं। स्रोत कोड में किसी भी व्हाट्सएप या टिप्पणियों को हटाकर, लेक्सिकल विश्लेषक इन सिंटैक्स को टोकन की एक श्रृंखला में तोड़ता है।
यदि लेक्सिकल विश्लेषक एक टोकन को अमान्य पाता है, तो यह एक त्रुटि उत्पन्न करता है। लेक्सिकल विश्लेषक सिंटेक्स विश्लेषक के साथ मिलकर काम करता है। यह स्रोत कोड से चरित्र धाराओं को पढ़ता है, कानूनी टोकन के लिए जांच करता है, और जब यह मांग करता है तो डेटा को सिंटैक्स विश्लेषक को पास करता है।
टोकन
लेकेमेस को एक टोकन में वर्णों (अल्फ़ान्यूमेरिक) का अनुक्रम कहा जाता है। प्रत्येक लेक्सेम के लिए कुछ मान्य नियमों को मान्य टोकन के रूप में पहचाना जाना चाहिए। इन नियमों को व्याकरण के नियमों द्वारा, एक पैटर्न के द्वारा परिभाषित किया जाता है। एक पैटर्न बताता है कि एक टोकन क्या हो सकता है, और ये पैटर्न नियमित अभिव्यक्ति के माध्यम से परिभाषित होते हैं।
प्रोग्रामिंग भाषा में, कीवर्ड, स्थिरांक, पहचानकर्ता, तार, संख्या, ऑपरेटर और विराम चिह्न को टोकन के रूप में माना जा सकता है।
उदाहरण के लिए, सी भाषा में, चर घोषणा रेखा
int value = 100;
इसमें टोकन शामिल हैं:
int (keyword), value (identifier), = (operator), 100 (constant) and ; (symbol).
टोकन के विनिर्देशों
आइए हम समझते हैं कि भाषा सिद्धांत निम्नलिखित शर्तों को कैसे पूरा करता है:
अक्षर
प्रतीकों का कोई भी परिमित सेट {0,1} द्विआधारी वर्णमाला का एक सेट है, {0,1,2,3,4,5,6,7,8,9, A, B, C, D, E, F} Hexadecimal alphabets का एक सेट है, {az, AZ} अंग्रेजी भाषा के अक्षर का एक सेट है।
स्ट्रिंग्स
अल्फाबेट्स के किसी भी परिमित अनुक्रम को एक स्ट्रिंग कहा जाता है। स्ट्रिंग की लंबाई वर्णमाला की घटना की कुल संख्या है, उदाहरण के लिए, स्ट्रिंग ट्यूटोरियलस्पॉट की लंबाई 14 है और इसके द्वारा निरूपित किया जाता है: Tutorialspoint | = 14. एक स्ट्रिंग जिसमें कोई अक्षर नहीं है, अर्थात शून्य लंबाई की एक स्ट्रिंग को एक रिक्त स्ट्रिंग के रूप में जाना जाता है और इसे il (एप्सिलॉन) द्वारा दर्शाया जाता है।
विशेष चिह्न
एक सामान्य उच्च-स्तरीय भाषा में निम्नलिखित प्रतीक होते हैं: -
अंकगणित के प्रतीक | जोड़ (+), घटाव (-), मोडुलो (%), गुणा (*), मंडल (/) |
विराम चिह्न | कोमा (,), सेमीकोलन (?), डॉट (।), एरो (->) |
असाइनमेंट | = |
विशेष कार्य | + =, / =, * =, - = |
तुलना | ==; =; <, <=>,> = = |
पूर्वप्रक्रमक | # |
स्थान निर्दिष्ट करनेवाला | और |
तार्किक | &, &&;;;,,; |
शिफ्ट ऑपरेटर | >>, >>>, <<, <<< |
भाषा: हिन्दी
किसी भाषा को वर्णमाला के कुछ परिमित सेट पर तार के परिमित सेट के रूप में माना जाता है। कंप्यूटर भाषाओं को परिमित सेट माना जाता है, और गणितीय रूप से सेट संचालन उन पर किया जा सकता है। नियमित भाषाओं का वर्णन नियमित अभिव्यक्तियों के माध्यम से किया जा सकता है।
नियमित अभिव्यक्ति
लेक्सिकल एनालाइजर को वैध स्ट्रिंग / टोकन / लेक्सेम के केवल एक सीमित सेट को स्कैन और पहचानने की आवश्यकता होती है जो हाथ में भाषा से संबंधित हैं। यह भाषा के नियमों द्वारा परिभाषित पैटर्न की खोज करता है।
नियमित अभिव्यक्तियों में प्रतीकों के परिमित तारों के लिए एक पैटर्न को परिभाषित करके परिमित भाषाओं को व्यक्त करने की क्षमता है। नियमित अभिव्यक्तियों द्वारा परिभाषित व्याकरण के रूप में जाना जाता हैregular grammar। नियमित व्याकरण द्वारा परिभाषित भाषा के रूप में जाना जाता हैregular language।
पैटर्न को निर्दिष्ट करने के लिए नियमित अभिव्यक्ति एक महत्वपूर्ण अंकन है। प्रत्येक पैटर्न स्ट्रिंग्स के एक सेट से मेल खाता है, इसलिए नियमित अभिव्यक्तियाँ स्ट्रिंग्स के एक सेट के नाम के रूप में कार्य करती हैं। प्रोग्रामिंग भाषा टोकनों का वर्णन नियमित भाषाओं द्वारा किया जा सकता है। नियमित अभिव्यक्तियों का विनिर्देश पुनरावर्ती परिभाषा का एक उदाहरण है। नियमित भाषाओं को समझना आसान है और कुशल कार्यान्वयन है।
कई बीजीय कानून हैं जो नियमित अभिव्यक्तियों द्वारा पालन किए जाते हैं, जिनका उपयोग नियमित अभिव्यक्ति को समान रूपों में हेरफेर करने के लिए किया जा सकता है।
संचालन
भाषाओं पर विभिन्न संचालन हैं:
L और M दो भाषाओं के मिलन के रूप में लिखे गए हैं
LUM = {s | s, L में है या M} में है
दो भाषाओं L और M का संयोजन के रूप में लिखा गया है
एलएम = {सेंट | s, L में है और T M में है
एक भाषा एल के क्लेन क्लोजर के रूप में लिखा जाता है
एल * = भाषा की शून्य या अधिक घटना एल।
अंकन
यदि r और s नियमित रूप से L (r) और L (s) भाषाओं को दर्शाते हैं, तो
Union : (आर) | (एस) एल (एस) उल (एस) को दर्शाती एक नियमित अभिव्यक्ति है।
Concatenation : (आर) (एस) एल (एस) एल (एस) को दर्शाती एक नियमित अभिव्यक्ति है।
Kleene closure : (आर) * एक नियमित अभिव्यक्ति है जिसे दर्शाते हैं (एल (आर)) *
(आर) एल (आर) को दर्शाती एक नियमित अभिव्यक्ति है
वरीयता और संबद्धता
- *, संघ (?), और | (पाइप साइन) बाएं सहयोगी हैं
- * सबसे ज्यादा मिसाल है
- कॉनकैटैशन (?) की दूसरी सबसे बड़ी मिसाल है।
- | (पाइप साइन) सभी की सबसे कम पूर्वता है।
नियमित अभिव्यक्ति में किसी भाषा के मान्य टोकन का प्रतिनिधित्व करना
यदि x एक नियमित अभिव्यक्ति है, तो:
x * का अर्थ है शून्य या x की अधिक घटना।
अर्थात, यह {e, x, xx, xxx, xxxx,…} उत्पन्न कर सकता है
x + का अर्थ है x की एक या एक से अधिक घटना।
अर्थात, यह {x, xx, xxx, xxxx…} या xx * उत्पन्न कर सकता है
एक्स? एक्स की अधिकतम एक घटना का मतलब है
यानी, यह या तो {x} या {e} जेनरेट कर सकता है।
[az] अंग्रेजी भाषा के सभी लोअर-केस अक्षर हैं।
[AZ] अंग्रेजी भाषा के सभी ऊपरी मामले के अक्षर हैं।
[0-9] गणित में प्रयुक्त सभी प्राकृतिक अंक हैं।
नियमित अभिव्यक्तियों का उपयोग करते हुए प्रतीकों की घटना का प्रतिनिधित्व करना
अक्षर = [a - z] या [A - Z]
अंक = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 या [0-9]
चिन्ह = [+ | -]
नियमित अभिव्यक्तियों का उपयोग करते हुए भाषा के टोकन का प्रतिनिधित्व करना
दशांश = (संकेत) ? (अंक) +
पहचानकर्ता = (पत्र) (पत्र | अंक) *
लेक्सिकल एनालाइजर के साथ एकमात्र समस्या यह है कि किसी भाषा के कीवर्ड के पैटर्न को निर्दिष्ट करने में उपयोग की जाने वाली नियमित अभिव्यक्ति की वैधता को कैसे सत्यापित किया जाए। एक अच्छी तरह से स्वीकृत समाधान सत्यापन के लिए परिमित ऑटोमेटा का उपयोग करना है।
परिमित ऑटोमेटा
परिमित ऑटोमेटा एक राज्य मशीन है जो इनपुट के रूप में प्रतीकों की एक स्ट्रिंग लेती है और तदनुसार अपनी स्थिति बदलती है। परिमित ऑटोमेटा नियमित अभिव्यक्ति के लिए एक पहचानकर्ता है। जब एक नियमित अभिव्यक्ति स्ट्रिंग परिमित ऑटोमेटा में खिलाया जाता है, तो यह प्रत्येक शाब्दिक के लिए अपनी स्थिति बदलता है। यदि इनपुट स्ट्रिंग को सफलतापूर्वक संसाधित किया जाता है और ऑटोमेटा अपनी अंतिम स्थिति में पहुंच जाता है, तो इसे स्वीकार कर लिया जाता है, अर्थात, केवल फीड की गई स्ट्रिंग को हाथ में भाषा का वैध टोकन कहा जाता है।
परिमित ऑटोमेटा के गणितीय मॉडल में निम्न शामिल हैं:
- राज्यों का व्यापक सेट (Q)
- इनपुट प्रतीकों का परिमित सेट (symbols)
- एक प्रारंभ राज्य (q0)
- अंतिम राज्यों का सेट (qf)
- संक्रमण समारोह (ition)
संक्रमण फ़ंक्शन (transition) इनपुट प्रतीकों (×), Q ×, ➔ Q के एक निश्चित सेट के लिए राज्य (क्यू) के परिमित सेट को मैप करता है।
परिमित ऑटोमेटा निर्माण
L (r) कुछ परिमित ऑटोमेटा (FA) द्वारा मान्यता प्राप्त एक नियमित भाषा है।
States: एफए के राज्य हलकों द्वारा दर्शाए जाते हैं। राज्य के नाम मंडलियों के अंदर लिखे गए हैं।
Start state: वह राज्य जहां से ऑटोमेटा शुरू होता है, स्टार्ट स्टेट के रूप में जाना जाता है। स्टार्ट स्टेट के पास एक तीर है जो इसकी ओर इशारा करता है।
Intermediate states: सभी मध्यवर्ती राज्यों में कम से कम दो तीर होते हैं; एक ओर इशारा करता है और दूसरा उनसे इशारा करता है।
Final state: यदि इनपुट स्ट्रिंग को सफलतापूर्वक पार्स किया जाता है, तो ऑटोमेटा इस स्थिति में होने की उम्मीद है। अंतिम अवस्था को दोहरे वृत्तों द्वारा दर्शाया जाता है। इसकी ओर इशारा करते हुए किसी भी विषम संख्या में तीर हो सकते हैं और यहां तक कि इसे इंगित करने वाले तीरों की संख्या भी हो सकती है। विषम तीरों की संख्या एक से भी अधिक है, अर्थातodd = even+1।
Transition: एक राज्य से दूसरे राज्य में संक्रमण तब होता है जब इनपुट में एक वांछित प्रतीक पाया जाता है। संक्रमण होने पर, ऑटोमेटा या तो अगले राज्य में जा सकता है या उसी स्थिति में रह सकता है। एक राज्य से दूसरे में ले जाने के लिए निर्देशित तीर के रूप में दिखाया गया है, जहां तीर गंतव्य राज्य को इंगित करता है। यदि ऑटोमेटा एक ही स्थिति पर रहता है, तो एक राज्य से खुद को इंगित करने वाला एक तीर खींचा जाता है।
Example: हम मानते हैं कि एफए अंकों में समाप्त होने वाले किसी भी तीन अंकों के द्विआधारी मूल्य को स्वीकार करता है। एफए = {क्यू (क्यू 0 , क्यू एफ ), 1 (0,1), क्यू 0 , क्यू एफ , δ}
सबसे लंबा मैच नियम
जब लेक्सिकल विश्लेषक स्रोत-कोड को पढ़ता है, तो वह अक्षर द्वारा कोड पत्र को स्कैन करता है; और जब यह एक व्हाट्सएप, ऑपरेटर प्रतीक या विशेष प्रतीकों का सामना करता है, तो यह तय करता है कि एक शब्द पूरा हो गया है।
For example:
int intvalue;
दोनों लेक्सेस को 'int' तक स्कैन करते समय, लेक्सिकल एनालाइज़र यह निर्धारित नहीं कर सकता है कि यह एक कीवर्ड इंट या आइडेंटिफ़ायर इंट वैल्यू के शुरुआती अक्षर हैं या नहीं।
सबसे लंबे मैच के नियम में कहा गया है कि उपलब्ध सभी टोकन के बीच सबसे लंबे मैच के आधार पर स्कैन किए गए लेक्सेम को निर्धारित किया जाना चाहिए।
लेक्सिकल विश्लेषक भी इस प्रकार है rule priorityजहां उपयोगकर्ता के इनपुट पर एक आरक्षित शब्द, जैसे, एक भाषा, एक भाषा, को प्राथमिकता दी जाती है। यही है, यदि लेक्सिकल एनालाइज़र को किसी भी मौजूदा आरक्षित शब्द के साथ मेल खाता लेक्सेम मिलता है, तो उसे एक त्रुटि उत्पन्न करनी चाहिए।
सिंटेक्स विश्लेषण या पार्सिंग एक संकलक का दूसरा चरण है। इस अध्याय में, हम एक पार्सर के निर्माण में उपयोग की जाने वाली मूल अवधारणाओं को सीखेंगे।
हमने देखा है कि एक लेक्सिकल विश्लेषक नियमित अभिव्यक्ति और पैटर्न नियमों की मदद से टोकन की पहचान कर सकता है। लेकिन एक शाब्दिक विश्लेषक नियमित अभिव्यक्तियों की सीमाओं के कारण किसी दिए गए वाक्य के वाक्यविन्यास की जांच नहीं कर सकता है। नियमित अभिव्यक्ति कोष्ठक जैसे संतुलन टोकनों की जाँच नहीं कर सकते। इसलिए, यह चरण संदर्भ-मुक्त व्याकरण (सीएफजी) का उपयोग करता है, जिसे पुश-डाउन ऑटोमेटा द्वारा मान्यता प्राप्त है।
दूसरी ओर, सीएफजी, नियमित व्याकरण का एक सुपरसेट है, जैसा कि नीचे दर्शाया गया है:
तात्पर्य यह है कि प्रत्येक नियमित व्याकरण भी संदर्भ-मुक्त है, लेकिन कुछ समस्याएं मौजूद हैं, जो नियमित व्याकरण के दायरे से परे हैं। सीएफजी प्रोग्रामिंग भाषाओं के वाक्य विन्यास का वर्णन करने में एक सहायक उपकरण है।
प्रसंग-मुक्त व्याकरण
इस खंड में, हम पहले संदर्भ-मुक्त व्याकरण की परिभाषा देखेंगे और पार्सिंग तकनीक में प्रयुक्त शब्दावली का परिचय देंगे।
एक संदर्भ-मुक्त व्याकरण के चार घटक हैं:
का एक सेट non-terminals(वी)। गैर-टर्मिनल सिंटैक्टिक चर हैं जो तारों के सेट को दर्शाते हैं। गैर-टर्मिनल स्ट्रिंग्स के सेट को परिभाषित करते हैं जो व्याकरण द्वारा उत्पन्न भाषा को परिभाषित करने में मदद करते हैं।
टोकन का एक सेट, जिसे के रूप में जाना जाता है terminal symbols(Σ)। टर्मिनल मूल प्रतीक हैं जिनसे तार का निर्माण होता है।
का एक सेट productions(पी)। एक व्याकरण की प्रस्तुतियों में उस तरीके को निर्दिष्ट किया जाता है जिसमें टर्मिनलों और गैर-टर्मिनलों को तार बनाने के लिए जोड़ा जा सकता है। प्रत्येक उत्पादन में एक होते हैंnon-terminal उत्पादन के बाईं ओर कहा जाता है, एक तीर, और टोकन और / या का एक क्रम on- terminals, उत्पादन के दाईं ओर कहा जाता है।
गैर-टर्मिनलों में से एक को प्रारंभ प्रतीक (एस) के रूप में नामित किया गया है; जहां से उत्पादन शुरू होता है।
स्ट्रिंग्स को एक गैर-टर्मिनल के लिए बार-बार एक गैर-टर्मिनल (शुरू में प्रतीक) की जगह से शुरू किया जाता है, उस गैर-टर्मिनल के लिए।
उदाहरण
हम पैलेंड्रोम भाषा की समस्या को लेते हैं, जिसे नियमित अभिव्यक्ति के माध्यम से वर्णित नहीं किया जा सकता है। अर्थात, L = {w | w = w R } एक नियमित भाषा नहीं है। लेकिन इसे सीएफजी के माध्यम से वर्णित किया जा सकता है, जैसा कि नीचे सचित्र है:
G = ( V, Σ, P, S )
कहाँ पे:
V = { Q, Z, N }
Σ = { 0, 1 }
P = { Q → Z | Q → N | Q → ℇ | Z → 0Q0 | N → 1Q1 }
S = { Q }
इस व्याकरण में पैलेंड्रोम भाषा का वर्णन किया गया है, जैसे: 1001, 11100111, 00100, 1010101, 11111 इत्यादि।
सिंटेक्स एनालाइजर
एक सिंटैक्स विश्लेषक या पार्सर टोकन धाराओं के रूप में एक शाब्दिक विश्लेषक से इनपुट लेता है। पार्सर उत्पादन नियमों के खिलाफ कोड में किसी भी त्रुटि का पता लगाने के लिए स्रोत कोड (टोकन स्ट्रीम) का विश्लेषण करता है। इस चरण का आउटपुट ए हैparse tree।
इस तरह, पार्सर दो कार्यों को पूरा करता है, अर्थात, कोड को पार्स करना, त्रुटियों की तलाश करना और चरण के आउटपुट के रूप में पार्स ट्री का निर्माण करना।
प्रोग्राम में कुछ त्रुटियां होने पर भी पार्सर्स से पूरे कोड को पार्स करने की अपेक्षा की जाती है। पार्सर्स त्रुटि पुनर्प्राप्ति रणनीतियों का उपयोग करते हैं, जो हम इस अध्याय में बाद में सीखेंगे।
व्युत्पत्ति
इनपुट स्ट्रिंग प्राप्त करने के लिए व्युत्पत्ति मूल रूप से उत्पादन नियमों का एक क्रम है। पार्सिंग के दौरान, हम इनपुट के कुछ भावुक रूप के लिए दो निर्णय लेते हैं:
- गैर-टर्मिनल का निर्णय करना जो प्रतिस्थापित किया जाना है।
- उत्पादन नियम तय करना, जिसके द्वारा, गैर-टर्मिनल को बदल दिया जाएगा।
यह तय करने के लिए कि किस गैर-टर्मिनल को उत्पादन नियम से बदला जाए, हमारे पास दो विकल्प हो सकते हैं।
वाम-सर्वाधिक व्युत्पत्ति
यदि किसी इनपुट के प्रांतीय रूप को स्कैन किया जाता है और उसे बाएं से दाएं प्रतिस्थापित किया जाता है, तो इसे बाएं-सबसे व्युत्पत्ति कहा जाता है। बाएं-सबसे व्युत्पन्न द्वारा व्युत्पन्न भेजे जाने वाले रूप को बाएं-संवेदी रूप कहा जाता है।
सही-सबसे व्युत्पत्ति
यदि हम इनपुट को उत्पादन नियमों से स्कैन करते और प्रतिस्थापित करते हैं, तो दाएं से बाएं, इसे दाएं-बाएं व्युत्पत्ति के रूप में जाना जाता है। दायीं ओर के व्युत्पत्ति से प्राप्त भावुक रूप को दायें-भावुक रूप कहा जाता है।
Example
उत्पादन नियम:
E → E + E
E → E * E
E → id
इनपुट स्ट्रिंग: आईडी + आईडी * आईडी
सबसे बाईं ओर है:
E → E * E
E → E + E * E
E → id + E * E
E → id + id * E
E → id + id * id
ध्यान दें कि हमेशा बाईं ओर सबसे गैर-टर्मिनल को पहले संसाधित किया जाता है।
सबसे सही व्युत्पत्ति है:
E → E + E
E → E + E * E
E → E + E * id
E → E + id * id
E → id + id * id
पार्स ट्री
एक पार्स ट्री एक व्युत्पत्ति का चित्रमय चित्रण है। यह देखना सुविधाजनक है कि प्रारंभ के प्रतीक से तार कैसे निकाले जाते हैं। व्युत्पत्ति का प्रारंभ प्रतीक पार्स पेड़ की जड़ बन जाता है। इसे अंतिम विषय से एक उदाहरण द्वारा देखते हैं।
हम a + b * c के बायें-सबसे व्युत्पन्न लेते हैं
सबसे बाईं ओर है:
E → E * E
E → E + E * E
E → id + E * E
E → id + id * E
E → id + id * id
चरण 1:
ई → ई * ई |
|
चरण 2:
ई → ई + ई * ई |
|
चरण 3:
ई → ईद + ई * ई |
|
चरण 4:
ई → ईद + ईद * ई |
|
चरण 5:
ई → आईडी + आईडी * आईडी |
|
एक पेड़ में:
- सभी पत्ती नोड्स टर्मिनल हैं।
- सभी आंतरिक नोड गैर-टर्मिनल हैं।
- इन-ऑर्डर ट्रैवर्सल मूल इनपुट स्ट्रिंग देता है।
एक पार्स ट्री में सहकारिता और ऑपरेटरों की पूर्वता को दर्शाया गया है। सबसे गहरे उप-पेड़ को पहले ढोया जाता है, इसलिए उस उप-पेड़ में ऑपरेटर को उस ऑपरेटर पर वरीयता मिलती है जो मूल नोड्स में है।
पार्सिंग के प्रकार
सिंटैक्स एनालाइजर संदर्भ-मुक्त व्याकरण द्वारा परिभाषित उत्पादन नियमों का पालन करता है। जिस तरह से उत्पादन नियम लागू किए जाते हैं (व्युत्पत्ति) पार्सिंग को दो प्रकारों में विभाजित करता है: टॉप-डाउन पार्सिंग और बॉटम-अप पार्सिंग।
टॉप-डाउन पार्सिंग
जब पार्सर स्टार्ट सिंबल से पार्स ट्री का निर्माण शुरू करता है और फिर स्टार्ट सिंबल को इनपुट में बदलने की कोशिश करता है, तो इसे टॉप-डाउन पार्सिंग कहा जाता है।
Recursive descent parsing: यह टॉप-डाउन पार्सिंग का एक सामान्य रूप है। इसे पुनरावर्ती कहा जाता है क्योंकि यह इनपुट को संसाधित करने के लिए पुनरावर्ती प्रक्रियाओं का उपयोग करता है। पुनरावर्ती वंश पार्सिंग बैकट्रैकिंग से ग्रस्त है।
Backtracking: इसका मतलब है, यदि किसी उत्पादन की एक व्युत्पत्ति विफल होती है, तो सिंटैक्स विश्लेषक उसी उत्पादन के विभिन्न नियमों का उपयोग करके प्रक्रिया को फिर से शुरू करता है। यह तकनीक सही उत्पादन निर्धारित करने के लिए इनपुट स्ट्रिंग को एक से अधिक बार संसाधित कर सकती है।
नीचे-ऊपर पार्सिंग
जैसा कि नाम से पता चलता है, बॉटम-अप पार्सिंग इनपुट प्रतीकों के साथ शुरू होता है और पार्स ट्री को स्टार्ट सिंबल तक बनाने की कोशिश करता है।
Example:
इनपुट स्ट्रिंग: ए + बी * सी
उत्पादन नियम:
S → E
E → E + T
E → E * T
E → T
T → id
हमें नीचे-ऊपर पार्सिंग शुरू करते हैं
a + b * c
इनपुट पढ़ें और जांचें कि क्या कोई उत्पादन इनपुट के साथ मेल खाता है:
a + b * c
T + b * c
E + b * c
E + T * c
E * c
E * T
E
S
अस्पष्टता
एक व्याकरण G को अस्पष्ट कहा जाता है यदि उसके पास कम से कम एक स्ट्रिंग के लिए एक से अधिक पेड़ (बाएं या दाएं व्युत्पन्न) हैं।
Example
E → E + E
E → E – E
E → id
स्ट्रिंग आईडी + आईडी - आईडी के लिए, उपरोक्त व्याकरण दो पार्स पेड़ उत्पन्न करता है:
अस्पष्ट व्याकरण द्वारा उत्पन्न भाषा को कहा जाता है inherently ambiguous। व्याकरण में अस्पष्टता एक संकलक निर्माण के लिए अच्छा नहीं है। कोई भी विधि स्वचालित रूप से अस्पष्टता का पता नहीं लगा सकती है और हटा नहीं सकती है, लेकिन इसे अस्पष्टता के बिना पूरे व्याकरण को फिर से लिखकर, या संबद्धता और पूर्ववर्ती बाधाओं की स्थापना और पालन करके हटाया जा सकता है।
संबद्धता
यदि किसी ऑपरेटर के पास दोनों तरफ के ऑपरेटर होते हैं, तो ऑपरेटर जिस तरफ से इस ऑपरेटर को लेता है, उन ऑपरेटरों की संबद्धता का निर्णय लिया जाता है। यदि ऑपरेशन बाएं-एसोसिएटिव है, तो ऑपरेटर को बाएं ऑपरेटर द्वारा लिया जाएगा या यदि ऑपरेशन राइट-एसोसिएटिव है, तो सही ऑपरेटर ऑपरेंड ले जाएगा।
Example
जोड़, गुणा, घटाव, और विभाजन जैसे ऑपरेशन सहयोगी छोड़ दिए जाते हैं। यदि अभिव्यक्ति में शामिल हैं:
id op id op id
इसका मूल्यांकन इस प्रकार किया जाएगा:
(id op id) op id
उदाहरण के लिए, (आईडी + आईडी) + आईडी
घातांक जैसे ऑपरेशन सही सहयोगी हैं, अर्थात, एक ही अभिव्यक्ति में मूल्यांकन का क्रम निम्नानुसार होगा:
id op (id op id)
उदाहरण के लिए, आईडी ^ (आईडी ^ आईडी)
प्रधानता
यदि दो अलग-अलग ऑपरेटर एक आम ऑपरेटर साझा करते हैं, तो ऑपरेटरों की पूर्ववर्तीता तय करती है जो ऑपरेटर को ले जाएगा। अर्थात्, 2 + 3 * 4 में दो अलग-अलग पार्स पेड़ हो सकते हैं, जिनमें से एक (2 + 3) * 4 और दूसरा 2+ (3 * 4) के अनुरूप होता है। ऑपरेटरों के बीच पूर्वता स्थापित करके, इस समस्या को आसानी से दूर किया जा सकता है। जैसा कि पिछले उदाहरण में, गणितीय रूप से * (गुणन) में + (जोड़) पर पूर्ववर्तीता है, इसलिए 2 + 3 * 4 की अभिव्यक्ति हमेशा इस प्रकार होगी:
2 + (3 * 4)
इन विधियों से किसी भाषा या उसके व्याकरण में अस्पष्टता की संभावना कम हो जाती है।
लेफ्ट रिक्रिएशन
यदि कोई गैर-टर्मिनल 'ए' है, जिसके व्याकरण में 'ए' स्वयं के बाएं-सबसे प्रतीक के रूप में है, तो एक व्याकरण वाम-पुनरावर्ती हो जाता है। बाएं-पुनरावर्ती व्याकरण को टॉप-डाउन पार्सर के लिए एक समस्याग्रस्त स्थिति माना जाता है। टॉप-डाउन पर्सर्स स्टार्ट सिंबल से पार्स करना शुरू करते हैं, जो अपने आप में नॉन-टर्मिनल है। इसलिए, जब पार्सर अपनी व्युत्पत्ति में उसी गैर-टर्मिनल का सामना करता है, तो उसके लिए यह कठिन हो जाता है कि वह बाएं गैर-टर्मिनल को पार्स करना बंद करे और यह अनंत लूप में चला जाए।
Example:
(1) A => Aα | β
(2) S => Aα | β
A => Sd
(1) तत्काल बाईं पुनरावृत्ति का एक उदाहरण है, जहां ए किसी भी गैर-टर्मिनल प्रतीक है और α गैर-टर्मिनलों की एक स्ट्रिंग का प्रतिनिधित्व करता है।
(२) अप्रत्यक्ष-वाम पुनरावृत्ति का उदाहरण है।
एक टॉप-डाउन पार्सर पहले ए को पार्स करेगा, जो इन-टर्न में ए से मिलकर एक स्ट्रिंग प्राप्त करेगा और पार्सर हमेशा के लिए लूप में जा सकता है।
लेफ्ट रिकर्शन को हटाना
बाईं तकनीक को हटाने का एक तरीका निम्नलिखित तकनीक का उपयोग करना है:
उत्पादन
A => Aα | β
निम्नलिखित प्रस्तुतियों में परिवर्तित हो जाता है
A => βA’
A => αA’ | ε
यह व्याकरण से प्राप्त तारों पर प्रभाव नहीं डालता है, लेकिन यह तत्काल बाईं पुनरावृत्ति को हटा देता है।
दूसरी विधि निम्नलिखित एल्गोरिथ्म का उपयोग करना है, जो सभी प्रत्यक्ष और अप्रत्यक्ष बाईं पुनरावृत्तियों को समाप्त करना चाहिए।
Algorithm
START
Arrange non-terminals in some order like A1, A2, A3,…, An
for each i from 1 to n
{
for each j from 1 to i-1
{
replace each production of form Ai⟹Aj
with Ai ⟹ δ1 | δ2 | δ3 |…|
where Aj ⟹ δ1 | δ2|…| δn are current Aj productions
}
}
eliminate immediate left-recursion
END
Example
उत्पादन सेट
S => Aα | β
A => Sd
उपरोक्त एल्गोरिथ्म को लागू करने के बाद, बनना चाहिए
S => Aα | β
A => Aαd | βd
और फिर, पहली तकनीक का उपयोग करके तत्काल बाईं पुनरावृत्ति को हटा दें।
A => βdA’
A => αdA’ | ε
अब किसी भी उत्पादन में प्रत्यक्ष या अप्रत्यक्ष रूप से वाम पुनरावृत्ति नहीं हुई है।
लेफ्ट फैक्टरिंग
यदि एक से अधिक व्याकरण उत्पादन नियमों में एक सामान्य उपसर्ग स्ट्रिंग है, तो टॉप-डाउन पार्सर एक विकल्प नहीं बना सकता है कि किस उत्पादन को हाथ में स्ट्रिंग को पार्स करने के लिए लिया जाना चाहिए।
Example
यदि एक टॉप-डाउन पार्सर एक उत्पादन की तरह सामना करता है
A ⟹ αβ | α | …
फिर यह निर्धारित नहीं किया जा सकता है कि स्ट्रिंग को पार्स करने के लिए किस उत्पादन का पालन करना है क्योंकि दोनों प्रोडक्शंस एक ही टर्मिनल (या गैर-टर्मिनल) से शुरू हो रहे हैं। इस भ्रम को दूर करने के लिए, हम एक तकनीक का उपयोग करते हैं जिसे लेफ्ट फैक्टरिंग कहा जाता है।
लेफ्ट फैक्टरिंग व्याकरण को शीर्ष-डाउन पार्सर के लिए उपयोगी बनाता है। इस तकनीक में, हम प्रत्येक सामान्य उपसर्गों के लिए एक उत्पादन करते हैं और बाकी की व्युत्पत्ति नई प्रस्तुतियों द्वारा जोड़ी जाती है।
Example
उपरोक्त प्रस्तुतियों के रूप में लिखा जा सकता है
A => αA’
A’=> β | | …
अब पार्सर में प्रति उपसर्ग केवल एक ही उत्पादन होता है जिससे निर्णय लेना आसान हो जाता है।
पहला और सेट का पालन करें
पार्सर टेबल निर्माण का एक महत्वपूर्ण हिस्सा पहले सेट बनाना और सेट का पालन करना है। ये सेट व्युत्पत्ति में किसी भी टर्मिनल की वास्तविक स्थिति प्रदान कर सकते हैं। यह पार्सिंग टेबल बनाने के लिए किया जाता है जहां कुछ उत्पादन नियम के साथ T [A, t] = α को बदलने का निर्णय लिया जाता है।
आग का सेट
यह सेट यह जानने के लिए बनाया गया है कि किसी गैर-टर्मिनल द्वारा पहली स्थिति में किस टर्मिनल चिन्ह को निकाला जाता है। उदाहरण के लिए,
α → t β
यह α व्युत्पन्न t (टर्मिनल) है जो पहले स्थान पर है। तो, ∈ FIRST (α)।
पहले सेट की गणना के लिए एल्गोरिदम
FIRST (α) सेट की परिभाषा देखें:
- यदि α एक टर्मिनल है, तो FIRST (α) = {α}।
- यदि α एक गैर-टर्मिनल है और α → a एक उत्पादन है, तो FIRST (α) = {।}।
- यदि α एक गैर-टर्मिनल है और α → 1 2 3 ... n और किसी भी FIRST () में t है तो t FIRST (α) में है।
पहले सेट के रूप में देखा जा सकता है: FIRST (α) = {t | α → * t ∪} ∪ {। | α → * ε}
सेट का पालन करें
इसी तरह, हम गणना करते हैं कि उत्पादन नियमों में कौन सा टर्मिनल प्रतीक तुरंत गैर-टर्मिनल α का अनुसरण करता है। हम यह नहीं मानते हैं कि गैर-टर्मिनल क्या उत्पन्न कर सकता है, लेकिन इसके बजाय, हम देखते हैं कि अगला टर्मिनल प्रतीक क्या होगा जो एक गैर-टर्मिनल के निर्माण का अनुसरण करता है।
फॉलो सेट की गणना के लिए एल्गोरिदम:
यदि α एक आरंभिक प्रतीक है, तो FOLLOW () = $
यदि α एक गैर-टर्मिनल है और इसका उत्पादन α → AB है, तो FIRST (B) L को छोड़कर FOLLOW (A) में है।
यदि α एक गैर-टर्मिनल है और इसका उत्पादन α → AB है, जहां B non है, तो FOLLOW (A) FOLLOW (α) में है।
फॉलो सेट को इस प्रकार देखा जा सकता है: FOLLOW (α) = {t | एस * αt *}
त्रुटि-पुनर्प्राप्ति रणनीतियाँ
एक पार्सर कार्यक्रम में किसी भी त्रुटि का पता लगाने और रिपोर्ट करने में सक्षम होना चाहिए। यह उम्मीद की जाती है कि जब कोई त्रुटि सामने आती है, तो पार्सर को इसे संभालने में सक्षम होना चाहिए और बाकी इनपुट को पार्स करना चाहिए। अधिकतर यह अपेक्षा की जाती है कि पार्सर से त्रुटियों की जाँच की जा सकती है लेकिन संकलन प्रक्रिया के विभिन्न चरणों में त्रुटियों का सामना किया जा सकता है। एक कार्यक्रम में विभिन्न चरणों में निम्न प्रकार की त्रुटियां हो सकती हैं:
Lexical : गलत तरीके से टाइप किए गए कुछ पहचानकर्ता का नाम
Syntactical : लापता अर्धविराम या असंतुलित कोष्ठक
Semantical : असंगत मूल्य असाइनमेंट
Logical : कोड उपलब्ध नहीं है, अनंत लूप
कोड में त्रुटियों से निपटने के लिए चार सामान्य त्रुटि-पुनर्प्राप्ति रणनीतियाँ हैं जिन्हें पार्सर में लागू किया जा सकता है।
पैनिक मोड
जब एक पार्सर बयान में कहीं भी एक त्रुटि का सामना करता है, तो यह गलत इनपुट से डेलिमिटर तक इनपुट को संसाधित न करके शेष विवरण को अनदेखा करता है, जैसे अर्ध-बृहदान्त्र। यह त्रुटि-पुनर्प्राप्ति का सबसे आसान तरीका है और इसके अलावा, यह पार्सर को अनंत छोरों को विकसित करने से रोकता है।
स्टेटमेंट मोड
जब एक पार्सर एक त्रुटि का सामना करता है, तो यह सुधारात्मक उपाय करने की कोशिश करता है ताकि बयान के बाकी इनपुट पार्सर को आगे पार्स करने की अनुमति दें। उदाहरण के लिए, एक लापता अर्धविराम सम्मिलित करना, अर्धविराम आदि के साथ अल्पविराम को प्रतिस्थापित करना। पार्सर डिजाइनरों को यहां सावधान रहना होगा क्योंकि एक गलत सुधार से अनंत लूप हो सकता है।
त्रुटि प्रोडक्शंस
कुछ सामान्य त्रुटियाँ कंपाइलर डिजाइनरों के लिए जानी जाती हैं जो कोड में हो सकती हैं। इसके अलावा, डिजाइनर उपयोग किए जाने के लिए संवर्धित व्याकरण बना सकते हैं, क्योंकि इन त्रुटियों का सामना करने पर गलत निर्माण करने वाले प्रोडक्शंस।
वैश्विक सुधार
पार्सर कार्यक्रम को पूरी तरह से हाथ में मानता है और यह पता लगाने की कोशिश करता है कि कार्यक्रम क्या करने का इरादा है और इसके लिए एक निकटतम मैच का पता लगाने की कोशिश करता है, जो त्रुटि रहित है। जब एक गलत इनपुट (स्टेटमेंट) X को फीड किया जाता है, तो यह कुछ निकटतम त्रुटि-मुक्त स्टेटमेंट Y के लिए एक पार्स ट्री बनाता है। इससे पार्सर को सोर्स कोड में न्यूनतम परिवर्तन करने की अनुमति मिल सकती है, लेकिन जटिलता (समय और स्थान) के कारण यह रणनीति, इसे अभी तक लागू नहीं किया गया है।
सार सिंटेक्स ट्री
पार्स ट्री अभ्यावेदन को संकलक द्वारा पार्स किया जाना आसान नहीं है, क्योंकि उनमें वास्तव में आवश्यकता से अधिक विवरण होते हैं। एक उदाहरण के रूप में निम्नलिखित पार्स ट्री लें:
अगर बारीकी से देखा जाए, तो हम पाते हैं कि ज्यादातर पत्ता नोड्स अपने माता-पिता के लिए एकल बच्चे हैं। अगले चरण में खिलाने से पहले इस जानकारी को समाप्त किया जा सकता है। अतिरिक्त जानकारी छिपाकर, हम नीचे दिखाए गए अनुसार एक पेड़ प्राप्त कर सकते हैं:
सार पेड़ का प्रतिनिधित्व किया जा सकता है:
एएसटी एक संकलक में महत्वपूर्ण डेटा संरचनाएं हैं जिनमें कम से कम अनावश्यक जानकारी होती है। एएसटी एक पार्स पेड़ की तुलना में अधिक कॉम्पैक्ट हैं और एक संकलक द्वारा आसानी से उपयोग किया जा सकता है।
सिंटेक्स एनालाइजर की सीमाएं
सिंटैक्स एनालाइजर अपने इनपुट्स को टोकन के रूप में, लेक्सिकल एनालिसिसर्स से प्राप्त करते हैं। सिंटैक्स विश्लेषक द्वारा आपूर्ति की गई टोकन की वैधता के लिए लेक्सिकल विश्लेषक जिम्मेदार हैं। सिंटैक्स एनालाइज़र में निम्न कमियाँ हैं:
- यह निर्धारित नहीं किया जा सकता है कि टोकन वैध है,
- यह निर्धारित नहीं किया जा सकता है कि उपयोग किए जाने से पहले एक टोकन घोषित किया गया है,
- यह निर्धारित नहीं किया जा सकता है कि उपयोग किए जाने से पहले एक टोकन आरंभीकृत है,
- यह निर्धारित नहीं कर सकता है कि टोकन प्रकार पर किया गया कोई ऑपरेशन वैध है या नहीं।
इन कार्यों को सिमेंटिक एनालाइज़र द्वारा पूरा किया जाता है, जिसे हम सिमेंटिक एनालिसिस में अध्ययन करेंगे।
हमने सीखा है कि कैसे एक पार्सर वाक्यविन्यास विश्लेषण चरण में पार्स पेड़ों का निर्माण करता है। उस चरण में निर्मित सादे पार्स-ट्री का आमतौर पर एक संकलक के लिए कोई उपयोग नहीं होता है, क्योंकि यह पेड़ का मूल्यांकन करने के बारे में कोई जानकारी नहीं रखता है। संदर्भ-मुक्त व्याकरण की प्रस्तुतियों, जो भाषा के नियम बनाती हैं, उन्हें समायोजित नहीं करती हैं कि उनकी व्याख्या कैसे करें।
उदाहरण के लिए
E → E + T
उपरोक्त सीएफजी उत्पादन में इसके साथ कोई अर्थ नियम नहीं है, और यह उत्पादन के किसी भी अर्थ को बनाने में मदद नहीं कर सकता है।
अर्थ विज्ञान
भाषा के शब्दार्थ इसके निर्माणों को अर्थ प्रदान करते हैं, जैसे टोकन और वाक्य रचना। शब्दार्थ, प्रतीकों, उनके प्रकारों और एक दूसरे के साथ उनके संबंधों की व्याख्या करने में मदद करते हैं। सिमेंटिक विश्लेषण से पता चलता है कि स्रोत कार्यक्रम में निर्मित वाक्यविन्यास संरचना किसी भी अर्थ को प्राप्त करती है या नहीं।
CFG + semantic rules = Syntax Directed Definitions
उदाहरण के लिए:
int a = “value”;
लेक्सिकल और सिंटैक्स विश्लेषण चरण में त्रुटि जारी नहीं करनी चाहिए, क्योंकि यह लेक्सिक और संरचनात्मक रूप से सही है, लेकिन इसे एक शब्दार्थक त्रुटि उत्पन्न करनी चाहिए क्योंकि असाइनमेंट का प्रकार भिन्न होता है। इन नियमों को भाषा के व्याकरण द्वारा निर्धारित किया जाता है और अर्थ विश्लेषण में मूल्यांकन किया जाता है। निम्नलिखित कार्यों को शब्दार्थ विश्लेषण में किया जाना चाहिए:
- घेरा संकल्प
- प्रकार की जाँच
- एरे-बाउंड चेकिंग
शब्दार्थ त्रुटियाँ
हमने कुछ शब्दार्थ त्रुटियों का उल्लेख किया है जो अर्थ विश्लेषक को पहचानने की उम्मीद है:
- बेमेल टाइप
- अघोषित चर
- आरक्षित पहचानकर्ता दुरुपयोग।
- एक दायरे में चर की एकाधिक घोषणा।
- स्कोप वैरिएबल को एक्सेस करना।
- वास्तविक और औपचारिक पैरामीटर बेमेल।
व्याकरण की विशेषता
व्याकरण का संदर्भ संदर्भ-मुक्त व्याकरण का एक विशेष रूप है जहाँ संदर्भ-संवेदनशील जानकारी प्रदान करने के लिए कुछ अतिरिक्त जानकारी (विशेषताएँ) को इसके एक या अधिक गैर-टर्मिनलों से जोड़ा जाता है। प्रत्येक विशेषता में मानों का अच्छी तरह से परिभाषित डोमेन होता है, जैसे पूर्णांक, फ्लोट, चरित्र, स्ट्रिंग और भाव।
व्याकरण को प्रस्तुत करना संदर्भ-मुक्त व्याकरण को शब्दार्थ प्रदान करने का एक माध्यम है और यह एक प्रोग्रामिंग भाषा के वाक्यविन्यास और शब्दार्थ को निर्दिष्ट करने में मदद कर सकता है। व्याकरण की विशेषता (जब एक पार्स-ट्री के रूप में देखा जाता है) एक पेड़ के नोड्स के बीच मूल्यों या जानकारी को पारित कर सकता है।
Example:
E → E + T { E.value = E.value + T.value }
सीएफजी के दाहिने हिस्से में सिमेंटिक नियम शामिल हैं जो निर्दिष्ट करते हैं कि व्याकरण की व्याख्या कैसे की जानी चाहिए। यहां, गैर-टर्मिनलों ई और टी के मूल्यों को एक साथ जोड़ा जाता है और परिणाम गैर-टर्मिनल ई पर कॉपी किया जाता है।
असाइनमेंट या शर्तों के समय मूल्यांकन के समय अपने डोमेन से अपने मूल्यों को सिमेंटिक विशेषताओं को सौंपा जा सकता है। विशेषताओं को उनके मूल्यों को प्राप्त करने के तरीके के आधार पर, उन्हें मोटे तौर पर दो श्रेणियों में विभाजित किया जा सकता है: संश्लेषित विशेषताएँ और विरासत में मिली विशेषताएँ।
संश्लेषित गुण
इन विशेषताओं को उनके बाल नोड्स के गुण मानों से मान मिलता है। वर्णन करने के लिए, निम्नलिखित उत्पादन मानें:
S → ABC
यदि S अपने चाइल्ड नोड्स (A, B, C) से मान ले रहा है, तो इसे संश्लेषित विशेषता कहा जाता है, क्योंकि ABC के मान को S से संश्लेषित किया जाता है।
जैसा कि हमारे पिछले उदाहरण (E → E + T) में है, मूल नोड E अपने बच्चे के नोड से इसका मान प्राप्त करता है। सिंथेटाइज़्ड विशेषताएँ कभी भी अपने मूल नोड्स या किसी भाई-बहन के नोड्स से मान नहीं लेती हैं।
निहित विशेषताएं
संश्लेषित विशेषताओं के विपरीत, विरासत में मिली विशेषताएँ माता-पिता और / या भाई-बहनों से मान ले सकती हैं। निम्नलिखित उत्पादन में,
S → ABC
A, S, B और C. से मान प्राप्त कर सकता है। B, S, A और C से मान ले सकता है। इसी तरह C, S, A और B से मान ले सकता है।
Expansion : जब एक गैर-टर्मिनल को व्याकरणिक नियम के अनुसार टर्मिनलों तक विस्तारित किया जाता है
Reduction: जब व्याकरण के नियमों के अनुसार एक टर्मिनल को उसके संबंधित गैर-टर्मिनल तक घटा दिया जाता है। सिंटेक्स के पेड़ों को ऊपर-नीचे और बाएं से दाएं पर रखा जाता है। जब भी कमी होती है, हम इसके संबंधित शब्दार्थ नियम (क्रिया) लागू करते हैं।
उपर्युक्त कार्यों को करने के लिए शब्दार्थ विश्लेषण Syntax Directed Translations का उपयोग करता है।
सिमेंटिक विश्लेषक अपने पिछले चरण (सिंटैक्स विश्लेषण) से एएसटी (एब्सट्रैक्ट सिंटैक्स ट्री) प्राप्त करता है।
सिमेंटिक विश्लेषक एएसटी के साथ विशेषता जानकारी देता है, जिसे एट्रिब्यूटेड एएसटी कहा जाता है।
विशेषताएँ दो टुपल मूल्य हैं, <विशेषता नाम, विशेषता मान>
उदाहरण के लिए:
int value = 5;
<type, “integer”>
<presentvalue, “5”>
हर उत्पादन के लिए, हम एक शब्दार्थ नियम देते हैं।
एस-जिम्मेदार एसडीटी
यदि एक एसडीटी केवल संश्लेषित विशेषताओं का उपयोग करता है, तो इसे एस-अधिकृत एसडीटी कहा जाता है। इन विशेषताओं का मूल्यांकन एस-एट्रैक्टेड एसडीटी के उपयोग से किया जाता है जिसमें उत्पादन (दाएं हाथ की ओर) के बाद उनकी अर्थ संबंधी क्रियाएं होती हैं।
जैसा कि ऊपर दर्शाया गया है, एस-एट्रैस्ड एसडीटी में विशेषताओं का मूल्यांकन नीचे-अप पार्सिंग में किया जाता है, क्योंकि मूल नोड्स के मूल्य बच्चे के नोड्स के मूल्यों पर निर्भर करते हैं।
एल-जिम्मेदार एसडीटी
एसडीटी का यह रूप सही भाई-बहनों से मान न लेने के प्रतिबंध के साथ संश्लेषित और विरासत में मिली विशेषताओं दोनों का उपयोग करता है।
एल-एसटीडी एसडीएस में, एक गैर-टर्मिनल अपने माता-पिता, बच्चे और भाई-बहन के नोड्स से मूल्य प्राप्त कर सकता है। जैसा कि निम्नलिखित उत्पादन में है
S → ABC
S A, B, और C (संश्लेषित) से मान ले सकता है। A केवल S से मान ले सकता है। B, S और A से मान ले सकता है। C, S, A और B से मान प्राप्त कर सकता है। कोई भी गैर-टर्मिनल सिबलिंग से अपने दाईं ओर मान प्राप्त नहीं कर सकता।
एल-एट्रिब्यूटेड एसडीटी में विशेषताओं का मूल्यांकन गहराई-पहले और बाएं से दाएं पार्सिंग तरीके से किया जाता है।
हम यह निष्कर्ष निकाल सकते हैं कि यदि कोई परिभाषा एस-एट्रिब्यूटेड है, तो यह एल-एट्रिब्यूटेड भी है, क्योंकि एल-एट्रिब्यूटेड डेफिनिशन एस-एटेंडेड परिभाषाओं को जोड़ता है।
पिछले अध्याय में, हमने पार्सिंग में शामिल बुनियादी अवधारणाओं को समझा। इस अध्याय में, हम विभिन्न प्रकार के पार्सर निर्माण विधियों के बारे में जानेंगे।
पार्स-ट्री के निर्माण के आधार पर पार्सिंग को टॉप-डाउन या बॉटम-अप के रूप में परिभाषित किया जा सकता है।
टॉप-डाउन पार्सिंग
हमने पिछले अध्याय में सीखा है कि टॉप-डाउन पार्सिंग तकनीक इनपुट को पार्स करती है, और रूट नोड से पार्स ट्री का निर्माण शुरू करती है जो धीरे-धीरे पत्ती के नोड्स तक नीचे जाती है। ऊपर-नीचे पार्सिंग के प्रकारों को नीचे दर्शाया गया है:
पुनरावर्ती वंश परासन
रिकर्सिव डिसेंट एक टॉप-डाउन पार्सिंग तकनीक है जो ऊपर से पार्स ट्री का निर्माण करती है और इनपुट को बाएं से दाएं पढ़ा जाता है। यह हर टर्मिनल और गैर-टर्मिनल इकाई के लिए प्रक्रियाओं का उपयोग करता है। यह पार्सिंग तकनीक पुन: पार्स ट्री बनाने के लिए इनपुट को पार्स करती है, जिसे बैक-ट्रैकिंग की आवश्यकता हो सकती है या नहीं। लेकिन इससे जुड़ा व्याकरण (यदि तथ्य नहीं छोड़ा गया तो) बैक-ट्रैकिंग से बच नहीं सकता। पुनरावर्ती-वंशीय पार्सिंग का एक रूप जिसे किसी भी बैक-ट्रैकिंग की आवश्यकता नहीं होती है, के रूप में जाना जाता हैpredictive parsing।
पार्सिंग तकनीक को पुनरावर्ती माना जाता है क्योंकि यह संदर्भ-मुक्त व्याकरण का उपयोग करता है जो प्रकृति में पुनरावर्ती है।
वापस ट्रैकिंग
टॉप-डाउन पार्सर रूट नोड (प्रारंभ प्रतीक) से शुरू होते हैं और उन्हें बदलने के लिए उत्पादन नियमों के खिलाफ इनपुट स्ट्रिंग से मेल खाते हैं (यदि मिलान किया गया है)। इसे समझने के लिए, CFG का निम्नलिखित उदाहरण लें:
S → rXd | rZd
X → oa | ea
Z → ai
इनपुट स्ट्रिंग के लिए: पढ़ें, एक टॉप-डाउन पार्सर, इस तरह का व्यवहार करेगा:
यह उत्पादन नियमों से S से शुरू होगा और इनपुट के बाएं-सबसे अक्षर यानी 'r' से इसकी उपज का मिलान करेगा। एस (एस → आरएक्सडी) का बहुत उत्पादन इसके साथ मेल खाता है। तो अगले इनपुट पत्र (यानी 'ई') के लिए ऊपर-नीचे पार्सर अग्रिम। पार्सर गैर-टर्मिनल 'एक्स' का विस्तार करने की कोशिश करता है और इसके उत्पादन को बाएं (एक्स → ओए) से जांचता है। यह अगले इनपुट प्रतीक के साथ मेल नहीं खाता है। तो एक्स के अगले उत्पादन नियम, (एक्स → ईआर) को प्राप्त करने के लिए टॉप-डाउन पार्सर बैकट्रैक।
अब पार्सर सभी इनपुट अक्षरों को एक क्रमबद्ध तरीके से मिलाता है। स्ट्रिंग को स्वीकार किया जाता है।
|
|
|
|
भविष्य कहनेवाला
प्रेडिक्टिव पार्सर एक पुनरावर्ती डीसेंट पार्सर है, जिसमें यह अनुमान लगाने की क्षमता है कि इनपुट स्ट्रिंग को बदलने के लिए किस उत्पादन का उपयोग किया जाना है। भविष्य कहनेवाला पार्सर बैकट्रैकिंग से ग्रस्त नहीं है।
अपने कार्यों को पूरा करने के लिए, भविष्य कहनेवाला पार्सर एक लुक-फॉरवर्ड पॉइंटर का उपयोग करता है, जो अगले इनपुट प्रतीकों की ओर इशारा करता है। पार्सर को वापस-ट्रैकिंग मुक्त बनाने के लिए, भविष्य कहनेवाला पार्सर व्याकरण पर कुछ अड़चन डालता है और केवल व्याकरण के एक वर्ग को एलएल (के) व्याकरण के रूप में जाना जाता है।
प्रिडिक्टिव पार्सिंग इनपुट को पार्स करने और पार्स ट्री जनरेट करने के लिए स्टैक और पार्सिंग टेबल का उपयोग करता है। स्टैक और इनपुट दोनों में एक अंतिम प्रतीक होता है$यह बताने के लिए कि स्टैक खाली है और इनपुट का उपभोग किया जाता है। पार्सर इनपुट और स्टैक तत्व संयोजन पर कोई निर्णय लेने के लिए पार्सिंग टेबल को संदर्भित करता है।
पुनरावर्ती वंशीय पार्सिंग में, पार्सर के पास इनपुट के एक ही उदाहरण के लिए चुनने के लिए एक से अधिक उत्पादन हो सकते हैं, जबकि भविष्य कहनेवाला पार्सर में, चुनने के लिए प्रत्येक चरण में अधिकतम एक उत्पादन होता है। ऐसे उदाहरण हो सकते हैं जहां इनपुट स्ट्रिंग से मेल खाते कोई उत्पादन नहीं है, जिससे पार्सिंग प्रक्रिया विफल हो जाती है।
एलएल पार्सर
एक LL पार्सर LL व्याकरण को स्वीकार करता है। LL व्याकरण संदर्भ-मुक्त व्याकरण का एक सबसेट है, लेकिन सरल कार्यान्वयन प्राप्त करने के लिए सरलीकृत संस्करण प्राप्त करने के लिए कुछ प्रतिबंधों के साथ। LL व्याकरण दोनों एल्गोरिदम अर्थात् पुनरावर्ती-वंश या तालिका-चालित के माध्यम से कार्यान्वित किया जा सकता है।
LL पार्सर को LL (k) के रूप में निरूपित किया जाता है। एलएल (के) में पहला एल बाएं से दाएं इनपुट को पार्स कर रहा है, एलएल (के) में दूसरा एल बाईं ओर सबसे अधिक व्युत्पत्ति के लिए खड़ा है और के खुद लुक की संख्या का प्रतिनिधित्व करता है। आम तौर पर k = 1, इसलिए LL (k) को LL (1) के रूप में भी लिखा जा सकता है।
एलएल पार्सिंग एल्गोरिथम
हम पार्सर स्पष्टीकरण के लिए नियतांक एलएल (1) से चिपक सकते हैं, क्योंकि तालिका का आकार कश्मीर के मूल्य के साथ तेजी से बढ़ता है। दूसरे, यदि कोई दिया गया व्याकरण LL (1) नहीं है, तो आमतौर पर, यह किसी दिए गए k के लिए LL (k) नहीं है।
नीचे एलएल (1) पार्सिंग के लिए एक एल्गोरिदम दिया गया है:
Input:
string ω
parsing table M for grammar G
Output:
If ω is in L(G) then left-most derivation of ω,
error otherwise.
Initial State : $S on stack (with S being start symbol) ω$ in the input buffer
SET ip to point the first symbol of ω$.
repeat
let X be the top stack symbol and a the symbol pointed by ip.
if X∈ Vt or $
if X = a
POP X and advance ip.
else
error()
endif
else /* X is non-terminal */
if M[X,a] = X → Y1, Y2,... Yk
POP X
PUSH Yk, Yk-1,... Y1 /* Y1 on top */
Output the production X → Y1, Y2,... Yk
else
error()
endif
endif
until X = $ /* empty stack */
एक व्याकरण G, LL (1) है यदि A-> अल्फा | b, G की दो अलग-अलग प्रोडक्शंस हैं:
कोई टर्मिनल के लिए, दोनों अल्फा और बीटा व्युत्पन्न तार एक के साथ शुरुआत।
अल्फा और बीटा में से अधिकांश खाली स्ट्रिंग प्राप्त कर सकते हैं।
यदि बीटा => टी, तो अल्फा FOLLOW (A) में टर्मिनल के साथ किसी भी स्ट्रिंग की शुरुआत नहीं करता है।
नीचे-ऊपर पार्सिंग
बॉटम-अप पार्सिंग एक पेड़ के पत्ती नोड्स से शुरू होता है और जड़ नोड तक पहुंचने तक ऊपर की दिशा में काम करता है। यहां, हम एक वाक्य से शुरू करते हैं और फिर उत्पादन प्रतीकों को उल्टे तरीके से लागू करते हैं ताकि प्रारंभ प्रतीक तक पहुंच सकें। नीचे दी गई छवि नीचे उपलब्ध पार्सर्स को दर्शाती है।
पारी को कम करना
शिफ्ट-कम पार्सिंग नीचे-अप पार्सिंग के लिए दो अद्वितीय चरणों का उपयोग करता है। इन चरणों को शिफ्ट-स्टेप और कम-स्टेप के रूप में जाना जाता है।
Shift step: पारी कदम अगले इनपुट प्रतीक को इनपुट पॉइंटर की उन्नति को संदर्भित करता है, जिसे स्थानांतरित प्रतीक कहा जाता है। यह प्रतीक स्टैक पर धकेल दिया जाता है। शिफ्ट किए गए प्रतीक को पार्स ट्री के एकल नोड के रूप में माना जाता है।
Reduce step: जब पार्सर एक पूर्ण व्याकरण नियम (आरएचएस) पाता है और इसे (एलएचएस) की जगह देता है, तो इसे कम-चरण के रूप में जाना जाता है। यह तब होता है जब स्टैक के शीर्ष में एक हैंडल होता है। कम करने के लिए, एक पीओपी फ़ंक्शन स्टैक पर किया जाता है जो हैंडल को बंद कर देता है और इसे एलएचएस गैर-टर्मिनल प्रतीक के साथ बदल देता है।
LR पार्सर
LR पार्सर एक गैर-पुनरावर्ती, शिफ्ट-कम, बॉटम-अप पार्सर है। यह संदर्भ-मुक्त व्याकरण की एक विस्तृत श्रेणी का उपयोग करता है जो इसे सबसे कुशल वाक्यविन्यास विश्लेषण तकनीक बनाता है। LR पार्सर्स को LR (k) पार्सर के रूप में भी जाना जाता है, जहां L इनपुट स्ट्रीम के बाएं से दाएं स्कैनिंग के लिए खड़ा है; आर, रिवर्स में सबसे अधिक व्युत्पत्ति के निर्माण के लिए खड़ा है, और कश्मीर निर्णय लेने के लिए लुकहेड प्रतीकों की संख्या को दर्शाता है।
LR पार्सर के निर्माण के लिए तीन व्यापक रूप से उपयोग किए गए एल्गोरिदम उपलब्ध हैं:
- एसएलआर (1) - सरल एलआर पार्सर:
- व्याकरण के सबसे छोटे वर्ग पर काम करता है
- कुछ राज्यों की संख्या, इसलिए बहुत छोटी तालिका
- सरल और तेज निर्माण
- LR (1) - LR पार्सर:
- LR (1) व्याकरण के पूर्ण सेट पर काम करता है
- बड़ी तालिका और बड़ी संख्या में राज्य बनाता है
- धीमी गति से निर्माण
- LALR (1) - देखो-आगे LR पार्सर:
- व्याकरण के मध्यवर्ती आकार पर काम करता है
- राज्यों की संख्या SLR (1) के समान है
एलआर पार्सिंग एल्गोरिथम
यहाँ हम एक LR पार्सर के कंकाल एल्गोरिथ्म का वर्णन करते हैं:
token = next_token()
repeat forever
s = top of stack
if action[s, token] = “shift si” then
PUSH token
PUSH si
token = next_token()
else if action[s, tpken] = “reduce A::= β“ then
POP 2 * |β| symbols
s = top of stack
PUSH A
PUSH goto[s,A]
else if action[s, token] = “accept” then
return
else
error()
एलएल बनाम एलआर
डालूँगा | एलआर |
---|---|
बायीं ओर व्युत्पत्ति करता है। | रिवर्स में एक सही व्युत्पत्ति करता है। |
स्टैक पर रूट नॉनटर्मिनल से शुरू होता है। | स्टैक पर रूट नॉनटर्मिनल के साथ समाप्त होता है। |
समाप्त होता है जब स्टैक खाली होता है। | एक खाली ढेर के साथ शुरू होता है। |
अभी भी अपेक्षित होने के लिए स्टैक का उपयोग करने के लिए। | जो पहले से ही देखा गया है उसे नामित करने के लिए स्टैक का उपयोग करता है। |
पार्स ट्री को ऊपर-नीचे बनाता है। | पार्स ट्री को बॉटम-अप बनाता है। |
स्टैक से लगातार एक नॉनटर्मिनल पॉप करता है, और इसी दाहिने हाथ की तरफ धक्का देता है। | स्टैक पर एक दाहिने हाथ की ओर पहचानने की कोशिश करता है, इसे पॉप करता है, और इसी नॉनटर्मिनल को धक्का देता है। |
गैर-टर्मिनलों का विस्तार करता है। | गैर-टर्मिनलों को कम कर देता है। |
टर्मिनलों को पढ़ता है जब यह स्टैक से एक को पॉप करता है। | टर्मिनलों को पढ़ता है जबकि यह उन्हें स्टैक पर धकेलता है। |
पार्स ट्री का पूर्व-क्रम ट्रावेल। | पार्स ट्री का पोस्ट-ऑर्डर ट्रैवर्सल। |
स्रोत कोड के रूप में एक कार्यक्रम केवल पाठ (कोड, कथन आदि) का एक संग्रह है और इसे जीवित बनाने के लिए, इसे लक्ष्य मशीन पर किए जाने वाले कार्यों की आवश्यकता होती है। निर्देशों को निष्पादित करने के लिए एक प्रोग्राम को मेमोरी संसाधनों की आवश्यकता होती है। एक प्रोग्राम में प्रक्रियाओं, पहचानकर्ताओं आदि के नाम होते हैं, जिन्हें रनटाइम पर वास्तविक मेमोरी लोकेशन के साथ मैपिंग की आवश्यकता होती है।
रनटाइम द्वारा, हमारा मतलब निष्पादन में एक कार्यक्रम है। रनटाइम पर्यावरण लक्ष्य मशीन की एक स्थिति है, जिसमें सिस्टम में चल रही प्रक्रियाओं को सेवाएं प्रदान करने के लिए सॉफ्टवेयर लाइब्रेरी, पर्यावरण चर आदि शामिल हो सकते हैं।
रनटाइम सपोर्ट सिस्टम एक पैकेज है, जो ज्यादातर निष्पादन योग्य कार्यक्रम के साथ ही उत्पन्न होता है और प्रक्रिया और रनटाइम वातावरण के बीच प्रक्रिया संचार की सुविधा प्रदान करता है। यह मेमोरी एलोकेशन और डी-एलोकेशन का ध्यान रखता है जबकि प्रोग्राम को निष्पादित किया जा रहा है।
सक्रियण पेड़
एक कार्यक्रम कई प्रक्रियाओं में संयुक्त निर्देशों का एक अनुक्रम है। एक प्रक्रिया में निर्देश क्रमिक रूप से निष्पादित किए जाते हैं। एक प्रक्रिया में एक शुरुआत और एक अंतिम सीमांकक होता है और इसके अंदर मौजूद हर चीज को प्रक्रिया का शरीर कहा जाता है। प्रक्रिया पहचानकर्ता और इसके अंदर परिमित निर्देशों का क्रम प्रक्रिया के शरीर को बनाता है।
एक प्रक्रिया के निष्पादन को इसकी सक्रियता कहा जाता है। एक सक्रियण रिकॉर्ड में एक प्रक्रिया को कॉल करने के लिए आवश्यक सभी आवश्यक जानकारी होती है। एक सक्रियण रिकॉर्ड में निम्नलिखित इकाइयाँ हो सकती हैं (उपयोग की गई स्रोत भाषा के आधार पर)।
temporaries | एक अभिव्यक्ति के अस्थायी और मध्यवर्ती मूल्यों को संग्रहीत करता है। |
स्थानीय डेटा | कहा प्रक्रिया का स्थानीय डेटा संग्रहीत करता है। |
मशीन की स्थिति | प्रक्रिया से पहले स्टोर मशीन की स्थिति जैसे रजिस्टर, प्रोग्राम काउंटर आदि। |
नियंत्रण लिंक | कॉलर प्रक्रिया के सक्रियण रिकॉर्ड के पते को संग्रहीत करता है। |
पहुंच लिंक | डेटा की जानकारी संग्रहीत करता है जो स्थानीय दायरे से बाहर है। |
वास्तविक पैरामीटर | स्टोर वास्तविक पैरामीटर, अर्थात, पैरामीटर जो इनपुट को प्रक्रिया को भेजने के लिए उपयोग किया जाता है। |
प्रतिलाभ की मात्रा | स्टोर रिटर्न मान। |
जब भी किसी प्रक्रिया को निष्पादित किया जाता है, उसका सक्रियण रिकॉर्ड स्टैक पर संग्रहीत होता है, जिसे नियंत्रण स्टैक के रूप में भी जाना जाता है। जब कोई प्रक्रिया किसी अन्य प्रक्रिया को कॉल करती है, तो कॉल करने वाले का निष्पादन तब तक निलंबित रहता है जब तक कि प्रक्रिया निष्पादित नहीं हो जाती। इस समय, बुलाया प्रक्रिया का सक्रियण रिकॉर्ड स्टैक पर संग्रहीत होता है।
हम मानते हैं कि प्रोग्राम नियंत्रण क्रमबद्ध तरीके से बहता है और जब एक प्रक्रिया कहलाती है, तो इसका नियंत्रण नामक प्रक्रिया को स्थानांतरित कर दिया जाता है। जब एक प्रक्रिया को निष्पादित किया जाता है, तो यह नियंत्रण को कॉल करने वाले को वापस कर देता है। इस प्रकार के नियंत्रण प्रवाह को पेड़ के रूप में सक्रियणों की एक श्रृंखला का प्रतिनिधित्व करना आसान हो जाता है, जिसे के रूप में जाना जाता हैactivation tree।
इस अवधारणा को समझने के लिए, हम एक उदाहरण के रूप में कोड का एक टुकड़ा लेते हैं:
. . .
printf(“Enter Your Name: “);
scanf(“%s”, username);
show_data(username);
printf(“Press any key to continue…”);
. . .
int show_data(char *user)
{
printf(“Your name is %s”, username);
return 0;
}
. . .
नीचे दिए गए कोड का सक्रियण पेड़ है।
अब हम समझते हैं कि प्रक्रियाओं को गहराई से-पहले तरीके से निष्पादित किया जाता है, इस प्रकार स्टैक आवंटन प्रक्रिया सक्रियण के लिए भंडारण का सबसे उपयुक्त तरीका है।
भंडारण आवंटन
रनटाइम पर्यावरण निम्नलिखित संस्थाओं के लिए रनटाइम मेमोरी आवश्यकताओं का प्रबंधन करता है:
Code: इसे एक प्रोग्राम के टेक्स्ट पार्ट के रूप में जाना जाता है जो रनटाइम पर नहीं बदलता है। इसकी स्मृति आवश्यकताओं को संकलन समय पर जाना जाता है।
Procedures: उनका पाठ हिस्सा स्थिर है लेकिन उन्हें एक यादृच्छिक तरीके से कहा जाता है। यही कारण है, स्टैक स्टोरेज का उपयोग प्रक्रिया कॉल और सक्रियण को प्रबंधित करने के लिए किया जाता है।
Variables: चर को केवल रनटाइम पर जाना जाता है, जब तक कि वे वैश्विक या स्थिर न हों। हीप मेमोरी आवंटन योजना का उपयोग रनटाइम में चर के लिए आवंटन और स्मृति के आवंटन के प्रबंधन के लिए किया जाता है।
स्थैतिक आवंटन
इस आवंटन योजना में, संकलन डेटा मेमोरी में एक निश्चित स्थान से जुड़ा होता है और जब प्रोग्राम निष्पादित होता है तो यह नहीं बदलता है। जैसा कि मेमोरी आवश्यकता और भंडारण स्थानों को पहले से जाना जाता है, मेमोरी आवंटन और डी-आवंटन के लिए रनटाइम सपोर्ट पैकेज की आवश्यकता नहीं है।
ढेर आवंटन
प्रक्रिया कॉल और उनकी सक्रियता को स्टैक मेमोरी आवंटन के माध्यम से प्रबंधित किया जाता है। यह लास्ट-इन-फर्स्ट-आउट (LIFO) विधि में काम करता है और यह आवंटन रणनीति पुनरावर्ती प्रक्रिया कॉल के लिए बहुत उपयोगी है।
ढेर आवंटन
एक प्रक्रिया में स्थानीय चर को केवल रनटाइम पर आवंटित और डी-आवंटित किया जाता है। हीप आवंटन का उपयोग डायनामिक रूप से वेरिएबल्स को मेमोरी आवंटित करने के लिए किया जाता है और यह दावा करते हैं कि जब वेरिएबल की आवश्यकता नहीं होती है।
सांख्यिकीय रूप से आवंटित मेमोरी क्षेत्र को छोड़कर, स्टैक और हीप मेमोरी दोनों गतिशील और अप्रत्याशित रूप से बढ़ और सिकुड़ सकते हैं। इसलिए, उन्हें सिस्टम में निश्चित मात्रा में मेमोरी प्रदान नहीं की जा सकती है।
जैसा कि ऊपर की छवि में दिखाया गया है, कोड के पाठ भाग को एक निश्चित मात्रा में मेमोरी आवंटित की जाती है। कार्यक्रम के लिए आवंटित कुल मेमोरी के चरम पर स्टैक और हीप मेमोरी की व्यवस्था की जाती है। दोनों एक दूसरे के खिलाफ सिकुड़ते और बढ़ते हैं।
पैरामीटर पासिंग
प्रक्रियाओं के बीच संचार माध्यम को पैरामीटर पासिंग के रूप में जाना जाता है। एक कॉलिंग प्रक्रिया से चर के मूल्यों को कुछ तंत्र द्वारा बुलाया प्रक्रिया में स्थानांतरित किया जाता है। आगे बढ़ने से पहले, पहले एक कार्यक्रम में मूल्यों से संबंधित कुछ बुनियादी शब्दावली से गुजरें।
आर-मूल्य
किसी अभिव्यक्ति के मूल्य को उसका r- मूल्य कहा जाता है। एकल चर में निहित मूल्य भी आर-मान बन जाता है यदि यह असाइनमेंट ऑपरेटर के दाईं ओर दिखाई देता है। r- मान हमेशा किसी अन्य चर को सौंपा जा सकता है।
एल मूल्य
स्मृति का स्थान (पता) जहां एक अभिव्यक्ति संग्रहीत होती है, उस अभिव्यक्ति के एल-मूल्य के रूप में जाना जाता है। यह हमेशा एक असाइनमेंट ऑपरेटर के बाईं ओर दिखाई देता है।
उदाहरण के लिए:
day = 1;
week = day * 7;
month = 1;
year = month * 12;
इस उदाहरण से, हम समझते हैं कि लगातार मान जैसे 1, 7, 12 और चर जैसे दिन, सप्ताह, महीना और वर्ष, सभी में r-मान हैं। केवल चर में ही मान होते हैं क्योंकि वे उनके द्वारा सौंपी गई मेमोरी लोकेशन का भी प्रतिनिधित्व करते हैं।
उदाहरण के लिए:
7 = x + y;
एक L- मान त्रुटि है, क्योंकि निरंतर 7 किसी भी स्मृति स्थान का प्रतिनिधित्व नहीं करता है।
औपचारिक पैरामीटर
कॉल प्रक्रिया द्वारा पारित जानकारी लेने वाले चर को औपचारिक पैरामीटर कहा जाता है। इन चरों को घोषित फ़ंक्शन की परिभाषा में घोषित किया जाता है।
वास्तविक पैरामीटर
चर, जिनके मूल्य या पते को प्रक्रिया में पारित किया जा रहा है, उन्हें वास्तविक पैरामीटर कहा जाता है। इन चर को फ़ंक्शन कॉल में तर्क के रूप में निर्दिष्ट किया जाता है।
Example:
fun_one()
{
int actual_parameter = 10;
call fun_two(int actual_parameter);
}
fun_two(int formal_parameter)
{
print formal_parameter;
}
औपचारिक पैरामीटर वास्तविक पैरामीटर की जानकारी रखते हैं, जो उपयोग की जाने वाली पैरामीटर पासिंग तकनीक पर निर्भर करता है। यह एक मान या एक पता हो सकता है।
मान से पास करें
वैल्यू मैकेनिज्म द्वारा पास होने पर, कॉलिंग प्रक्रिया वास्तविक मापदंडों के आर-वैल्यू से गुजरती है और कंपाइलर उस प्रक्रिया के सक्रियण रिकॉर्ड में डाल देता है। औपचारिक पैरामीटर फिर कॉलिंग प्रक्रिया द्वारा पारित मूल्यों को पकड़ते हैं। यदि औपचारिक मापदंडों द्वारा आयोजित मूल्यों को बदल दिया जाता है, तो इसका वास्तविक मापदंडों पर कोई प्रभाव नहीं होना चाहिए।
संदर्भ द्वारा पास करें
संदर्भ तंत्र द्वारा पास में, वास्तविक पैरामीटर के एल-मूल्य को तथाकथित प्रक्रिया के सक्रियण रिकॉर्ड में कॉपी किया जाता है। इस तरह, अब प्रक्रिया को वास्तविक पैरामीटर का पता (मेमोरी लोकेशन) और औपचारिक पैरामीटर समान मेमोरी स्थान को संदर्भित करता है। इसलिए, अगर औपचारिक पैरामीटर द्वारा इंगित मूल्य को बदल दिया जाता है, तो प्रभाव को वास्तविक पैरामीटर पर देखा जाना चाहिए क्योंकि उन्हें भी उसी मूल्य को इंगित करना चाहिए।
कॉपी-रीस्टोर करके पास करें
यह पैरामीटर पासिंग मैकेनिज़्म 'पास-बाय-रेफरेंस' के समान काम करता है, सिवाय इसके कि वास्तविक पैरामीटर में बदलाव तब किया जाता है जब कॉल प्रक्रिया समाप्त होती है। फ़ंक्शन कॉल करने पर, वास्तविक पैरामीटर के मानों को कॉल की प्रक्रिया के सक्रियण रिकॉर्ड में कॉपी किया जाता है। औपचारिक मापदंडों का यदि हेरफेर किया जाता है तो वास्तविक मापदंडों पर कोई वास्तविक समय प्रभाव नहीं होता है (जैसा कि एल-मान पारित किया जाता है), लेकिन जब तथाकथित प्रक्रिया समाप्त होती है, तो औपचारिक मापदंडों के एल-मूल्यों को वास्तविक मापदंडों के एल-मूल्यों पर कॉपी किया जाता है।
Example:
int y;
calling_procedure()
{
y = 10;
copy_restore(y); //l-value of y is passed
printf y; //prints 99
}
copy_restore(int x)
{
x = 99; // y still has value 10 (unaffected)
y = 0; // y is now 0
}
जब यह फ़ंक्शन समाप्त होता है, तो औपचारिक पैरामीटर x का एल-मान वास्तविक पैरामीटर y पर कॉपी किया जाता है। यहां तक कि अगर प्रक्रिया समाप्त होने से पहले y का मूल्य बदल दिया जाता है, तो x का L- मूल्य y के एल-मूल्य पर कॉपी किया जाता है, जिससे यह संदर्भ द्वारा कॉल की तरह व्यवहार करता है।
नाम से पास
अल्गोल जैसी भाषाएं एक नए प्रकार का पैरामीटर पासिंग मैकेनिज्म प्रदान करती हैं जो सी भाषा में प्रीप्रोसेसर की तरह काम करता है। नाम तंत्र द्वारा पास में, प्रक्रिया के नाम को उसके वास्तविक निकाय द्वारा प्रतिस्थापित किया जाता है। पास-बाय-नेम पाठ प्रक्रिया के शरीर में संबंधित मापदंडों के लिए कॉल प्रक्रिया में तर्क भावों को वैकल्पिक रूप से प्रतिस्थापित करता है ताकि यह अब वास्तविक मापदंडों पर काम कर सके, बहुत कुछ पास-बाय-रेफरेंस की तरह।
प्रतीक तालिका एक महत्वपूर्ण डेटा संरचना है जिसे कंपाइलरों द्वारा बनाया और बनाए रखा जाता है ताकि विभिन्न संस्थाओं जैसे चर नाम, फ़ंक्शन नाम, ऑब्जेक्ट, क्लासेस, इंटरफ़ेस आदि की जानकारी को संग्रहीत करने के लिए, विश्लेषण और संश्लेषण दोनों द्वारा प्रतीक तालिका का उपयोग किया जाता है। एक संकलक के कुछ हिस्सों।
एक प्रतीक तालिका हाथ में भाषा के आधार पर निम्नलिखित उद्देश्यों की सेवा कर सकती है:
एक स्थान पर सभी संस्थाओं के नाम एक संरचित रूप में संग्रहीत करने के लिए।
यह सत्यापित करने के लिए कि क्या एक चर घोषित किया गया है।
स्रोत कोड में असाइनमेंट और अभिव्यक्तियों को सत्यापित करके टाइप चेकिंग को लागू करना, शब्दार्थ रूप से सही है।
एक नाम (गुंजाइश रिज़ॉल्यूशन) का दायरा निर्धारित करने के लिए।
एक प्रतीक तालिका बस एक तालिका है जो या तो रैखिक या एक हैश तालिका हो सकती है। यह निम्नलिखित प्रारूप में प्रत्येक नाम के लिए एक प्रविष्टि रखता है:
<symbol name, type, attribute>
उदाहरण के लिए, यदि एक प्रतीक तालिका में निम्नलिखित चर घोषणा के बारे में जानकारी संग्रहीत की जानी है:
static int interest;
फिर उसे प्रविष्टि को इस तरह संग्रहित करना चाहिए:
<interest, int, static>
विशेषता खंड में नाम से संबंधित प्रविष्टियाँ हैं।
कार्यान्वयन
यदि एक संकलक को डेटा की एक छोटी मात्रा को संभालना है, तो प्रतीक तालिका को एक अनियंत्रित सूची के रूप में लागू किया जा सकता है, जो कोड करना आसान है, लेकिन यह केवल छोटी तालिकाओं के लिए ही उपयुक्त है। एक प्रतीक तालिका निम्नलिखित तरीकों में से एक में लागू की जा सकती है:
- रेखीय (क्रमबद्ध या अनसुलझा) सूची
- बाइनरी सर्च ट्री
- हैश टेबल
इन सबके बीच, प्रतीक सारणी को ज्यादातर हैश टेबल के रूप में लागू किया जाता है, जहां स्रोत कोड प्रतीक को हैश फ़ंक्शन के लिए एक कुंजी के रूप में माना जाता है और रिटर्न मान प्रतीक के बारे में जानकारी है।
संचालन
एक प्रतीक तालिका, या तो रैखिक या हैश, निम्नलिखित संचालन प्रदान करना चाहिए।
डालने ()
यह ऑपरेशन अधिक बार विश्लेषण चरण द्वारा उपयोग किया जाता है, अर्थात, संकलक के पहले आधे भाग में जहां टोकन की पहचान की जाती है और नाम तालिका में संग्रहीत किए जाते हैं। इस ऑपरेशन का उपयोग प्रतीक तालिका में स्रोत कोड में होने वाले अद्वितीय नामों के बारे में जानकारी जोड़ने के लिए किया जाता है। प्रारूप या संरचना जिसमें नाम संग्रहीत किए जाते हैं, हाथ में संकलक पर निर्भर करता है।
स्रोत कोड में प्रतीक के लिए एक विशेषता उस प्रतीक से जुड़ी जानकारी है। इस जानकारी में प्रतीक के बारे में मूल्य, स्थिति, क्षेत्र और प्रकार शामिल हैं। सम्मिलित () फ़ंक्शन प्रतीक और उसकी विशेषताओं को तर्क के रूप में लेता है और सूचना तालिका में संग्रहीत करता है।
उदाहरण के लिए:
int a;
संकलक द्वारा संसाधित किया जाना चाहिए:
insert(a, int);
देखो()
लुकअप () ऑपरेशन का उपयोग यह निर्धारित करने के लिए प्रतीक तालिका में नाम खोजने के लिए किया जाता है:
- यदि प्रतीक तालिका में मौजूद है।
- अगर इसका इस्तेमाल होने से पहले घोषित किया जाता है।
- यदि नाम को दायरे में उपयोग किया जाता है।
- यदि प्रतीक आरम्भिक है।
- यदि प्रतीक कई बार घोषित होता है।
लुकअप भाषा के अनुसार लुकअप () फ़ंक्शन का प्रारूप बदलता रहता है। मूल प्रारूप निम्नलिखित से मेल खाना चाहिए:
lookup(symbol)
यदि प्रतीक तालिका में प्रतीक मौजूद नहीं है, तो यह विधि 0 (शून्य) देता है। यदि प्रतीक प्रतीक तालिका में मौजूद है, तो यह तालिका में संग्रहीत अपनी विशेषताओं को लौटाता है।
स्कोप प्रबंधन
एक कंपाइलर दो प्रकार के प्रतीक तालिकाओं को बनाए रखता है: ए global symbol table जिसे सभी प्रक्रियाओं द्वारा पहुँचा जा सकता है और scope symbol tables जो कि कार्यक्रम में प्रत्येक क्षेत्र के लिए बनाए गए हैं।
एक नाम के दायरे को निर्धारित करने के लिए, प्रतीक सारणी को पदानुक्रमित संरचना में व्यवस्थित किया गया है जैसा कि नीचे दिए गए उदाहरण में दिखाया गया है:
. . .
int value=10;
void pro_one()
{
int one_1;
int one_2;
{ \
int one_3; |_ inner scope 1
int one_4; |
} /
int one_5;
{ \
int one_6; |_ inner scope 2
int one_7; |
} /
}
void pro_two()
{
int two_1;
int two_2;
{ \
int two_3; |_ inner scope 3
int two_4; |
} /
int two_5;
}
. . .
उपरोक्त कार्यक्रम को प्रतीक तालिकाओं की एक श्रेणीबद्ध संरचना में दर्शाया जा सकता है:
वैश्विक प्रतीक तालिका में एक वैश्विक चर (इंट वैल्यू) और दो प्रक्रिया नाम के नाम हैं, जो ऊपर दिखाए गए सभी बच्चे नोड्स के लिए उपलब्ध होना चाहिए। Pro_one प्रतीक तालिका (और उसके सभी बच्चे टेबल) में वर्णित नाम pro_two प्रतीकों और उसके बच्चे तालिकाओं के लिए उपलब्ध नहीं हैं।
यह प्रतीक तालिका डेटा संरचना पदानुक्रम सिमेंटिक विश्लेषक में संग्रहीत है और जब भी किसी नाम को प्रतीक तालिका में खोजने की आवश्यकता होती है, तो इसे निम्न एल्गोरिथम का उपयोग करके खोजा जाता है:
पहले एक प्रतीक को वर्तमान क्षेत्र में खोजा जाएगा, अर्थात वर्तमान प्रतीक तालिका।
यदि कोई नाम मिल जाता है, तो खोज पूरी हो जाती है, अन्यथा इसे माता-पिता के प्रतीक तालिका में खोजा जाएगा,
या तो नाम मिला है या नाम के लिए वैश्विक प्रतीक तालिका खोजी गई है।
एक स्रोत कोड को सीधे उसके लक्ष्य मशीन कोड में अनुवादित किया जा सकता है, फिर आखिर हमें स्रोत कोड को एक मध्यवर्ती कोड में अनुवाद करने की आवश्यकता क्यों है जो तब उसके लक्ष्य कोड में अनुवादित होता है? आइए देखते हैं कि हमें मध्यवर्ती कोड की आवश्यकता क्यों है।
यदि कोई संकलक मध्यवर्ती कोड बनाने के लिए विकल्प के बिना स्रोत भाषा को अपनी लक्ष्य मशीन भाषा में अनुवाद करता है, तो प्रत्येक नई मशीन के लिए एक पूर्ण देशी संकलक की आवश्यकता होती है।
इंटरमीडिएट कोड, सभी संकलक के लिए विश्लेषण भाग को समान रखकर प्रत्येक अद्वितीय मशीन के लिए एक नए पूर्ण संकलक की आवश्यकता को समाप्त करता है।
संकलक के दूसरे भाग, संश्लेषण, को लक्ष्य मशीन के अनुसार बदल दिया जाता है।
मध्यवर्ती कोड पर कोड अनुकूलन तकनीकों को लागू करके कोड प्रदर्शन को बेहतर बनाने के लिए स्रोत कोड संशोधनों को लागू करना आसान हो जाता है।
मध्यवर्ती प्रतिनिधि
इंटरमीडिएट कोड विभिन्न तरीकों से दर्शाए जा सकते हैं और उनके अपने फायदे हैं।
High Level IR- उच्च-स्तरीय मध्यवर्ती कोड प्रतिनिधित्व स्रोत भाषा के बहुत करीब है। वे आसानी से स्रोत कोड से उत्पन्न हो सकते हैं और प्रदर्शन को बढ़ाने के लिए हम आसानी से कोड संशोधन लागू कर सकते हैं। लेकिन लक्ष्य मशीन अनुकूलन के लिए, यह कम पसंद किया जाता है।
Low Level IR - यह एक लक्ष्य मशीन के करीब है, जो इसे रजिस्टर और मेमोरी आवंटन, निर्देश सेट चयन, आदि के लिए उपयुक्त बनाता है। यह मशीन पर निर्भर अनुकूलन के लिए अच्छा है।
इंटरमीडिएट कोड या तो भाषा विशिष्ट हो सकता है (जैसे, जावा के लिए बाइट कोड) या भाषा स्वतंत्र (तीन-पता कोड)।
तीन-पता कोड
इंटरमीडिएट कोड जनरेटर एनोटेट सिंटेक्स ट्री के रूप में अपने पूर्ववर्ती चरण, सिमेंटिक विश्लेषक से इनपुट प्राप्त करता है। उस वाक्य रचना के पेड़ को फिर रैखिक प्रतिनिधित्व में बदला जा सकता है, उदाहरण के लिए, उपसर्ग संकेतन। इंटरमीडिएट कोड मशीन स्वतंत्र कोड हो जाता है। इसलिए, कोड जनरेटर कोड उत्पन्न करने के लिए असीमित संख्या में मेमोरी स्टोरेज (रजिस्टर) होना मानता है।
उदाहरण के लिए:
a = b + c * d;
मध्यवर्ती कोड जनरेटर इस अभिव्यक्ति को उप-अभिव्यक्तियों में विभाजित करने की कोशिश करेगा और फिर संबंधित कोड उत्पन्न करेगा।
r1 = c * d;
r2 = b + r1;
a = r2
लक्ष्य कार्यक्रम में रजिस्टर के रूप में इस्तेमाल किया जा रहा है।
एक तीन-पता कोड में अभिव्यक्ति की गणना करने के लिए अधिकांश तीन पते स्थान हैं। एक तीन-पता कोड को दो रूपों में प्रस्तुत किया जा सकता है: चतुष्कोण और त्रिगुण।
एक साथ जन्म लेनेवाले बच्चे
चौगुनी प्रस्तुति में प्रत्येक निर्देश को चार क्षेत्रों में विभाजित किया गया है: ऑपरेटर, arg1, arg2 और परिणाम। उपरोक्त उदाहरण को चौगुनी प्रारूप में नीचे दर्शाया गया है:
सेशन | अर्ग १ | अर्ग २ | परिणाम |
* | सी | घ | आर 1 |
+ | ख | आर 1 | r2 |
+ | r2 | आर 1 | R3 |
= | R3 | ए |
ट्रिपल
त्रिगुण प्रस्तुति में प्रत्येक निर्देश के तीन क्षेत्र होते हैं: op, arg1, और arg2। संबंधित उप-अभिव्यक्तियों के परिणाम अभिव्यक्ति की स्थिति से दर्शाए जाते हैं। त्रिभुज DAG और वाक्यविन्यास वृक्ष के साथ समानता का प्रतिनिधित्व करते हैं। वे अभिव्यक्ति का प्रतिनिधित्व करते हुए डीएजी के समकक्ष हैं।
सेशन | अर्ग १ | अर्ग २ |
* | सी | घ |
+ | ख | (0) |
+ | (1) | (0) |
= | (2) |
ऑप्टिमाइज़ेशन के दौरान ट्राइबल्स कोड की समस्या का सामना करते हैं, क्योंकि परिणाम पॉजिटिव होते हैं और एक्सप्रेशन के क्रम या पोज़िशन को बदलने से समस्याएँ हो सकती हैं।
अप्रत्यक्ष त्रिगुण
यह प्रतिनिधित्व त्रिगुण प्रतिनिधित्व पर एक वृद्धि है। यह परिणामों को संग्रहीत करने के लिए स्थिति के बजाय पॉइंटर्स का उपयोग करता है। यह ऑप्टिमाइज़र को एक अनुकूलित कोड का उत्पादन करने के लिए उप-अभिव्यक्ति को स्वतंत्र रूप से पुनः स्थिति में लाने में सक्षम बनाता है।
घोषणाओं
एक चर या प्रक्रिया का उपयोग करने से पहले घोषित किया जाना चाहिए। घोषणा में स्मृति तालिका में स्थान का आवंटन और प्रतीक तालिका में प्रकार और नाम का आवंटन शामिल है। एक कार्यक्रम को लक्षित मशीन संरचना को ध्यान में रखते हुए कोडित और डिज़ाइन किया जा सकता है, लेकिन स्रोत कोड को अपनी लक्ष्य भाषा में सटीक रूप से परिवर्तित करना हमेशा संभव नहीं हो सकता है।
पूरे कार्यक्रम को प्रक्रियाओं और उप-प्रक्रियाओं के संग्रह के रूप में लेते हुए, प्रक्रिया के लिए सभी नामों को स्थानीय घोषित करना संभव हो जाता है। मेमोरी आवंटन एक निरंतर तरीके से किया जाता है और प्रोग्राम में घोषित किए गए अनुक्रम में मेमोरी को नाम आवंटित किया जाता है। हम ऑफसेट चर का उपयोग करते हैं और इसे शून्य {ऑफसेट = 0} पर सेट करते हैं जो आधार पते को दर्शाते हैं।
स्रोत प्रोग्रामिंग भाषा और लक्ष्य मशीन वास्तुकला नाम संग्रहीत किए जाने के तरीके में भिन्न हो सकते हैं, इसलिए सापेक्ष पते का उपयोग किया जाता है। जबकि पहला नाम स्मृति स्थान 0 {ऑफसेट = 0} से शुरू होने वाली मेमोरी आवंटित किया गया है, अगला नाम बाद में घोषित किया गया है, पहले एक के बगल में मेमोरी आवंटित की जानी चाहिए।
Example:
हम C प्रोग्रामिंग भाषा का उदाहरण लेते हैं जहां एक पूर्णांक चर को मेमोरी के 2 बाइट्स और एक फ्लोट चर को बाइट्स के 4 बाइट्स को सौंपा जाता है।
int a;
float b;
Allocation process:
{offset = 0}
int a;
id.type = int
id.width = 2
offset = offset + id.width
{offset = 2}
float b;
id.type = float
id.width = 4
offset = offset + id.width
{offset = 6}
प्रतीक तालिका में इस विवरण को दर्ज करने के लिए, एक प्रक्रिया दर्ज की जा सकती है। इस विधि में निम्नलिखित संरचना हो सकती है:
enter(name, type, offset)
इस प्रक्रिया को प्रतीक तालिका में, चर नाम के लिए एक प्रविष्टि बनाना चाहिए , इसके प्रकार को इसके डेटा क्षेत्र में ऑफसेट प्रकार और सापेक्ष पते पर सेट करना चाहिए ।
कोड पीढ़ी को संकलन के अंतिम चरण के रूप में माना जा सकता है। पोस्ट कोड जेनरेशन के माध्यम से, कोड पर ऑप्टिमाइज़ेशन प्रक्रिया लागू की जा सकती है, लेकिन इसे कोड जेनरेशन चरण के एक भाग के रूप में ही देखा जा सकता है। संकलक द्वारा उत्पन्न कोड कुछ निचले स्तर की प्रोग्रामिंग भाषा का एक उदाहरण है, उदाहरण के लिए, असेंबली भाषा। हमने देखा है कि उच्च-स्तरीय भाषा में लिखा गया स्रोत कोड एक निम्न-स्तरीय भाषा में बदल जाता है, जिसके परिणामस्वरूप निम्न-स्तरीय ऑब्जेक्ट कोड होता है, जिसमें निम्नलिखित न्यूनतम गुण होने चाहिए:
- इसे स्रोत कोड का सही अर्थ होना चाहिए।
- यह CPU उपयोग और मेमोरी प्रबंधन के संदर्भ में कुशल होना चाहिए।
अब हम देखेंगे कि मध्यवर्ती कोड को लक्ष्य वस्तु कोड (असेंबली कोड, इस मामले में) में कैसे बदल दिया जाता है।
निर्देशित अचक्रीय ग्राफ
निर्देशित एसाइक्लिक ग्राफ (डीएजी) एक उपकरण है जो बुनियादी ब्लॉकों की संरचना को दर्शाता है, बुनियादी ब्लॉकों के बीच बहने वाले मूल्यों के प्रवाह को देखने में मदद करता है, और अनुकूलन भी प्रदान करता है। डीएजी बुनियादी ब्लॉकों पर आसान परिवर्तन प्रदान करता है। डीएजी को यहां समझा जा सकता है:
लीफ नोड्स पहचानकर्ताओं, नामों या स्थिरांक का प्रतिनिधित्व करते हैं।
आंतरिक नोड्स ऑपरेटरों का प्रतिनिधित्व करते हैं।
आंतरिक नोड भी अभिव्यक्तियों या पहचानकर्ताओं / नाम के परिणामों का प्रतिनिधित्व करते हैं जहां मूल्यों को संग्रहीत या सौंपा जाना है।
Example:
t0 = a + b
t1 = t0 + c
d = t0 + t1
[t 0 = a + b] |
[t 1 = t 0 + c] |
[डी = टी ० + टी १ ] |
पीपहोल अनुकूलन
यह अनुकूलन तकनीक स्थानीय रूप से स्रोत कोड पर काम करती है ताकि इसे एक अनुकूलित कोड में परिवर्तित किया जा सके। स्थानीय स्तर पर, हमारा मतलब कोड ब्लॉक का एक छोटा सा हिस्सा है। इन विधियों को मध्यवर्ती कोड के साथ-साथ लक्ष्य कोड पर भी लागू किया जा सकता है। बयानों के एक समूह का विश्लेषण किया जाता है और निम्नलिखित संभावित अनुकूलन के लिए जाँच की जाती है:
निरर्थक निर्देश उन्मूलन
स्रोत कोड स्तर पर, उपयोगकर्ता द्वारा निम्नलिखित किया जा सकता है:
|
|
|
|
संकलन के स्तर पर, कंपाइलर प्रकृति में निरर्थक निर्देशों की खोज करता है। निर्देशों का एकाधिक लोडिंग और भंडारण एक ही अर्थ ले जा सकता है, भले ही उनमें से कुछ को हटा दिया जाए। उदाहरण के लिए:
- MOV x, R0
- MOV R0, R1
हम पहले निर्देश को हटा सकते हैं और इस वाक्य को फिर से लिख सकते हैं:
MOV x, R1
अगम्य संकेत
अगम्य कोड प्रोग्राम कोड का एक हिस्सा है जो प्रोग्रामिंग कंस्ट्रक्शन के कारण कभी एक्सेस नहीं किया जाता है। प्रोग्रामर ने अकस्मात कोड का एक टुकड़ा लिखा हो सकता है जो कभी नहीं पहुंच सकता है।
Example:
void add_ten(int x)
{
return x + 10;
printf(“value of x is %d”, x);
}
इस कोड सेगमेंट में, printf बयान को कभी भी निष्पादित नहीं किया जाएगा क्योंकि कार्यक्रम नियंत्रण वापस आ सकता है, इसलिए इसे निष्पादित किया जा सकता है printf हटाया जा सकता है।
नियंत्रण अनुकूलन का प्रवाह
ऐसे कोड में उदाहरण हैं जहां प्रोग्राम नियंत्रण किसी भी महत्वपूर्ण कार्य को निष्पादित किए बिना आगे और पीछे कूदता है। इन जंपों को हटाया जा सकता है। कोड के निम्नलिखित भाग पर विचार करें:
...
MOV R1, R2
GOTO L1
...
L1 : GOTO L2
L2 : INC R1
इस कोड में, लेबल L1 को हटाया जा सकता है क्योंकि यह L2 पर नियंत्रण पास करता है। इसलिए L1 और फिर L2 पर जाने के बजाय नियंत्रण सीधे L2 तक पहुंच सकता है, जैसा कि नीचे दिखाया गया है:
...
MOV R1, R2
GOTO L2
...
L2 : INC R1
बीजगणितीय अभिव्यक्ति सरलीकरण
ऐसे अवसर हैं जहां बीजीय अभिव्यक्तियों को सरल बनाया जा सकता है। उदाहरण के लिए, अभिव्यक्तिa = a + 0 द्वारा प्रतिस्थापित किया जा सकता है a स्वयं और अभिव्यक्ति a = a + 1 को केवल INC a द्वारा प्रतिस्थापित किया जा सकता है।
ताकत में कमी
ऐसे ऑपरेशन होते हैं जो अधिक समय और स्थान का उपभोग करते हैं। कम समय और स्थान का उपभोग करने वाले अन्य प्रचालनों के साथ बदलकर उनकी 'शक्ति' को कम किया जा सकता है, लेकिन वही परिणाम उत्पन्न करते हैं।
उदाहरण के लिए, x * 2 द्वारा प्रतिस्थापित किया जा सकता है x << 1, जिसमें केवल एक ही बाईं पारी शामिल है। यद्यपि एक * a और 2 का आउटपुट समान है, एक 2 कार्यान्वित करने के लिए अधिक कुशल है।
पहुँच मशीन निर्देश
लक्ष्य मशीन अधिक परिष्कृत निर्देशों को तैनात कर सकती है, जिसमें विशिष्ट संचालन को बहुत कुशलता से करने की क्षमता हो सकती है। यदि लक्ष्य कोड उन निर्देशों को सीधे समायोजित कर सकता है, जो न केवल कोड की गुणवत्ता में सुधार करेगा, बल्कि अधिक कुशल परिणाम भी देगा।
कोड जनरेटर
एक कोड जनरेटर से लक्ष्य मशीन के रनटाइम वातावरण और उसके निर्देश सेट की समझ होने की उम्मीद है। कोड जनरेटर को कोड उत्पन्न करने के लिए निम्नलिखित बातों पर ध्यान देना चाहिए:
Target language: कोड जनरेटर को लक्ष्य भाषा की प्रकृति के बारे में पता होना चाहिए जिसके लिए कोड को बदलना है। वह भाषा कुछ मशीन-विशिष्ट निर्देशों की सुविधा प्रदान कर सकती है ताकि कंपाइलर को अधिक सुविधाजनक तरीके से कोड उत्पन्न करने में मदद मिल सके। लक्ष्य मशीन में CISC या RISC प्रोसेसर आर्किटेक्चर हो सकते हैं।
IR Type: मध्यवर्ती प्रतिनिधित्व के विभिन्न रूप हैं। यह सार सिंटेक्स ट्री (एएसटी) संरचना, रिवर्स पोलिश नोटेशन या 3-एड्रेस कोड में हो सकता है।
Selection of instruction: कोड जेनरेटर इंटरमीडिएट रिप्रेजेंटेशन को इनपुट के रूप में लेता है और इसे (मैप्स) टारगेट मशीन के इंस्ट्रक्शन सेट में बदल देता है। एक प्रतिनिधित्व में इसे बदलने के कई तरीके (निर्देश) हो सकते हैं, इसलिए यह उचित रूप से उचित निर्देशों को चुनने के लिए कोड जनरेटर की जिम्मेदारी बन जाती है।
Register allocation: एक कार्यक्रम के निष्पादन के दौरान बनाए रखने के लिए कई मूल्य हैं। लक्ष्य मशीन की वास्तुकला सीपीयू मेमोरी या रजिस्टरों में सभी मूल्यों को रखने की अनुमति नहीं दे सकती है। कोड जनरेटर तय करता है कि रजिस्टर में क्या मान रखे जाएं। इसके अलावा, यह इन मूल्यों को बनाए रखने के लिए उपयोग किए जाने वाले रजिस्टरों को तय करता है।
Ordering of instructions: अंत में, कोड जनरेटर उस क्रम को तय करता है जिसमें अनुदेश निष्पादित किया जाएगा। यह उन्हें निष्पादित करने के निर्देशों के लिए कार्यक्रम बनाता है।
वर्णनकर्ता
कोड जनरेटर को कोड जनरेट करते समय दोनों रजिस्टर (उपलब्धता के लिए) और पते (मूल्यों का स्थान) को ट्रैक करना होता है। उन दोनों के लिए, निम्नलिखित दो विवरणों का उपयोग किया जाता है:
Register descriptor: रजिस्टर विवरणक का उपयोग रजिस्टरों की उपलब्धता के बारे में कोड जनरेटर को सूचित करने के लिए किया जाता है। रजिस्टर डिस्क्रिप्टर प्रत्येक रजिस्टर में संग्रहीत मूल्यों का ट्रैक रखता है। जब भी कोड पीढ़ी के दौरान एक नया रजिस्टर आवश्यक होता है, तो यह विवरणक रजिस्टर उपलब्धता के लिए परामर्श किया जाता है।
Address descriptor: कार्यक्रम में उपयोग किए जाने वाले नामों (पहचानकर्ताओं) के मूल्यों को निष्पादन के समय विभिन्न स्थानों पर संग्रहीत किया जा सकता है। पता विवरणों का उपयोग मेमोरी स्थानों का ट्रैक रखने के लिए किया जाता है जहां पहचानकर्ताओं के मान संग्रहीत होते हैं। इन स्थानों में सीपीयू रजिस्टर, ढेर, ढेर, मेमोरी या उल्लिखित स्थानों का संयोजन शामिल हो सकता है।
कोड जनरेटर वास्तविक समय में अपडेट किए गए दोनों डिस्क्रिप्टर को रखता है। लोड स्टेटमेंट के लिए, LD R1, x, कोड जनरेटर:
- x का मान दर्ज करने वाले R डेस्क्रिप्टर R1 को अपडेट करता है और
- पता डिस्क्रिप्टर (x) को अपडेट करके दिखाता है कि x का एक उदाहरण R1 में है।
कोड जनरेशन
बुनियादी ब्लॉकों में तीन-पते के निर्देशों का एक अनुक्रम शामिल है। कोड जनरेटर इन निर्देशों को इनपुट के रूप में लेता है।
Note: यदि किसी नाम का मान एक से अधिक स्थानों (रजिस्टर, कैश, या मेमोरी) में पाया जाता है, तो रजिस्टर का मूल्य कैश और मुख्य मेमोरी के ऊपर पसंद किया जाएगा। इसी तरह कैशे का मूल्य मुख्य मेमोरी पर पसंद किया जाएगा। मुख्य मेमोरी को मुश्किल से कोई वरीयता दी जाती है।
getReg: कोड जनरेटर उपलब्ध रजिस्टरों की स्थिति और नाम मूल्यों के स्थान को निर्धारित करने के लिए getReg फ़ंक्शन का उपयोग करता है । getReg निम्नानुसार काम करता है:
यदि चर Y पहले से ही R रजिस्टर में है, तो यह उस रजिस्टर का उपयोग करता है।
यदि कुछ रजिस्टर R उपलब्ध है, तो वह उस रजिस्टर का उपयोग करता है।
वरना यदि उपरोक्त दोनों विकल्प संभव नहीं हैं, तो यह एक रजिस्टर चुनता है जिसमें न्यूनतम संख्या में लोड और स्टोर निर्देशों की आवश्यकता होती है।
एक निर्देश x = y OP z के लिए, कोड जनरेटर निम्नलिखित क्रियाएं कर सकता है। आइए हम मान लें कि L वह स्थान है (अधिमानतः रजिस्टर) जहां y OP z का आउटपुट सहेजा जाना है:
कॉल फ़ंक्शन getReg, L का स्थान तय करने के लिए।
वर्तमान स्थान (रजिस्टर या मेमोरी) का निर्धारण करें y के एड्रेस डिस्क्रिप्टर से परामर्श करके y। अगरy वर्तमान में रजिस्टर में नहीं है L, तो के मूल्य को कॉपी करने के लिए निम्नलिखित निर्देश उत्पन्न करते हैं y सेवा L:
एमओवी वाई ', एल
कहाँ पे y’ के कॉपी किए गए मूल्य का प्रतिनिधित्व करता है y।
का वर्तमान स्थान निर्धारित करें z उसी विधि का उपयोग चरण 2 के लिए किया जाता है y और निम्नलिखित निर्देश उत्पन्न करें:
ओपी z ', एल
कहाँ पे z’ के कॉपी किए गए मूल्य का प्रतिनिधित्व करता है z।
अब L में y ओपी z का मान सम्मिलित है, जिसका उद्देश्य असाइन किया जाना है x। इसलिए, यदि L एक रजिस्टर है, तो उसके डिस्क्रिप्टर को यह इंगित करने के लिए अपडेट करें कि उसमें मूल्य हैx। के डिस्क्रिप्टर को अपडेट करेंx यह इंगित करने के लिए कि यह स्थान पर संग्रहीत है L।
यदि y और z का कोई और उपयोग नहीं है, तो उन्हें सिस्टम में वापस दिया जा सकता है।
अन्य कोड निर्माण जैसे छोरों और सशर्त बयानों को सामान्य भाषा में विधानसभा भाषा में रूपांतरित किया जाता है।
अनुकूलन एक कार्यक्रम परिवर्तन तकनीक है, जो कम संसाधनों (यानी सीपीयू, मेमोरी) का उपभोग करके और उच्च गति प्रदान करके कोड को बेहतर बनाने की कोशिश करता है।
अनुकूलन में, उच्च-स्तरीय सामान्य प्रोग्रामिंग निर्माणों को बहुत कुशल निम्न-स्तरीय प्रोग्रामिंग कोड द्वारा प्रतिस्थापित किया जाता है। एक कोड अनुकूलन प्रक्रिया को नीचे दिए गए तीन नियमों का पालन करना चाहिए:
आउटपुट कोड को किसी भी तरह से प्रोग्राम का अर्थ नहीं बदलना चाहिए।
अनुकूलन से कार्यक्रम की गति बढ़नी चाहिए और यदि संभव हो, तो कार्यक्रम को संसाधनों की कम संख्या की मांग करनी चाहिए।
अनुकूलन स्वयं तेज होना चाहिए और समग्र संकलन प्रक्रिया में देरी नहीं करनी चाहिए।
एक अनुकूलित कोड के लिए प्रक्रिया के संकलन के विभिन्न स्तरों पर प्रयास किए जा सकते हैं।
शुरुआत में, उपयोगकर्ता कोड को बदलने / पुनर्व्यवस्थित करने या कोड लिखने के लिए बेहतर एल्गोरिदम का उपयोग कर सकते हैं।
मध्यवर्ती कोड उत्पन्न करने के बाद, संकलक पता गणना और छोरों में सुधार करके मध्यवर्ती कोड को संशोधित कर सकता है।
लक्ष्य मशीन कोड का उत्पादन करते समय, कंपाइलर मेमोरी पदानुक्रम और सीपीयू रजिस्टर का उपयोग कर सकता है।
अनुकूलन को मोटे तौर पर दो प्रकारों में वर्गीकृत किया जा सकता है: मशीन स्वतंत्र और मशीन निर्भर।
मशीन-स्वतंत्र अनुकूलन
इस अनुकूलन में, संकलक मध्यवर्ती कोड में ले जाता है और कोड का एक हिस्सा बदल देता है जिसमें कोई सीपीयू रजिस्टर और / या निरपेक्ष मेमोरी स्थान शामिल नहीं होता है। उदाहरण के लिए:
do
{
item = 10;
value = value + item;
}while(value<100);
इस कोड में पहचानकर्ता आइटम का बार-बार असाइनमेंट शामिल है, जिसे यदि हम इस तरह से रखते हैं:
Item = 10;
do
{
value = value + item;
} while(value<100);
न केवल सीपीयू चक्र को बचाना चाहिए, बल्कि किसी भी प्रोसेसर पर उपयोग किया जा सकता है।
मशीन पर निर्भर अनुकूलन
मशीन-निर्भर अनुकूलन लक्ष्य कोड उत्पन्न होने के बाद किया जाता है और जब कोड को लक्ष्य मशीन वास्तुकला के अनुसार बदल दिया जाता है। इसमें सीपीयू रजिस्टर शामिल हैं और रिश्तेदार संदर्भों के बजाय पूर्ण मेमोरी संदर्भ हो सकते हैं। मशीन-आश्रित ऑप्टिमाइज़र स्मृति पदानुक्रम का अधिकतम लाभ लेने के लिए प्रयास करते हैं।
बुनियादी ब्लॉक
स्रोत कोड में आम तौर पर कई निर्देश होते हैं, जिन्हें हमेशा अनुक्रम में निष्पादित किया जाता है और कोड के मूल ब्लॉक के रूप में माना जाता है। इन बुनियादी ब्लॉकों में उनके बीच कोई जम्प स्टेटमेंट नहीं होता है, अर्थात, जब पहला निर्देश निष्पादित किया जाता है, तो प्रोग्राम के प्रवाह नियंत्रण को खोए बिना एक ही मूल ब्लॉक के सभी निर्देशों को उनकी उपस्थिति के अनुक्रम में निष्पादित किया जाएगा।
एक कार्यक्रम में बुनियादी ब्लॉकों के रूप में विभिन्न निर्माण हो सकते हैं, जैसे IF-THEN-ELSE, SWITCH-CASE सशर्त कथन और लूप जैसे DO-WHILE, FOR, और REPEAT-UNTIL, आदि।
बुनियादी ब्लॉक की पहचान
हम एक कार्यक्रम में बुनियादी ब्लॉकों को खोजने के लिए निम्नलिखित एल्गोरिदम का उपयोग कर सकते हैं:
उन सभी बुनियादी ब्लॉकों के हेडर स्टेटमेंट खोजें जहां से एक बुनियादी ब्लॉक शुरू होता है:
- एक कार्यक्रम का पहला बयान।
- कथन जो किसी भी शाखा (सशर्त / बिना शर्त) के लक्ष्य हैं।
- कथन जो किसी भी शाखा विवरण का अनुसरण करते हैं।
हेडर के बयान और उनके बाद के बयान एक बुनियादी ब्लॉक बनाते हैं।
एक बुनियादी ब्लॉक में किसी भी अन्य बुनियादी ब्लॉक का हेडर स्टेटमेंट शामिल नहीं है।
बुनियादी ब्लॉक कोड पीढ़ी और दृष्टिकोण के दृष्टिकोण से महत्वपूर्ण अवधारणाएं हैं।
बुनियादी ब्लॉक वैरिएबल की पहचान करने में महत्वपूर्ण भूमिका निभाते हैं, जिनका उपयोग एक ही मूल ब्लॉक में एक से अधिक बार किया जा रहा है। यदि किसी चर का एक से अधिक बार उपयोग किया जा रहा है, तो उस चर के लिए आवंटित रजिस्टर मेमोरी को तब तक खाली नहीं किया जाना चाहिए जब तक कि ब्लॉक निष्पादन समाप्त न हो जाए।
नियंत्रण प्रवाह ग्राफ
एक कार्यक्रम में बुनियादी ब्लॉकों को नियंत्रण प्रवाह ग्राफ के माध्यम से दर्शाया जा सकता है। एक नियंत्रण प्रवाह ग्राफ में दर्शाया गया है कि ब्लॉक के बीच प्रोग्राम नियंत्रण कैसे पारित किया जा रहा है। यह एक उपयोगी उपकरण है जो कार्यक्रम में किसी भी अवांछित छोरों का पता लगाने में मदद करके अनुकूलन में मदद करता है।
लूप ऑप्टिमाइज़ेशन
अधिकांश प्रोग्राम सिस्टम में एक लूप के रूप में चलते हैं। सीपीयू साइकिल और मेमोरी को बचाने के लिए छोरों को अनुकूलित करना आवश्यक हो जाता है। लूप्स को निम्नलिखित तकनीकों द्वारा अनुकूलित किया जा सकता है:
Invariant code: कोड का एक टुकड़ा जो लूप में रहता है और प्रत्येक पुनरावृत्ति पर समान मान की गणना करता है जिसे लूप-इनवेरिएंट कोड कहा जाता है। प्रत्येक पुनरावृत्ति के बजाय केवल एक बार गणना करने के लिए सहेजने से इस कोड को लूप से बाहर ले जाया जा सकता है।
Induction analysis : एक चर को एक प्रेरण चर कहा जाता है यदि इसका मान लूप-इनवेरिएंट मान द्वारा लूप के भीतर बदल दिया जाता है।
Strength reduction: ऐसे भाव हैं जो अधिक सीपीयू चक्र, समय और स्मृति का उपभोग करते हैं। इन अभिव्यक्तियों को अभिव्यक्ति के उत्पादन से समझौता किए बिना सस्ते भावों से प्रतिस्थापित किया जाना चाहिए। उदाहरण के लिए, गुणा (x * 2) CPU चक्र (x << 1) की तुलना में महंगा है और समान परिणाम देता है।
मृत-कोड उन्मूलन
मृत कोड एक या एक से अधिक कोड स्टेटमेंट हैं, जो हैं:
- या तो कभी निष्पादित या अगम्य नहीं,
- या यदि निष्पादित किया जाता है, तो उनके आउटपुट का उपयोग कभी नहीं किया जाता है।
इस प्रकार, मृत कोड किसी भी कार्यक्रम के संचालन में कोई भूमिका नहीं निभाता है और इसलिए इसे केवल समाप्त किया जा सकता है।
आंशिक रूप से मृत कोड
कुछ कोड स्टेटमेंट होते हैं, जिनकी गणना मूल्यों का उपयोग केवल कुछ विशेष परिस्थितियों में किया जाता है, अर्थात कभी-कभी मूल्यों का उपयोग किया जाता है और कभी-कभी वे नहीं होते हैं। इस तरह के कोड को आंशिक रूप से मृत-कोड के रूप में जाना जाता है।
उपरोक्त नियंत्रण प्रवाह ग्राफ में कार्यक्रम का एक हिस्सा दर्शाया गया है जहां चर 'a' का प्रयोग अभिव्यक्ति 'x * y' के उत्पादन को करने के लिए किया जाता है। आइए हम मान लें कि 'a' को दिया गया मान कभी भी लूप के अंदर उपयोग नहीं किया जाता है। इसके तुरंत बाद नियंत्रण लूप को छोड़ देता है, 'a' को वेरिएबल 'z' का मान दिया जाता है, जिसे बाद में प्रोग्राम में उपयोग किया जाएगा। हम यहाँ निष्कर्ष देते हैं कि 'a' के असाइनमेंट कोड का कभी भी कहीं भी उपयोग नहीं किया जाता है, इसलिए इसे समाप्त करने के योग्य है।
इसी तरह, ऊपर दिए गए चित्र में दिखाया गया है कि सशर्त कथन हमेशा गलत होता है, जिसका अर्थ है कि कोड, सच्चे मामले में लिखा गया है, कभी भी निष्पादित नहीं किया जाएगा, इसलिए इसे हटाया जा सकता है।
आंशिक अतिरेक
निरर्थक भावों की गणना समानांतर पथ में एक से अधिक बार की जाती है, बिना ऑपरेंड में कोई परिवर्तन किए। कहीं भी आंशिक-निरर्थक अभिव्यक्तियों को ऑपरेंड में किसी भी परिवर्तन के बिना, पथ में एक से अधिक बार गणना की जाती है। उदाहरण के लिए,
[निरर्थक अभिव्यक्ति] |
[आंशिक रूप से निरर्थक अभिव्यक्ति] |
लूप-इनवेरिएंट कोड आंशिक रूप से निरर्थक है और कोड-मोशन तकनीक का उपयोग करके इसे समाप्त किया जा सकता है।
आंशिक रूप से निरर्थक कोड का एक और उदाहरण हो सकता है:
If (condition)
{
a = y OP z;
}
else
{
...
}
c = y OP z;
हम मानते हैं कि ऑपरेंड का मान (y तथा z) चर के असाइनमेंट से नहीं बदले जाते हैं a चर करने के लिए c। यहाँ, यदि शर्त कथन सत्य है, तो y OP z की गणना दो बार की जाती है, अन्यथा एक बार। इस अतिरेक को खत्म करने के लिए कोड गति का उपयोग किया जा सकता है, जैसा कि नीचे दिखाया गया है:
If (condition)
{
...
tmp = y OP z;
a = tmp;
...
}
else
{
...
tmp = y OP z;
}
c = tmp;
यहाँ, चाहे वह शर्त सही हो या गलत; y ओपी z की गणना केवल एक बार की जानी चाहिए।