कंपाइलर डिज़ाइन - सिंटेक्स एनालिसिस
सिंटेक्स विश्लेषण या पार्सिंग एक संकलक का दूसरा चरण है। इस अध्याय में, हम एक पार्सर के निर्माण में उपयोग की जाने वाली मूल अवधारणाओं को सीखेंगे।
हमने देखा है कि एक लेक्सिकल विश्लेषक नियमित अभिव्यक्ति और पैटर्न नियमों की मदद से टोकन की पहचान कर सकता है। लेकिन एक शाब्दिक विश्लेषक नियमित अभिव्यक्तियों की सीमाओं के कारण किसी दिए गए वाक्य के वाक्यविन्यास की जांच नहीं कर सकता है। नियमित अभिव्यक्ति कोष्ठक जैसे संतुलन टोकनों की जाँच नहीं कर सकते। इसलिए, यह चरण संदर्भ-मुक्त व्याकरण (सीएफजी) का उपयोग करता है, जिसे पुश-डाउन ऑटोमेटा द्वारा मान्यता प्राप्त है।
दूसरी ओर, सीएफजी, नियमित व्याकरण का एक सुपरसेट है, जैसा कि नीचे दर्शाया गया है:
तात्पर्य यह है कि प्रत्येक नियमित व्याकरण भी संदर्भ-मुक्त है, लेकिन कुछ समस्याएं मौजूद हैं, जो नियमित व्याकरण के दायरे से परे हैं। सीएफजी प्रोग्रामिंग भाषाओं के वाक्य विन्यास का वर्णन करने में एक सहायक उपकरण है।
प्रसंग-मुक्त व्याकरण
इस खंड में, हम पहले संदर्भ-मुक्त व्याकरण की परिभाषा देखेंगे और पार्सिंग तकनीक में प्रयुक्त शब्दावली का परिचय देंगे।
एक संदर्भ-मुक्त व्याकरण के चार घटक हैं:
का एक सेट non-terminals(वी)। गैर-टर्मिनल सिंटैक्टिक चर हैं जो तारों के सेट को दर्शाते हैं। गैर-टर्मिनल स्ट्रिंग्स के सेट को परिभाषित करते हैं जो व्याकरण द्वारा उत्पन्न भाषा को परिभाषित करने में मदद करते हैं।
टोकन का एक सेट, जिसे के रूप में जाना जाता है terminal symbols(Σ)। टर्मिनल ऐसे मूल प्रतीक हैं जिनसे तार का निर्माण होता है।
का एक सेट productions(पी)। एक व्याकरण की प्रस्तुतियों में उस तरीके को निर्दिष्ट किया जाता है जिसमें टर्मिनलों और गैर-टर्मिनलों को तार बनाने के लिए जोड़ा जा सकता है। प्रत्येक उत्पादन में एक होते हैंnon-terminal उत्पादन के बाईं ओर कहा जाता है, एक तीर, और टोकन और / या का एक क्रम on- terminals, उत्पादन के दाईं ओर कहा जाता है।
गैर-टर्मिनलों में से एक को प्रारंभ प्रतीक (एस) के रूप में नामित किया गया है; जहां से उत्पादन शुरू होता है।
स्ट्रिंग्स को एक गैर-टर्मिनल के लिए बार-बार एक गैर-टर्मिनल (शुरू में प्रतीक) की जगह से शुरू किया जाता है, उस गैर-टर्मिनल के लिए।
उदाहरण
हम पैलिंड्रोम भाषा की समस्या को लेते हैं, जिसे नियमित अभिव्यक्ति के माध्यम से वर्णित नहीं किया जा सकता है। अर्थात, L = {w | w = w R } एक नियमित भाषा नहीं है। लेकिन इसका वर्णन सीएफजी के माध्यम से किया जा सकता है, जैसा कि नीचे सचित्र है:
G = ( V, Σ, P, S )
कहाँ पे:
V = { Q, Z, N }
Σ = { 0, 1 }
P = { Q → Z | Q → N | Q → ℇ | Z → 0Q0 | N → 1Q1 }
S = { Q }
इस व्याकरण में पैलेंड्रोम भाषा का वर्णन किया गया है, जैसे: 1001, 11100111, 00100, 1010101, 11111 इत्यादि।
सिंटेक्स एनालाइजर
एक सिंटैक्स विश्लेषक या पार्सर टोकन धाराओं के रूप में एक शाब्दिक विश्लेषक से इनपुट लेता है। पार्सर उत्पादन नियमों के खिलाफ कोड में किसी भी त्रुटि का पता लगाने के लिए स्रोत कोड (टोकन स्ट्रीम) का विश्लेषण करता है। इस चरण का आउटपुट ए हैparse tree।
इस तरह, पार्सर दो कार्यों को पूरा करता है, अर्थात, कोड को पार्स करना, त्रुटियों की तलाश करना और चरण के आउटपुट के रूप में पार्स ट्री का निर्माण करना।
प्रोग्राम में कुछ त्रुटियां होने पर भी पार्सर्स से पूरे कोड को पार्स करने की अपेक्षा की जाती है। पार्सर्स त्रुटि पुनर्प्राप्ति रणनीतियों का उपयोग करते हैं, जो हम इस अध्याय में बाद में सीखेंगे।
व्युत्पत्ति
इनपुट स्ट्रिंग प्राप्त करने के लिए व्युत्पत्ति मूल रूप से उत्पादन नियमों का एक क्रम है। पार्सिंग के दौरान, हम इनपुट के कुछ भावुक रूप के लिए दो निर्णय लेते हैं:
- गैर-टर्मिनल का निर्णय करना जो प्रतिस्थापित किया जाना है।
- उत्पादन नियम तय करना, जिसके द्वारा, गैर-टर्मिनल को बदल दिया जाएगा।
यह तय करने के लिए कि किस गैर-टर्मिनल को उत्पादन नियम से बदला जाए, हमारे पास दो विकल्प हो सकते हैं।
वाम-सर्वाधिक व्युत्पत्ति
यदि किसी इनपुट के प्रांतीय रूप को स्कैन किया जाता है और उसे बाएं से दाएं प्रतिस्थापित किया जाता है, तो इसे बाएं-सबसे व्युत्पत्ति कहा जाता है। बाएं-सबसे व्युत्पन्न द्वारा व्युत्पन्न भेजे जाने वाले रूप को बाएं-संवेदी रूप कहा जाता है।
राइट-सबसे व्युत्पत्ति
यदि हम इनपुट को उत्पादन नियमों से स्कैन और प्रतिस्थापित करते हैं, तो दाएं से बाएं, इसे दाएं-सबसे व्युत्पन्न के रूप में जाना जाता है। दायीं ओर के व्युत्पत्ति से प्राप्त भावुक रूप को दायें-भावुक रूप कहा जाता है।
Example
उत्पादन नियम:
E → E + E
E → E * E
E → id
इनपुट स्ट्रिंग: आईडी + आईडी * आईडी
बाईं सबसे व्युत्पत्ति है:
E → E * E
E → E + E * E
E → id + E * E
E → id + id * E
E → id + id * id
ध्यान दें कि हमेशा सबसे बाईं ओर गैर-टर्मिनल को पहले संसाधित किया जाता है।
सबसे सही व्युत्पत्ति है:
E → E + E
E → E + E * E
E → E + E * id
E → E + id * id
E → id + id * id
पार्स ट्री
एक पार्स ट्री एक व्युत्पत्ति का चित्रमय चित्रण है। यह देखना सुविधाजनक है कि प्रारंभ प्रतीक से तार कैसे निकाले जाते हैं। व्युत्पत्ति का प्रारंभ प्रतीक पार्स पेड़ की जड़ बन जाता है। इसे अंतिम विषय से एक उदाहरण द्वारा देखते हैं।
हम a + b * c के बाएँ-सबसे व्युत्पन्न लेते हैं
बाईं सबसे व्युत्पत्ति है:
E → E * E
E → E + E * E
E → id + E * E
E → id + id * E
E → id + id * id
चरण 1:
ई → ई * ई |
|
चरण 2:
ई → ई + ई * ई |
|
चरण 3:
ई → ईद + ई * ई |
|
चरण 4:
ई → ईद + ईद * ई |
|
चरण 5:
ई → आईडी + आईडी * आईडी |
|
एक तोते के पेड़ में:
- सभी पत्ती नोड्स टर्मिनल हैं।
- सभी आंतरिक नोड गैर-टर्मिनल हैं।
- इन-ऑर्डर ट्रैवर्सल मूल इनपुट स्ट्रिंग देता है।
एक पार्स ट्री में सहकारिता और ऑपरेटरों की पूर्वता को दर्शाया गया है। सबसे गहरे उप-वृक्ष को पहले निकाला जाता है, इसलिए उस उप-पेड़ के ऑपरेटर को उस ऑपरेटर पर पूर्वता मिलती है जो मूल नोड्स में है।
अस्पष्टता
एक व्याकरण G को अस्पष्ट कहा जाता है यदि उसके पास कम से कम एक तार के लिए एक से अधिक पेड़ (बाएं या दाएं व्युत्पत्ति) हैं।
Example
E → E + E
E → E – E
E → id
स्ट्रिंग आईडी + आईडी - आईडी के लिए, उपरोक्त व्याकरण दो पार्स पेड़ उत्पन्न करता है:
अस्पष्ट व्याकरण द्वारा उत्पन्न भाषा को कहा जाता है inherently ambiguous। व्याकरण में अस्पष्टता एक संकलक निर्माण के लिए अच्छा नहीं है। कोई भी विधि स्वचालित रूप से अस्पष्टता का पता नहीं लगा सकती है और हटा नहीं सकती है, लेकिन इसे अस्पष्टता के बिना पूरे व्याकरण को फिर से लिखने या सहानुभूति और पूर्ववर्ती बाधाओं की स्थापना और अनुसरण करके हटाया जा सकता है।
संबद्धता
यदि किसी ऑपरेटर के पास दोनों तरफ के ऑपरेटर होते हैं, तो ऑपरेटर जिस तरफ से इस ऑपरेटर को लेता है, उन ऑपरेटरों की संबद्धता का निर्णय लिया जाता है। यदि ऑपरेशन बाएं-सहयोगी है, तो ऑपरेटर को बाएं ऑपरेटर द्वारा लिया जाएगा या यदि ऑपरेशन राइट-एसोसिएटिव है, तो सही ऑपरेटर ऑपरेंड ले जाएगा।
Example
जोड़, गुणा, घटाव, और विभाजन जैसे संचालन सहयोगी हैं। यदि अभिव्यक्ति में शामिल हैं:
id op id op id
इसका मूल्यांकन इस प्रकार किया जाएगा:
(id op id) op id
उदाहरण के लिए, (आईडी + आईडी) + आईडी
घातांक जैसे संचालन सही सहयोगी हैं, अर्थात, एक ही अभिव्यक्ति में मूल्यांकन का क्रम निम्नानुसार होगा:
id op (id op id)
उदाहरण के लिए, आईडी ^ (आईडी ^ आईडी)
प्रधानता
यदि दो अलग-अलग ऑपरेटर एक आम ऑपरेंड साझा करते हैं, तो ऑपरेटरों की पूर्ववर्तीता तय करती है जो ऑपरेटर को ले जाएगा। अर्थात्, 2 + 3 * 4 में दो अलग-अलग पार्स पेड़ हो सकते हैं, जिनमें से एक (2 + 3) * 4 और दूसरा 2+ (3 * 4) के अनुरूप होता है। ऑपरेटरों के बीच पूर्वता स्थापित करके, इस समस्या को आसानी से दूर किया जा सकता है। जैसा कि पिछले उदाहरण में, गणितीय रूप से * (गुणन) में + (जोड़) पर पूर्वता है, इसलिए 2 + 3 * 4 की अभिव्यक्ति हमेशा इस प्रकार होगी:
2 + (3 * 4)
इन विधियों से किसी भाषा या उसके व्याकरण में अस्पष्टता की संभावना कम हो जाती है।
लेफ्ट रिक्रिएशन
यदि कोई गैर-टर्मिनल 'ए' है, जिसके व्याकरण में 'ए' स्वयं बाएं-सबसे प्रतीक के रूप में होता है, तो एक व्याकरण वाम-पुनरावर्ती हो जाता है। बाएं-पुनरावर्ती व्याकरण को टॉप-डाउन पार्सर के लिए एक समस्याग्रस्त स्थिति माना जाता है। टॉप-डाउन पर्सर्स स्टार्ट सिंबल से पार्स करना शुरू करते हैं, जो अपने आप में नॉन-टर्मिनल है। इसलिए, जब पार्सर अपनी व्युत्पत्ति में उसी गैर-टर्मिनल का सामना करता है, तो उसके लिए यह मुश्किल हो जाता है कि वह कब गैर-टर्मिनल को पार्स करना बंद करे और यह अनंत लूप में चला जाए।
Example:
(1) A => Aα | β
(2) S => Aα | β
A => Sd
(1) तत्काल बाईं पुनरावृत्ति का एक उदाहरण है, जहां ए किसी भी गैर-टर्मिनल प्रतीक है और α गैर-टर्मिनलों की एक स्ट्रिंग का प्रतिनिधित्व करता है।
(२) अप्रत्यक्ष-वाम पुनरावृत्ति का उदाहरण है।
एक टॉप-डाउन पार्सर पहले ए को पार्स करेगा, जो इन-टर्न ए से मिलकर एक स्ट्रिंग प्राप्त करेगा और पार्सर हमेशा के लिए लूप में जा सकता है।
लेफ्ट रिकर्शन को हटाना
बाईं तकनीक को हटाने का एक तरीका निम्नलिखित तकनीक का उपयोग करना है:
उत्पादन
A => Aα | β
निम्नलिखित प्रस्तुतियों में परिवर्तित हो जाता है
A => βA'
A'=> αA' | ε
यह व्याकरण से प्राप्त तारों पर प्रभाव नहीं डालता है, लेकिन यह तत्काल बाईं पुनरावृत्ति को हटा देता है।
दूसरी विधि निम्नलिखित एल्गोरिथ्म का उपयोग करना है, जो सभी प्रत्यक्ष और अप्रत्यक्ष बाईं पुनरावृत्ति को समाप्त करना चाहिए।
START
Arrange non-terminals in some order like A1, A2, A3,…, An
for each i from 1 to n
{
for each j from 1 to i-1
{
replace each production of form Ai ⟹Aj
with Ai ⟹ δ1 | δ2 | δ3 |…|
where Aj ⟹ δ1 | δ2|…| δn are current Aj productions
}
}
eliminate immediate left-recursion
END
Example
उत्पादन सेट
S => Aα | β
A => Sd
उपरोक्त एल्गोरिथ्म को लागू करने के बाद, बनना चाहिए
S => Aα | β
A => Aαd | βd
और फिर, पहली तकनीक का उपयोग करके तत्काल बाईं पुनरावृत्ति को हटा दें।
A => βdA'
A' => αdA' | ε
अब किसी भी उत्पादन में प्रत्यक्ष या अप्रत्यक्ष रूप से वाम पुनरावृत्ति नहीं हुई है।
लेफ्ट फैक्टरिंग
यदि एक से अधिक व्याकरण उत्पादन नियमों में एक सामान्य उपसर्ग स्ट्रिंग है, तो टॉप-डाउन पार्सर एक विकल्प नहीं बना सकता है कि किस उत्पादन को हाथ में स्ट्रिंग को पार्स करने के लिए लिया जाना चाहिए।
Example
यदि एक टॉप-डाउन पार्सर एक उत्पादन की तरह सामना करता है
A ⟹ αβ | α | …
फिर यह निर्धारित नहीं किया जा सकता है कि स्ट्रिंग को पार्स करने के लिए किस उत्पादन का पालन करना है क्योंकि दोनों प्रोडक्शंस एक ही टर्मिनल (या गैर-टर्मिनल) से शुरू हो रहे हैं। इस भ्रम को दूर करने के लिए, हम एक तकनीक का उपयोग करते हैं जिसे लेफ्ट फैक्टरिंग कहा जाता है।
लेफ्ट फैक्टरिंग व्याकरण को टॉप-डाउन पार्सर के लिए उपयोगी बनाता है। इस तकनीक में, हम प्रत्येक सामान्य उपसर्गों के लिए एक उत्पादन करते हैं और बाकी की व्युत्पत्ति नई प्रस्तुतियों द्वारा जोड़ी जाती है।
Example
उपरोक्त प्रस्तुतियों के रूप में लिखा जा सकता है
A => αA'
A'=> β | | …
अब पार्सर में प्रति उपसर्ग केवल एक ही उत्पादन होता है जिससे निर्णय लेना आसान हो जाता है।
पहला और सेट का पालन करें
पार्सर टेबल निर्माण का एक महत्वपूर्ण हिस्सा पहले सेट बनाना और सेट का पालन करना है। ये सेट व्युत्पत्ति में किसी भी टर्मिनल की वास्तविक स्थिति प्रदान कर सकते हैं। यह पार्सिंग टेबल बनाने के लिए किया जाता है जहां कुछ उत्पादन नियम के साथ T [A, t] = α को बदलने का निर्णय लिया जाता है।
आग का सेट
यह सेट यह जानने के लिए बनाया गया है कि गैर-टर्मिनल द्वारा पहली स्थिति में किस टर्मिनल चिन्ह को प्राप्त किया जाता है। उदाहरण के लिए,
α → t β
यह α व्युत्पन्न t (टर्मिनल) है जो पहले स्थान पर है। तो, ∈ FIRST (α)।
पहले सेट की गणना के लिए एल्गोरिदम
FIRST (α) सेट की परिभाषा देखें:
- यदि α एक टर्मिनल है, तो FIRST (α) = {α}।
- यदि α एक गैर-टर्मिनल है और α → a एक उत्पादन है, तो FIRST (α) = {।}।
- यदि α एक गैर-टर्मिनल है और α → 1 2 3 ... n और किसी भी FIRST () में t है तो t FIRST (α) में है।
पहले सेट के रूप में देखा जा सकता है:
सेट का पालन करें
इसी तरह, हम गणना करते हैं कि उत्पादन नियमों में कौन सा टर्मिनल प्रतीक तुरंत गैर-टर्मिनल α का अनुसरण करता है। हम यह नहीं मानते हैं कि गैर-टर्मिनल क्या उत्पन्न कर सकता है, लेकिन इसके बजाय, हम देखते हैं कि अगला टर्मिनल प्रतीक क्या होगा जो एक गैर-टर्मिनल के निर्माण का अनुसरण करता है।
अनुसरण सेट की गणना के लिए एल्गोरिदम:
यदि α एक आरंभिक प्रतीक है, तो FOLLOW () = $
यदि α एक गैर-टर्मिनल है और इसका उत्पादन α → AB है, तो FIRST (B) L को छोड़कर FOLLOW (A) में है।
यदि α एक गैर-टर्मिनल है और इसका उत्पादन α → AB है, जहां B non है, तो FOLLOW (A) FOLLOW (α) में है।
फॉलो सेट को इस प्रकार देखा जा सकता है: FOLLOW (α) = {t | एस * αt *}
सिंटेक्स एनालाइजर की सीमाएं
सिंटेक्स एनालाइज़र अपने इनपुट्स प्राप्त करते हैं, टोकन के रूप में, लेक्सिकल एनालिसिसर्स से। सिंटैक्स विश्लेषक द्वारा आपूर्ति की गई टोकन की वैधता के लिए लेक्सिकल विश्लेषक जिम्मेदार हैं। सिंटैक्स एनालाइज़र में निम्न कमियाँ हैं -
- यह निर्धारित नहीं किया जा सकता है कि टोकन मान्य है,
- यह निर्धारित नहीं किया जा सकता है कि उपयोग किए जाने से पहले एक टोकन घोषित किया गया है,
- यह निर्धारित नहीं किया जा सकता है कि उपयोग किए जाने से पहले एक टोकन आरंभीकृत किया गया है,
- यह निर्धारित नहीं कर सकता है कि टोकन प्रकार पर किया गया कोई ऑपरेशन वैध है या नहीं।
इन कार्यों को सिमेंटिक एनालाइज़र द्वारा पूरा किया जाता है, जिसे हम सिमेंटिक एनालिसिस में अध्ययन करेंगे।