कंपाइलर डिज़ाइन - नियमित अभिव्यक्तियाँ
लेक्सिकल एनालाइजर को वैध स्ट्रिंग / टोकन / लेक्सेम के केवल एक परिमित सेट को स्कैन और पहचानने की आवश्यकता है जो हाथ में भाषा से संबंधित हैं। यह भाषा के नियमों द्वारा परिभाषित पैटर्न की खोज करता है।
नियमित अभिव्यक्ति में प्रतीकों के परिमित तारों के लिए एक पैटर्न को परिभाषित करके परिमित भाषाओं को व्यक्त करने की क्षमता है। नियमित अभिव्यक्तियों द्वारा परिभाषित व्याकरण के रूप में जाना जाता हैregular grammar। नियमित व्याकरण द्वारा परिभाषित भाषा के रूप में जाना जाता हैregular language।
नियमित अभिव्यक्ति पैटर्न को निर्दिष्ट करने के लिए एक महत्वपूर्ण अंकन है। प्रत्येक पैटर्न स्ट्रिंग्स के एक सेट से मेल खाता है, इसलिए नियमित अभिव्यक्तियाँ स्ट्रिंग्स के एक सेट के नाम के रूप में कार्य करती हैं। प्रोग्रामिंग भाषा टोकनों का वर्णन नियमित भाषाओं द्वारा किया जा सकता है। नियमित अभिव्यक्तियों का विनिर्देश पुनरावर्ती परिभाषा का एक उदाहरण है। नियमित भाषाओं को समझना आसान है और कुशल कार्यान्वयन है।
कई बीजीय कानून हैं जो नियमित अभिव्यक्तियों द्वारा पालन किए जाते हैं, जिनका उपयोग नियमित अभिव्यक्ति को समान रूपों में हेरफेर करने के लिए किया जा सकता है।
संचालन
भाषाओं पर विभिन्न संचालन हैं:
L और M दो भाषाओं के मिलन के रूप में लिखे गए हैं
LUM = {s | s, L में है या s} M में है
दो भाषाओं L और M का संयोजन के रूप में लिखा गया है
एलएम = {सेंट | s, L में है और T M में है
एक भाषा एल के क्लेन क्लोजर के रूप में लिखा जाता है
एल * = भाषा की शून्य या अधिक घटना एल।
अंकन
यदि r और s भाषाओं में L (r) और L (s) को दर्शाते हैं, तो नियमित अभिव्यक्ति हैं
Union : (आर) | (एस) एल (एस) उल (एस) को दर्शाती एक नियमित अभिव्यक्ति है।
Concatenation : (आर) (एस) एल (आर) एल (एस) को दर्शाती एक नियमित अभिव्यक्ति है)
Kleene closure : (आर) * एक नियमित अभिव्यक्ति है जिसे दर्शाते हैं (एल (आर)) *
(आर) एल (आर) को दर्शाती एक नियमित अभिव्यक्ति है
वरीयता और संबद्धता
- *, संघ (?), और | (पाइप साइन) बाएं सहयोगी हैं
- * सबसे ज्यादा मिसाल है
- कॉनकैटैशन (?) की दूसरी सबसे बड़ी मिसाल है।
- | (पाइप साइन) सभी की सबसे कम पूर्वता है।
नियमित अभिव्यक्ति में किसी भाषा के मान्य टोकन का प्रतिनिधित्व करना
यदि x एक नियमित अभिव्यक्ति है, तो:
x * का अर्थ है शून्य या x की अधिक घटना।
अर्थात, यह {e, x, xx, xxx, xxxx,…} उत्पन्न कर सकता है
x + का अर्थ है x की एक या अधिक घटना।
अर्थात, यह {x, xx, xxx, xxxx…} या xx * उत्पन्न कर सकता है
एक्स? x की अधिकतम एक घटना का मतलब है
यानी, यह या तो {x} या {e} जेनरेट कर सकता है।
[az] अंग्रेजी भाषा के सभी लोअर-केस अक्षर हैं।
[AZ] अंग्रेजी भाषा के सभी ऊपरी मामले के अक्षर हैं।
[0-9] गणित में प्रयुक्त सभी प्राकृतिक अंक हैं।
नियमित अभिव्यक्तियों का उपयोग करते हुए प्रतीकों की घटना का प्रतिनिधित्व करना
अक्षर = [a - z] या [A - Z]
अंक = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 या [0-9]
चिन्ह = [+ | -]
नियमित अभिव्यक्तियों का उपयोग करते हुए भाषा के टोकन का प्रतिनिधित्व करना
दशांश = (संकेत) ? (अंक) +
पहचानकर्ता = (पत्र) (पत्र | अंक) *
लेक्सिकल एनालाइज़र के पास एकमात्र समस्या यह है कि किसी भाषा के कीवर्ड के पैटर्न को निर्दिष्ट करने में उपयोग की जाने वाली नियमित अभिव्यक्ति की वैधता को कैसे सत्यापित किया जाए। एक अच्छी तरह से स्वीकृत समाधान सत्यापन के लिए परिमित ऑटोमेटा का उपयोग करना है।