कंपाइलर डिज़ाइन - नियमित अभिव्यक्तियाँ

लेक्सिकल एनालाइजर को वैध स्ट्रिंग / टोकन / लेक्सेम के केवल एक परिमित सेट को स्कैन और पहचानने की आवश्यकता है जो हाथ में भाषा से संबंधित हैं। यह भाषा के नियमों द्वारा परिभाषित पैटर्न की खोज करता है।

नियमित अभिव्यक्ति में प्रतीकों के परिमित तारों के लिए एक पैटर्न को परिभाषित करके परिमित भाषाओं को व्यक्त करने की क्षमता है। नियमित अभिव्यक्तियों द्वारा परिभाषित व्याकरण के रूप में जाना जाता हैregular grammar। नियमित व्याकरण द्वारा परिभाषित भाषा के रूप में जाना जाता हैregular language

नियमित अभिव्यक्ति पैटर्न को निर्दिष्ट करने के लिए एक महत्वपूर्ण अंकन है। प्रत्येक पैटर्न स्ट्रिंग्स के एक सेट से मेल खाता है, इसलिए नियमित अभिव्यक्तियाँ स्ट्रिंग्स के एक सेट के नाम के रूप में कार्य करती हैं। प्रोग्रामिंग भाषा टोकनों का वर्णन नियमित भाषाओं द्वारा किया जा सकता है। नियमित अभिव्यक्तियों का विनिर्देश पुनरावर्ती परिभाषा का एक उदाहरण है। नियमित भाषाओं को समझना आसान है और कुशल कार्यान्वयन है।

कई बीजीय कानून हैं जो नियमित अभिव्यक्तियों द्वारा पालन किए जाते हैं, जिनका उपयोग नियमित अभिव्यक्ति को समान रूपों में हेरफेर करने के लिए किया जा सकता है।

संचालन

भाषाओं पर विभिन्न संचालन हैं:

  • L और M दो भाषाओं के मिलन के रूप में लिखे गए हैं

    LUM = {s | s, L में है या s} M में है

  • दो भाषाओं L और M का संयोजन के रूप में लिखा गया है

    एलएम = {सेंट | s, L में है और T M में है

  • एक भाषा एल के क्लेन क्लोजर के रूप में लिखा जाता है

    एल * = भाषा की शून्य या अधिक घटना एल।

अंकन

यदि r और s भाषाओं में L (r) और L (s) को दर्शाते हैं, तो नियमित अभिव्यक्ति हैं

  • Union : (आर) | (एस) एल (एस) उल (एस) को दर्शाती एक नियमित अभिव्यक्ति है।

  • Concatenation : (आर) (एस) एल (आर) एल (एस) को दर्शाती एक नियमित अभिव्यक्ति है)

  • Kleene closure : (आर) * एक नियमित अभिव्यक्ति है जिसे दर्शाते हैं (एल (आर)) *

  • (आर) एल (आर) को दर्शाती एक नियमित अभिव्यक्ति है

वरीयता और संबद्धता

  • *, संघ (?), और | (पाइप साइन) बाएं सहयोगी हैं
  • * सबसे ज्यादा मिसाल है
  • कॉनकैटैशन (?) की दूसरी सबसे बड़ी मिसाल है।
  • | (पाइप साइन) सभी की सबसे कम पूर्वता है।

नियमित अभिव्यक्ति में किसी भाषा के मान्य टोकन का प्रतिनिधित्व करना

यदि x एक नियमित अभिव्यक्ति है, तो:

  • x * का अर्थ है शून्य या x की अधिक घटना।

    अर्थात, यह {e, x, xx, xxx, xxxx,…} उत्पन्न कर सकता है

  • x + का अर्थ है x की एक या अधिक घटना।

    अर्थात, यह {x, xx, xxx, xxxx…} या xx * उत्पन्न कर सकता है

  • एक्स? x की अधिकतम एक घटना का मतलब है

    यानी, यह या तो {x} या {e} जेनरेट कर सकता है।

  • [az] अंग्रेजी भाषा के सभी लोअर-केस अक्षर हैं।

    [AZ] अंग्रेजी भाषा के सभी ऊपरी मामले के अक्षर हैं।

    [0-9] गणित में प्रयुक्त सभी प्राकृतिक अंक हैं।

नियमित अभिव्यक्तियों का उपयोग करते हुए प्रतीकों की घटना का प्रतिनिधित्व करना

अक्षर = [a - z] या [A - Z]

अंक = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 या [0-9]

चिन्ह = [+ | -]

नियमित अभिव्यक्तियों का उपयोग करते हुए भाषा के टोकन का प्रतिनिधित्व करना

दशांश = (संकेत) ? (अंक) +

पहचानकर्ता = (पत्र) (पत्र | अंक) *

लेक्सिकल एनालाइज़र के पास एकमात्र समस्या यह है कि किसी भाषा के कीवर्ड के पैटर्न को निर्दिष्ट करने में उपयोग की जाने वाली नियमित अभिव्यक्ति की वैधता को कैसे सत्यापित किया जाए। एक अच्छी तरह से स्वीकृत समाधान सत्यापन के लिए परिमित ऑटोमेटा का उपयोग करना है।