कम्पाइलर डिज़ाइन - लेक्सिकल विश्लेषण

लेक्सिकल विश्लेषण एक संकलक का पहला चरण है। यह भाषा प्रीप्रोसेसरों से संशोधित स्रोत कोड लेता है जो वाक्यों के रूप में लिखे गए हैं। स्रोत कोड में किसी भी व्हाट्सएप या टिप्पणियों को हटाकर, लेक्सिकल विश्लेषक इन सिंटैक्स को टोकन की एक श्रृंखला में तोड़ देता है।

यदि लेक्सिकल विश्लेषक एक टोकन को अमान्य पाता है, तो यह एक त्रुटि उत्पन्न करता है। लेक्सिकल विश्लेषक सिंटेक्स विश्लेषक के साथ मिलकर काम करता है। यह स्रोत कोड से चरित्र धाराओं को पढ़ता है, कानूनी टोकन की जांच करता है, और जब यह मांग करता है तो डेटा को सिंटैक्स विश्लेषक को पास करता है।

टोकन

लेकेमेस को एक टोकन में वर्णों (अल्फ़ान्यूमेरिक) का अनुक्रम कहा जाता है। प्रत्येक लेक्सेम के लिए एक मान्य टोकन के रूप में पहचाने जाने के लिए कुछ पूर्वनिर्धारित नियम हैं। इन नियमों को व्याकरण के नियमों द्वारा, एक पैटर्न के माध्यम से परिभाषित किया जाता है। एक पैटर्न बताता है कि एक टोकन क्या हो सकता है, और ये पैटर्न नियमित अभिव्यक्तियों के माध्यम से परिभाषित होते हैं।

प्रोग्रामिंग भाषा में, कीवर्ड, स्थिरांक, पहचानकर्ता, तार, संख्या, ऑपरेटर और विराम चिह्न को टोकन के रूप में माना जा सकता है।

उदाहरण के लिए, सी भाषा में, चर घोषणा रेखा

int value = 100;

टोकन शामिल हैं:

int (keyword), value (identifier), = (operator), 100 (constant) and ; (symbol).

टोकन के विनिर्देशों

आइए हम समझते हैं कि भाषा सिद्धांत निम्नलिखित शर्तों को कैसे पूरा करता है:

अक्षर

प्रतीकों का कोई भी परिमित सेट {0,1} द्विआधारी वर्णमाला का एक सेट है, {0,1,2,3,4,5,6,7,8,9, A, B, C, D, E, F} Hexadecimal alphabets का एक सेट है, {az, AZ} अंग्रेजी भाषा के अक्षर का एक सेट है।

स्ट्रिंग्स

अल्फाबेट्स के किसी भी परिमित अनुक्रम को एक स्ट्रिंग कहा जाता है। स्ट्रिंग की लंबाई वर्णमाला की कुल संख्या है, उदाहरण के लिए, स्ट्रिंग ट्यूटोरियलस्पॉट की लंबाई 14 है और इसके द्वारा निरूपित किया जाता है: Tutorialspoint | = 14. एक स्ट्रिंग जिसमें कोई अक्षर नहीं है, अर्थात शून्य लंबाई की एक स्ट्रिंग को एक रिक्त स्ट्रिंग के रूप में जाना जाता है और इसे il (एप्सिलॉन) द्वारा दर्शाया जाता है।

विशेष चिह्न

एक सामान्य उच्च-स्तरीय भाषा में निम्नलिखित प्रतीक होते हैं: -

अंकगणित के प्रतीक जोड़ (+), घटाव (-), मोडुलो (%), गुणा (*), मंडल (/)
विराम चिह्न कोमा (,), सेमीकोलन (?), डॉट (।), एरो (->)
असाइनमेंट =
विशेष कार्य + =, / =, * =, - =
तुलना ==; =; <, <=>,> = =
पूर्वप्रक्रमक #
स्थान निर्दिष्ट करनेवाला और
तार्किक &, &&;;;,,;
पारी संचालक >>, >>>, <<, <<<

भाषा: हिन्दी

एक भाषा को वर्णमाला के कुछ परिमित सेट पर तारों के परिमित सेट के रूप में माना जाता है। कंप्यूटर भाषाओं को परिमित सेट माना जाता है, और गणितीय रूप से सेट संचालन उन पर किया जा सकता है। नियमित भाषाओं का वर्णन नियमित अभिव्यक्तियों के माध्यम से किया जा सकता है।

सबसे लंबा मैच नियम

जब लेक्सिकल विश्लेषक स्रोत-कोड को पढ़ता है, तो वह अक्षर द्वारा कोड पत्र को स्कैन करता है; और जब यह एक व्हाट्सएप, ऑपरेटर प्रतीक या विशेष प्रतीकों का सामना करता है, तो यह तय करता है कि एक शब्द पूरा हो गया है।

For example:

int intvalue;

दोनों लेक्सेस को 'int' तक स्कैन करते समय, लेक्सिकल एनालाइज़र यह निर्धारित नहीं कर सकता है कि यह एक कीवर्ड इंट या आइडेंटिफ़ायर इंट वैल्यू के शुरुआती अक्षर हैं।

सबसे लंबे मैच के नियम में कहा गया है कि उपलब्ध सभी टोकन के बीच सबसे लंबे मैच के आधार पर स्कैन किए गए लेक्सेम को निर्धारित किया जाना चाहिए।

लेक्सिकल विश्लेषक भी इस प्रकार है rule priorityजहां उपयोगकर्ता के इनपुट पर एक आरक्षित शब्द, जैसे, एक भाषा, एक भाषा, को प्राथमिकता दी जाती है। यही है, यदि लेक्सिकल एनालाइज़र को किसी भी मौजूदा आरक्षित शब्द के साथ मेल खाने वाला एक शब्द मिलता है, तो उसे एक त्रुटि उत्पन्न करनी चाहिए।