Desain Kompilator - Ekspresi Reguler
Penganalisis leksikal perlu memindai dan mengidentifikasi hanya rangkaian terbatas dari string / token / lexeme yang valid milik bahasa yang digunakan. Ini mencari pola yang ditentukan oleh aturan bahasa.
Ekspresi reguler memiliki kemampuan untuk mengekspresikan bahasa berhingga dengan menentukan pola untaian simbol berhingga. Tata bahasa yang ditentukan oleh ekspresi reguler dikenal sebagairegular grammar. Bahasa yang ditentukan oleh tata bahasa biasa dikenal sebagairegular language.
Ekspresi reguler adalah notasi penting untuk menentukan pola. Setiap pola cocok dengan satu set string, sehingga ekspresi reguler berfungsi sebagai nama untuk sekumpulan string. Token bahasa pemrograman dapat dijelaskan dengan bahasa biasa. Spesifikasi ekspresi reguler adalah contoh definisi rekursif. Bahasa biasa mudah dimengerti dan memiliki implementasi yang efisien.
Ada sejumlah hukum aljabar yang ditaati oleh ekspresi reguler, yang dapat digunakan untuk memanipulasi ekspresi reguler menjadi bentuk yang setara.
Operasi
Berbagai operasi pada bahasa adalah:
Gabungan dua bahasa L dan M ditulis sebagai
LUM = {s | s ada di L atau s ada di M}
Penggabungan dua bahasa L dan M ditulis sebagai
LM = {st | s di L dan t di M}
Penutupan Kleene dari bahasa L ditulis sebagai
L * = Nol atau lebih kemunculan bahasa L.
Notasi
Jika r dan s adalah ekspresi reguler yang menunjukkan bahasa L (r) dan L (s), maka
Union : (r) | (s) adalah ekspresi reguler yang menunjukkan L (r) UL (s)
Concatenation : (r) (s) adalah ekspresi reguler yang menunjukkan L (r) L (s)
Kleene closure : (r) * adalah ekspresi reguler yang menunjukkan (L (r)) *
(r) adalah ekspresi reguler yang menunjukkan L (r)
Presedensi dan Asosiatif
- *, penggabungan (.), dan | (tanda pipa) dibiarkan asosiatif
- * memiliki prioritas tertinggi
- Rangkaian (.) Memiliki prioritas tertinggi kedua.
- | (tanda pipa) memiliki prioritas terendah dari semuanya.
Mewakili token yang valid dari suatu bahasa dalam ekspresi reguler
Jika x adalah ekspresi reguler, maka:
x * berarti nol atau lebih kemunculan x.
yaitu, dapat menghasilkan {e, x, xx, xxx, xxxx,…}
x + berarti satu atau lebih kemunculan x.
yaitu, dapat menghasilkan {x, xx, xxx, xxxx…} atau xx *
x? berarti paling banyak satu kemunculan x
yaitu, dapat menghasilkan {x} atau {e}.
[az] adalah semua huruf kecil dari bahasa Inggris.
[AZ] adalah semua huruf besar dari bahasa Inggris.
[0-9] adalah semua angka natural yang digunakan dalam matematika.
Mewakili kemunculan simbol menggunakan ekspresi reguler
letter = [a - z] atau [A - Z]
digit = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 atau [0-9]
tanda = [+ | -]
Mewakili token bahasa menggunakan ekspresi reguler
Desimal = (tanda) ? (digit) +
Pengenal = (huruf) (huruf | digit) *
Satu-satunya masalah yang tersisa dengan penganalisis leksikal adalah bagaimana memverifikasi validitas ekspresi reguler yang digunakan dalam menentukan pola kata kunci suatu bahasa. Solusi yang dapat diterima dengan baik adalah dengan menggunakan automata terbatas untuk verifikasi.