Desain Penyusun - Analisis Leksikal

Analisis leksikal adalah tahap pertama dari sebuah kompilator. Dibutuhkan kode sumber yang dimodifikasi dari preprocessor bahasa yang ditulis dalam bentuk kalimat. Penganalisis leksikal memecah sintaksis ini menjadi serangkaian token, dengan menghapus spasi atau komentar apa pun di kode sumber.

Jika penganalisis leksikal menemukan token tidak valid, itu menghasilkan kesalahan. Penganalisis leksikal bekerja erat dengan penganalisis sintaks. Itu membaca aliran karakter dari kode sumber, memeriksa token legal, dan meneruskan data ke penganalisis sintaks saat diminta.

Token

Leksem dikatakan sebagai urutan karakter (alfanumerik) dalam token. Ada beberapa aturan yang telah ditetapkan untuk setiap leksem untuk diidentifikasi sebagai token yang valid. Aturan ini ditentukan oleh aturan tata bahasa, melalui pola. Pola menjelaskan apa yang bisa menjadi token, dan pola ini ditentukan melalui ekspresi reguler.

Dalam bahasa pemrograman, kata kunci, konstanta, pengenal, string, angka, operator, dan tanda baca dapat dianggap sebagai token.

Misalnya, dalam bahasa C, baris deklarasi variabel

int value = 100;

berisi token:

int (keyword), value (identifier), = (operator), 100 (constant) and ; (symbol).

Spesifikasi Token

Mari kita pahami bagaimana teori bahasa menjalankan istilah-istilah berikut:

Abjad

Kumpulan simbol hingga apa pun {0,1} adalah kumpulan alfabet biner, {0,1,2,3,4,5,6,7,8,9, A, B, C, D, E, F} adalah himpunan huruf heksadesimal, {az, AZ} adalah himpunan huruf bahasa Inggris.

String

Setiap urutan huruf yang terbatas disebut string. Panjang string adalah jumlah kemunculan huruf, misalnya panjang string tutorialspoint adalah 14 dan dilambangkan dengan | tutorialspoint | = 14. Sebuah string yang tidak memiliki abjad, yaitu string dengan panjang nol disebut string kosong dan dilambangkan dengan ε (epsilon).

Simbol Khusus

Bahasa tingkat tinggi biasanya berisi simbol-simbol berikut: -

Simbol Aritmatika Penjumlahan (+), Pengurangan (-), Modulo (%), Perkalian (*), Pembagian (/)
Tanda baca Koma (,), Titik Koma (;), Titik (.), Panah (->)
Tugas =
Penugasan Khusus + =, / =, * =, - =
Perbandingan ==,! =, <, <=,>,> =
Preprocessor #
Penentu Lokasi &
Logis &, &&, |, ||,!
Operator Shift >>, >>>, <<, <<<

Bahasa

Sebuah bahasa dianggap sebagai himpunan string yang terbatas di atas beberapa himpunan huruf yang terbatas. Bahasa komputer dianggap sebagai himpunan terbatas, dan operasi himpunan secara matematis dapat dilakukan padanya. Bahasa finit dapat dideskripsikan dengan ekspresi reguler.

Aturan Pertandingan Terpanjang

Ketika penganalisis leksikal membaca kode sumber, penganalisis leksikal memindai kode huruf demi huruf; dan ketika menemukan spasi, simbol operator, atau simbol khusus, itu memutuskan bahwa sebuah kata sudah lengkap.

For example:

int intvalue;

Saat memindai kedua leksem sampai 'int', penganalisis leksikal tidak dapat menentukan apakah itu kata kunci int atau inisial dari nilai int pengenal.

Aturan Pencocokan Terpanjang menyatakan bahwa leksem yang dipindai harus ditentukan berdasarkan kecocokan terpanjang di antara semua token yang tersedia.

Penganalisis leksikal juga mengikuti rule prioritydi mana kata yang dipesan, misalnya, kata kunci, dari suatu bahasa diberikan prioritas di atas input pengguna. Artinya, jika penganalisis leksikal menemukan sebuah leksem yang cocok dengan kata yang dicadangkan, itu akan menghasilkan kesalahan.