Desain Penyusun - Panduan Cepat

Komputer adalah perpaduan yang seimbang antara perangkat lunak dan perangkat keras. Perangkat keras hanyalah bagian dari perangkat mekanis dan fungsinya dikendalikan oleh perangkat lunak yang kompatibel. Perangkat keras memahami instruksi dalam bentuk muatan elektronik, yang merupakan padanan dari bahasa biner dalam pemrograman perangkat lunak. Bahasa biner hanya memiliki dua huruf, 0 dan 1. Sebagai petunjuk, kode perangkat keras harus ditulis dalam format biner, yang hanya berupa rangkaian 1 dan 0. Ini akan menjadi tugas yang sulit dan tidak praktis bagi pemrogram komputer untuk menulis kode seperti itu, itulah sebabnya kami memiliki kompiler untuk menulis kode tersebut.

Sistem Pemrosesan Bahasa

Kami telah mempelajari bahwa setiap sistem komputer terbuat dari perangkat keras dan perangkat lunak. Perangkat keras memahami bahasa, yang tidak dapat dipahami manusia. Jadi kami menulis program dalam bahasa tingkat tinggi, yang lebih mudah untuk kami pahami dan ingat. Program-program ini kemudian dimasukkan ke dalam serangkaian alat dan komponen OS untuk mendapatkan kode yang diinginkan yang dapat digunakan oleh mesin. Ini dikenal sebagai Sistem Pemrosesan Bahasa.

Bahasa tingkat tinggi diubah menjadi bahasa biner dalam berbagai fase. SEBUAHcompileradalah program yang mengubah bahasa tingkat tinggi ke bahasa assembly. Demikian pula, fileassembler adalah program yang mengubah bahasa assembly menjadi bahasa tingkat mesin.

Pertama-tama mari kita pahami bagaimana sebuah program, menggunakan kompiler C, dijalankan pada mesin host.

  • Pengguna menulis program dalam bahasa C (bahasa tingkat tinggi).

  • Kompiler C, mengkompilasi program dan menerjemahkannya ke program assembly (bahasa tingkat rendah).

  • Seorang assembler kemudian menerjemahkan program perakitan ke dalam kode mesin (objek).

  • Alat linker digunakan untuk menghubungkan semua bagian program bersama-sama untuk dieksekusi (kode mesin yang dapat dieksekusi).

  • Sebuah loader memuat semuanya ke dalam memori dan kemudian program dijalankan.

Sebelum terjun langsung ke konsep kompiler, kita harus memahami beberapa alat lain yang bekerja sama dengan kompiler.

Preprocessor

Sebuah preprocessor, umumnya dianggap sebagai bagian dari compiler, adalah sebuah alat yang menghasilkan input untuk compiler. Ini berkaitan dengan pemrosesan makro, augmentasi, penyertaan file, ekstensi bahasa, dll.

Penerjemah

Penerjemah, seperti kompiler, menerjemahkan bahasa tingkat tinggi ke bahasa mesin tingkat rendah. Perbedaannya terletak pada cara mereka membaca kode sumber atau masukan. Kompilator membaca seluruh kode sumber sekaligus, membuat token, memeriksa semantik, menghasilkan kode perantara, menjalankan seluruh program dan mungkin melibatkan banyak lintasan. Sebaliknya, interpreter membaca pernyataan dari input, mengubahnya menjadi kode perantara, menjalankannya, lalu mengambil pernyataan berikutnya secara berurutan. Jika terjadi kesalahan, penerjemah menghentikan eksekusi dan melaporkannya. sedangkan kompilator membaca seluruh program meskipun menemui beberapa kesalahan.

Assembler

Assembler menerjemahkan program bahasa assembly ke dalam kode mesin. Output assembler disebut file objek, yang berisi kombinasi instruksi mesin serta data yang diperlukan untuk menempatkan instruksi ini di memori.

Linker

Linker adalah program komputer yang menghubungkan dan menggabungkan berbagai file objek menjadi satu untuk membuat file yang dapat dieksekusi. Semua file ini mungkin telah dikompilasi oleh assembler terpisah. Tugas utama dari sebuah linker adalah untuk mencari dan menemukan modul / rutinitas yang direferensikan dalam sebuah program dan untuk menentukan lokasi memori dimana kode-kode ini akan dimuat, membuat instruksi program memiliki referensi yang absolut.

Pemuat

Loader adalah bagian dari sistem operasi dan bertanggung jawab untuk memuat file yang dapat dieksekusi ke dalam memori dan menjalankannya. Ini menghitung ukuran program (instruksi dan data) dan menciptakan ruang memori untuk itu. Ini menginisialisasi berbagai register untuk memulai eksekusi.

Kompiler silang

Kompiler yang berjalan pada platform (A) dan mampu menghasilkan kode yang dapat dieksekusi untuk platform (B) disebut kompilator silang.

Penyusun Sumber-ke-sumber

Kompiler yang mengambil kode sumber dari satu bahasa pemrograman dan menerjemahkannya ke dalam kode sumber dari bahasa pemrograman lain disebut kompilator sumber-ke-sumber.

Arsitektur Penyusun

Kompiler secara luas dapat dibagi menjadi dua fase berdasarkan cara kompilasi mereka.

Tahap Analisis

Dikenal sebagai ujung depan kompiler, file analysis fase compiler membaca program sumber, membaginya menjadi bagian-bagian inti dan kemudian memeriksa kesalahan leksikal, tata bahasa dan sintaks. Fase analisis menghasilkan representasi perantara dari program sumber dan tabel simbol, yang harus diumpankan ke fase Sintesis sebagai input .

Fase Sintesis

Dikenal sebagai bagian belakang kompiler, file synthesis fase menghasilkan program target dengan bantuan representasi kode sumber menengah dan tabel simbol.

Kompiler dapat memiliki banyak fase dan lintasan.

  • Pass : Pass mengacu pada traversal kompilator melalui keseluruhan program.

  • Phase: Fase kompiler adalah tahap yang dapat dibedakan, yang mengambil masukan dari tahap sebelumnya, proses dan hasil keluaran yang dapat digunakan sebagai masukan untuk tahap berikutnya. Pass dapat memiliki lebih dari satu fase.

Tahapan Penyusun

Proses kompilasi merupakan rangkaian dari berbagai tahapan. Setiap fase mengambil masukan dari tahap sebelumnya, memiliki representasi program sumbernya sendiri, dan memasukkan keluarannya ke tahap berikutnya dari compiler. Mari kita pahami fase-fase kompiler.

Analisis Leksikal

Fase pertama pemindai berfungsi sebagai pemindai teks. Fase ini memindai kode sumber sebagai aliran karakter dan mengubahnya menjadi leksem yang bermakna. Penganalisis leksikal mewakili leksem-leksem ini dalam bentuk token sebagai:

<token-name, attribute-value>

Analisis Sintaks

Fase selanjutnya disebut analisis sintaks atau parsing. Dibutuhkan token yang dihasilkan oleh analisis leksikal sebagai masukan dan menghasilkan pohon parse (atau pohon sintaks). Dalam fase ini, pengaturan token diperiksa terhadap tata bahasa kode sumber, yaitu parser memeriksa apakah ekspresi yang dibuat oleh token sudah benar secara sintaksis.

Analisis Semantik

Analisis semantik memeriksa apakah pohon parse yang dibangun mengikuti aturan bahasa. Misalnya, penugasan nilai antara tipe data yang kompatibel, dan menambahkan string ke integer. Juga, penganalisis semantik melacak pengidentifikasi, tipe dan ekspresi mereka; apakah pengenal dideklarasikan sebelum digunakan atau tidak, dll. Penganalisis semantik menghasilkan pohon sintaks beranotasi sebagai keluaran.

Pembuatan Kode Menengah

Setelah analisis semantik, kompilator menghasilkan kode perantara dari kode sumber untuk mesin target. Ini mewakili program untuk beberapa mesin abstrak. Itu ada di antara bahasa tingkat tinggi dan bahasa mesin. Kode perantara ini harus dibuat sedemikian rupa sehingga lebih mudah untuk diterjemahkan ke dalam kode mesin target.

Optimasi Kode

Tahap selanjutnya melakukan optimasi kode dari kode perantara. Optimasi dapat diasumsikan sebagai sesuatu yang menghilangkan baris kode yang tidak diperlukan, dan mengatur urutan pernyataan untuk mempercepat eksekusi program tanpa membuang sumber daya (CPU, memori).

Pembuatan Kode

Dalam fase ini, pembuat kode mengambil representasi yang dioptimalkan dari kode perantara dan memetakannya ke bahasa mesin target. Pembuat kode menerjemahkan kode perantara menjadi urutan (umumnya) kode mesin yang dapat ditempatkan kembali. Urutan instruksi kode mesin melakukan tugas seperti yang akan dilakukan kode perantara.

Tabel Simbol

Ini adalah struktur data yang dipelihara di seluruh fase kompilator. Semua nama pengenal beserta tipenya disimpan di sini. Tabel simbol memudahkan penyusun untuk mencari catatan pengenal dengan cepat dan mengambilnya kembali. Tabel simbol juga digunakan untuk manajemen lingkup.

Analisis leksikal adalah tahap pertama dari sebuah kompilator. Dibutuhkan kode sumber yang dimodifikasi dari preprocessor bahasa yang ditulis dalam bentuk kalimat. Penganalisis leksikal memecah sintaksis ini menjadi serangkaian token, dengan menghapus spasi atau komentar apa pun di kode sumber.

Jika penganalisis leksikal menemukan token tidak valid, itu menghasilkan kesalahan. Penganalisis leksikal bekerja erat dengan penganalisis sintaks. Ia membaca aliran karakter dari kode sumber, memeriksa token legal, dan meneruskan data ke penganalisis sintaks saat diminta.

Token

Leksem dikatakan sebagai urutan karakter (alfanumerik) dalam token. Ada beberapa aturan yang telah ditetapkan untuk setiap leksem untuk diidentifikasi sebagai token yang valid. Aturan ini ditentukan oleh aturan tata bahasa, melalui pola. Pola menjelaskan apa yang bisa menjadi token, dan pola ini ditentukan melalui ekspresi reguler.

Dalam bahasa pemrograman, kata kunci, konstanta, pengenal, string, angka, operator, dan tanda baca dapat dianggap sebagai token.

Misalnya, dalam bahasa C, baris deklarasi variabel

int value = 100;

berisi token:

int (keyword), value (identifier), = (operator), 100 (constant) and ; (symbol).

Spesifikasi Token

Mari kita pahami bagaimana teori bahasa menjalankan istilah-istilah berikut:

Abjad

Kumpulan simbol hingga apa pun {0,1} adalah kumpulan alfabet biner, {0,1,2,3,4,5,6,7,8,9, A, B, C, D, E, F} adalah himpunan huruf heksadesimal, {az, AZ} adalah himpunan huruf bahasa Inggris.

String

Setiap urutan huruf yang terbatas disebut string. Panjang string adalah jumlah kemunculan huruf, misalnya panjang string tutorialspoint adalah 14 dan dilambangkan dengan | tutorialspoint | = 14. Sebuah string yang tidak memiliki abjad, yaitu string dengan panjang nol disebut string kosong dan dilambangkan dengan ε (epsilon).

Simbol Khusus

Bahasa tingkat tinggi biasanya berisi simbol-simbol berikut: -

Simbol Aritmatika Penjumlahan (+), Pengurangan (-), Modulo (%), Perkalian (*), Pembagian (/)
Tanda baca Koma (,), Titik Koma (;), Titik (.), Panah (->)
Tugas =
Penugasan Khusus + =, / =, * =, - =
Perbandingan ==,! =, <, <=,>,> =
Preprocessor #
Penentu Lokasi &
Logis &, &&, |, ||,!
Operator Shift >>, >>>, <<, <<<

Bahasa

Sebuah bahasa dianggap sebagai himpunan string terbatas di atas beberapa himpunan huruf yang terbatas. Bahasa komputer dianggap sebagai himpunan terbatas, dan operasi himpunan secara matematis dapat dilakukan padanya. Bahasa finit dapat dideskripsikan dengan ekspresi reguler.

Ekspresi Reguler

Penganalisis leksikal perlu memindai dan mengidentifikasi hanya rangkaian terbatas dari string / token / lexeme yang valid milik bahasa yang digunakan. Ini mencari pola yang ditentukan oleh aturan bahasa.

Ekspresi reguler memiliki kemampuan untuk mengekspresikan bahasa berhingga dengan menentukan pola untaian simbol berhingga. Tata bahasa yang ditentukan oleh ekspresi reguler dikenal sebagairegular grammar. Bahasa yang ditentukan oleh tata bahasa biasa dikenal sebagairegular language.

Ekspresi reguler adalah notasi penting untuk menentukan pola. Setiap pola cocok dengan satu set string, sehingga ekspresi reguler berfungsi sebagai nama untuk sekumpulan string. Token bahasa pemrograman dapat dijelaskan dengan bahasa biasa. Spesifikasi ekspresi reguler adalah contoh definisi rekursif. Bahasa biasa mudah dipahami dan memiliki implementasi yang efisien.

Ada sejumlah hukum aljabar yang ditaati oleh ekspresi reguler, yang dapat digunakan untuk memanipulasi ekspresi reguler menjadi bentuk yang setara.

Operasi

Berbagai operasi pada bahasa adalah:

  • Gabungan dua bahasa L dan M ditulis sebagai

    LUM = {s | s ada di L atau s ada di M}

  • Rangkaian dua bahasa L dan M ditulis sebagai

    LM = {st | s di L dan t di M}

  • Penutupan Kleene dari bahasa L ditulis sebagai

    L * = Nol atau lebih kemunculan bahasa L.

Notasi

Jika r dan s adalah ekspresi reguler yang menunjukkan bahasa L (r) dan L (s), maka

  • Union : (r) | (s) adalah ekspresi reguler yang menunjukkan L (r) UL (s)

  • Concatenation : (r) (s) adalah ekspresi reguler yang menunjukkan L (r) L (s)

  • Kleene closure : (r) * adalah ekspresi reguler yang menunjukkan (L (r)) *

  • (r) adalah ekspresi reguler yang menunjukkan L (r)

Presedensi dan Asosiatif

  • *, penggabungan (.), dan | (tanda pipa) dibiarkan asosiatif
  • * memiliki prioritas tertinggi
  • Rangkaian (.) Memiliki prioritas tertinggi kedua.
  • | (tanda pipa) memiliki prioritas terendah dari semuanya.

Mewakili token yang valid dari suatu bahasa dalam ekspresi reguler

Jika x adalah ekspresi reguler, maka:

  • x * berarti nol atau lebih kemunculan x.

    yaitu, dapat menghasilkan {e, x, xx, xxx, xxxx,…}

  • x + berarti satu atau lebih kemunculan x.

    yaitu, dapat menghasilkan {x, xx, xxx, xxxx…} atau xx *

  • x? berarti paling banyak satu kemunculan x

    yaitu, dapat menghasilkan {x} atau {e}.

  • [az] adalah semua huruf kecil dari bahasa Inggris.

    [AZ] adalah semua huruf besar dari bahasa Inggris.

    [0-9] adalah semua angka natural yang digunakan dalam matematika.

Mewakili kemunculan simbol menggunakan ekspresi reguler

letter = [a - z] atau [A - Z]

digit = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 atau [0-9]

tanda = [+ | -]

Mewakili token bahasa menggunakan ekspresi reguler

Desimal = (tanda) ? (digit) +

Identifier = (huruf) (huruf | digit) *

Satu-satunya masalah yang tersisa dengan penganalisis leksikal adalah bagaimana memverifikasi validitas ekspresi reguler yang digunakan dalam menentukan pola kata kunci suatu bahasa. Solusi yang dapat diterima dengan baik adalah dengan menggunakan automata terbatas untuk verifikasi.

Automata terbatas

Automata hingga adalah mesin status yang mengambil serangkaian simbol sebagai input dan mengubah statusnya sesuai dengan itu. Automata terbatas adalah pengenal ekspresi reguler. Ketika string ekspresi reguler dimasukkan ke automata hingga, statusnya untuk setiap literal berubah. Jika string input berhasil diproses dan automata mencapai status akhirnya, itu diterima, yaitu string yang baru saja diumpankan dikatakan sebagai token valid dari bahasa yang ada.

Model matematis dari finite automata terdiri dari:

  • Himpunan negara hingga (Q)
  • Kumpulan simbol input hingga (Σ)
  • Status Satu Mulai (q0)
  • Kumpulan keadaan akhir (qf)
  • Fungsi transisi (δ)

Fungsi transisi (δ) memetakan himpunan keadaan hingga (Q) ke himpunan simbol input berhingga (Σ), Q × Σ ➔ Q

Konstruksi Automata Hingga

Misalkan L (r) menjadi bahasa biasa yang dikenali oleh beberapa automata terbatas (FA).

  • States: Serikat FA diwakili oleh lingkaran. Nama negara bagian ditulis di dalam lingkaran.

  • Start state: Keadaan dari mana automata dimulai, dikenal sebagai keadaan mulai. Status awal memiliki panah yang mengarah ke sana.

  • Intermediate states: Semua negara bagian perantara memiliki setidaknya dua anak panah; satu menunjuk ke dan satu lagi menunjuk dari mereka.

  • Final state: Jika string input berhasil diurai, automata diharapkan berada dalam status ini. Keadaan akhir diwakili oleh lingkaran ganda. Mungkin ada jumlah panah ganjil yang menunjuk ke sana dan jumlah panah genap yang menunjuk ke luar darinya. Jumlah panah ganjil satu lebih besar dari genap, yaituodd = even+1.

  • Transition: Transisi dari satu keadaan ke keadaan lain terjadi ketika simbol yang diinginkan dalam masukan ditemukan. Setelah transisi, automata dapat berpindah ke status berikutnya atau tetap dalam status yang sama. Perpindahan dari satu keadaan ke keadaan lain ditampilkan sebagai panah terarah, dimana panah menunjuk ke keadaan tujuan. Jika automata tetap berada di status yang sama, panah yang menunjuk dari status ke status itu sendiri akan ditarik.

Example: Kami menganggap FA menerima nilai biner tiga digit yang diakhiri dengan digit 1. FA = {Q (q 0 , q f ), Σ (0,1), q 0 , q f , δ}

Aturan Pertandingan Terpanjang

Ketika penganalisis leksikal membaca kode sumber, penganalisis leksikal memindai kode huruf demi huruf; dan ketika menemukan spasi, simbol operator, atau simbol khusus, itu memutuskan bahwa sebuah kata sudah lengkap.

For example:

int intvalue;

Saat memindai kedua leksem sampai 'int', penganalisis leksikal tidak dapat menentukan apakah itu kata kunci int atau inisial dari nilai int pengenal.

Aturan Pencocokan Terpanjang menyatakan bahwa leksem yang dipindai harus ditentukan berdasarkan kecocokan terpanjang di antara semua token yang tersedia.

Penganalisis leksikal juga mengikuti rule prioritydi mana kata yang dipesan, misalnya, kata kunci, dari suatu bahasa diberikan prioritas di atas input pengguna. Artinya, jika penganalisis leksikal menemukan sebuah leksem yang cocok dengan kata yang sudah dipesan, itu akan menghasilkan kesalahan.

Analisis sintaks atau parsing adalah tahap kedua dari sebuah compiler. Dalam bab ini, kita akan mempelajari konsep dasar yang digunakan dalam konstruksi parser.

Kita telah melihat bahwa penganalisis leksikal dapat mengidentifikasi token dengan bantuan ekspresi reguler dan aturan pola. Tetapi penganalisis leksikal tidak dapat memeriksa sintaks dari kalimat yang diberikan karena keterbatasan ekspresi reguler. Ekspresi reguler tidak dapat memeriksa token penyeimbang, seperti tanda kurung. Oleh karena itu, fase ini menggunakan tata bahasa bebas konteks (CFG), yang dikenali oleh automata push-down.

CFG, di sisi lain, adalah superset Tata Bahasa Reguler, seperti yang digambarkan di bawah ini:

Ini menyiratkan bahwa setiap Tata Bahasa Reguler juga bebas konteks, tetapi terdapat beberapa masalah, yang berada di luar cakupan Tata Bahasa Reguler. CFG adalah alat yang membantu dalam menjelaskan sintaks bahasa pemrograman.

Tata Bahasa Bebas Konteks

Pada bagian ini, pertama-tama kita akan melihat definisi tata bahasa bebas konteks dan memperkenalkan terminologi yang digunakan dalam teknologi parsing.

Tata bahasa tanpa konteks memiliki empat komponen:

  • Satu set non-terminals(V). Non-terminal adalah variabel sintaksis yang menunjukkan kumpulan string. Non-terminal mendefinisikan set string yang membantu mendefinisikan bahasa yang dihasilkan oleh tata bahasa.

  • Satu set token, yang dikenal sebagai terminal symbols(Σ). Terminal adalah simbol dasar dari mana string terbentuk.

  • Satu set productions(P). Produksi tata bahasa menentukan cara di mana terminal dan non-terminal dapat digabungkan untuk membentuk string. Setiap produksi terdiri dari anon-terminal disebut sisi kiri produksi, panah, dan urutan token dan / atau on- terminals, yang disebut sisi kanan produksi.

  • Salah satu non-terminal ditetapkan sebagai simbol start (S); dari tempat produksi dimulai.

String diturunkan dari simbol awal dengan berulang kali mengganti non-terminal (awalnya simbol start) di sisi kanan produksi, untuk non-terminal tersebut.

Contoh

Kami mengambil masalah bahasa palindrome, yang tidak dapat dijelaskan dengan Regular Expression. Artinya, L = {w | w = w R } bukan bahasa biasa. Tapi itu bisa dijelaskan melalui CFG, seperti diilustrasikan di bawah ini:

G = ( V, Σ, P, S )

Dimana:

V = { Q, Z, N }
Σ = { 0, 1 }
P = { Q → Z | Q → N | Q → ℇ | Z → 0Q0 | N → 1Q1 }
S = { Q }

Tata bahasa ini menjelaskan bahasa palindrome, seperti: 1001, 11100111, 00100, 1010101, 11111, dll.

Penganalisis Sintaks

Penganalisis atau pengurai sintaks mengambil masukan dari penganalisis leksikal dalam bentuk aliran token. Parser menganalisis kode sumber (aliran token) terhadap aturan produksi untuk mendeteksi kesalahan apa pun dalam kode. Output dari fase ini adalah aparse tree.

Dengan cara ini, parser menyelesaikan dua tugas, yaitu mem-parsing kode, mencari kesalahan, dan menghasilkan pohon parse sebagai output dari fase.

Parser diharapkan mengurai seluruh kode meskipun beberapa kesalahan ada dalam program. Parser menggunakan strategi pemulihan kesalahan, yang akan kita pelajari nanti di bab ini.

Penurunan

Derivasi pada dasarnya adalah urutan aturan produksi, untuk mendapatkan string input. Selama penguraian, kami mengambil dua keputusan untuk beberapa bentuk masukan sentensial:

  • Memutuskan non-terminal mana yang akan diganti.
  • Memutuskan aturan produksi, dimana, non-terminal akan diganti.

Untuk memutuskan non-terminal mana yang akan diganti dengan aturan produksi, kita dapat memiliki dua opsi.

Penurunan paling kiri

Jika bentuk sentensial dari suatu masukan dipindai dan diganti dari kiri ke kanan, itu disebut derivasi paling kiri. Bentuk sentensial yang diturunkan oleh derivasi paling kiri disebut bentuk sentensial kiri.

Penurunan Paling Kanan

Jika kita memindai dan mengganti input dengan aturan produksi, dari kanan ke kiri, ini dikenal sebagai derivasi paling kanan. Bentuk sentensial yang diturunkan dari derivasi paling kanan disebut bentuk sentensial-kanan.

Example

Aturan produksi:

E → E + E
E → E * E
E → id

String masukan: id + id * id

Derivasi paling kiri adalah:

E → E * E
E → E + E * E
E → id + E * E
E → id + id * E
E → id + id * id

Perhatikan bahwa non-terminal sisi paling kiri selalu diproses terlebih dahulu.

Derivasi paling kanan adalah:

E → E + E
E → E + E * E
E → E + E * id
E → E + id * id
E → id + id * id

Parse Tree

Pohon parse adalah penggambaran grafis dari suatu derivasi. Lebih mudah melihat bagaimana string diturunkan dari simbol awal. Simbol awal penurunan menjadi akar pohon parse. Mari kita lihat ini dengan contoh dari topik terakhir.

Kami mengambil turunan paling kiri dari a + b * c

Derivasi paling kiri adalah:

E → E * E
E → E + E * E
E → id + E * E
E → id + id * E
E → id + id * id

Langkah 1:

E → E * E

Langkah 2:

E → E + E * E

Langkah 3:

E → id + E * E

Langkah 4:

E → id + id * E

Langkah 5:

E → id + id * id

Di pohon parse:

  • Semua simpul daun adalah terminal.
  • Semua node interior adalah non-terminal.
  • Traversal berurutan memberikan string input asli.

Pohon parse menggambarkan asosiasi dan prioritas operator. Sub-pohon terdalam dilintasi terlebih dahulu, oleh karena itu operator dalam sub-pohon tersebut diutamakan daripada operator yang ada di simpul induk.

Jenis Parsing

Penganalisis sintaks mengikuti aturan produksi yang ditentukan melalui tata bahasa bebas konteks. Cara aturan produksi diimplementasikan (derivasi) membagi parsing menjadi dua jenis: parsing top-down dan parsing bottom-up.

Parsing Top-down

Saat pengurai mulai membangun pohon parse dari simbol awal dan kemudian mencoba mengubah simbol awal menjadi masukan, ini disebut penguraian atas-bawah.

  • Recursive descent parsing: Ini adalah bentuk umum penguraian dari atas ke bawah. Ini disebut rekursif karena menggunakan prosedur rekursif untuk memproses input. Penguraian penurunan berulang mengalami kemunduran.

  • Backtracking: Artinya, jika satu derivasi produksi gagal, penganalisis sintaks memulai ulang proses menggunakan aturan berbeda untuk produksi yang sama. Teknik ini dapat memproses string input lebih dari satu kali untuk menentukan produksi yang tepat.

Parsing Bottom-up

Seperti namanya, penguraian bottom-up dimulai dengan simbol input dan mencoba membangun pohon parse hingga simbol awal.

Example:

String masukan: a + b * c

Aturan produksi:

S → E
E → E + T
E → E * T
E → T
T → id

Mari kita mulai parsing bottom-up

a + b * c

Baca input dan periksa apakah ada produksi yang cocok dengan input:

a + b * c
T + b * c
E + b * c
E + T * c
E * c
E * T
E
S

Kemenduaan

Tata bahasa G dikatakan ambigu jika memiliki lebih dari satu pohon parse (derivasi kiri atau kanan) untuk setidaknya satu string.

Example

E → E + E
E → E – E
E → id

Untuk string id + id - id, tata bahasa di atas menghasilkan dua pohon parse:

Bahasa yang dihasilkan oleh tata bahasa yang ambigu dikatakan demikian inherently ambiguous. Ambiguitas dalam tata bahasa tidak baik untuk konstruksi compiler. Tidak ada metode yang dapat mendeteksi dan menghapus ambiguitas secara otomatis, tetapi metode ini dapat dihilangkan dengan menulis ulang seluruh tata bahasa tanpa ambiguitas, atau dengan menyetel dan mengikuti batasan asosiatif dan prioritas.

Asosiatif

Jika sebuah operan memiliki operator di kedua sisi, sisi tempat operator mengambil operan ini ditentukan oleh asosiasi operator tersebut. Jika operasinya adalah kiri-asosiatif, maka operan akan diambil oleh operator kiri atau jika operasinya adalah asosiasi kanan, operator kanan akan mengambil operan.

Example

Operasi seperti Penjumlahan, Perkalian, Pengurangan, dan Pembagian dibiarkan asosiatif. Jika ekspresi tersebut mengandung:

id op id op id

itu akan dievaluasi sebagai:

(id op id) op id

Misalnya, (id + id) + id

Operasi seperti Eksponensial adalah asosiatif benar, yaitu urutan evaluasi dalam ekspresi yang sama adalah:

id op (id op id)

Misalnya, id ^ (id ^ id)

Hak lebih tinggi

Jika dua operator berbeda berbagi operan yang sama, prioritas operator memutuskan operator mana yang akan mengambil operan. Artinya, 2 + 3 * 4 dapat memiliki dua pohon parse yang berbeda, satu sesuai dengan (2 + 3) * 4 dan lainnya sesuai dengan 2+ (3 * 4). Dengan menetapkan prioritas di antara operator, masalah ini dapat dengan mudah dihilangkan. Seperti pada contoh sebelumnya, secara matematis * (perkalian) didahulukan dari + (penjumlahan), sehingga ekspresi 2 + 3 * 4 akan selalu diartikan sebagai:

2 + (3 * 4)

Metode ini mengurangi kemungkinan ambiguitas dalam suatu bahasa atau tata bahasanya.

Rekursi Kiri

Sebuah tata bahasa menjadi rekursif kiri jika ia memiliki non-terminal 'A' yang derivasi mengandung 'A' itu sendiri sebagai simbol paling kiri. Tata bahasa rekursif kiri dianggap sebagai situasi bermasalah bagi parser top-down. Parser top-down mulai mem-parsing dari simbol Start, yang dengan sendirinya bukan terminal. Jadi, ketika parser menemukan non-terminal yang sama dalam turunannya, akan sulit untuk menentukan kapan harus berhenti mengurai non-terminal kiri dan itu masuk ke loop tak terbatas.

Example:

(1) A => Aα | β

(2) S => Aα | β 
    A => Sd

(1) adalah contoh rekursi kiri langsung, di mana A adalah simbol non-terminal dan α mewakili string non-terminal.

(2) adalah contoh rekursi kiri tidak langsung.

Parser top-down pertama-tama akan mengurai A, yang pada gilirannya akan menghasilkan string yang terdiri dari A itu sendiri dan parser dapat terus berputar selamanya.

Penghapusan Rekursi Kiri

Salah satu cara untuk menghilangkan rekursi kiri adalah dengan menggunakan teknik berikut:

Produksi

A => Aα | β

diubah menjadi produksi berikut

A => βA’
A => αA’ | ε

Ini tidak memengaruhi string yang diturunkan dari tata bahasa, tetapi menghapus rekursi kiri langsung.

Metode kedua adalah dengan menggunakan algoritma berikut, yang seharusnya menghilangkan semua rekursi kiri langsung dan tidak langsung.

Algorithm
START
Arrange non-terminals in some order like A1, A2, A3,…, An
for each i from 1 to n
{
for each j from 1 to i-1
   {
   replace each production of form Ai⟹Aj
   with Ai ⟹ δ1  | δ2 | δ3 |…|  
   where Aj ⟹ δ1 | δ2|…| δn  are current Aj productions
}
   }
   eliminate immediate left-recursion
END

Example

Set produksi

S => Aα | β 
A => Sd

setelah menerapkan algoritma di atas, seharusnya menjadi

S => Aα | β 
A => Aαd | βd

dan kemudian, segera hapus rekursi kiri menggunakan teknik pertama.

A => βdA’
A => αdA’ | ε

Sekarang tidak ada produksi yang memiliki rekursi kiri langsung atau tidak langsung.

Anjak Kiri

Jika lebih dari satu aturan produksi tata bahasa memiliki string awalan yang sama, maka pengurai top-down tidak dapat membuat pilihan produksi mana yang harus dilakukan untuk mengurai string di tangan.

Example

Jika pengurai top-down menemui produksi seperti

A ⟹ αβ | α | …

Kemudian tidak dapat menentukan produksi mana yang akan diikuti untuk mengurai string karena kedua produksi dimulai dari terminal yang sama (atau non-terminal). Untuk menghilangkan kebingungan ini, kami menggunakan teknik yang disebut pemfaktoran kiri.

Pemfaktoran kiri mengubah tata bahasa agar berguna untuk pengurai top-down. Dalam teknik ini, kami membuat satu produksi untuk setiap prefiks umum dan sisa turunannya ditambahkan dengan produksi baru.

Example

Produksi di atas dapat ditulis sebagai

A => αA’
A’=> β |  | …

Sekarang parser hanya memiliki satu produksi per prefiks yang membuatnya lebih mudah untuk mengambil keputusan.

Set Pertama dan Ikuti

Bagian penting dari konstruksi tabel parser adalah membuat set pertama dan ikuti. Set ini dapat memberikan posisi sebenarnya dari terminal mana pun dalam derivasi. Hal ini dilakukan untuk membuat tabel parsing dimana keputusan untuk mengganti T [A, t] = α dengan beberapa aturan produksi.

Set Pertama

Himpunan ini dibuat untuk mengetahui simbol terminal apa yang diturunkan pada posisi pertama oleh non-terminal. Sebagai contoh,

α → t β

Artinya α menurunkan t (terminal) di posisi pertama. Jadi, t ∈ PERTAMA (α).

Algoritma untuk menghitung Set pertama

Lihatlah definisi set FIRST (α):

  • jika α adalah terminal, maka PERTAMA (α) = {α}.
  • jika α adalah non-terminal dan α → ℇ adalah produksi, maka FIRST (α) = {ℇ}.
  • jika α adalah non-terminal dan α → 1 2 3… n dan semua FIRST () berisi t maka t ada di FIRST (α).

Set pertama dapat dilihat sebagai: FIRST (α) = {t | α → * t β} ∪ {ℇ | α → * ε}

Ikuti Set

Demikian juga, kami menghitung simbol terminal apa yang segera mengikuti α non-terminal dalam aturan produksi. Kami tidak mempertimbangkan apa yang dapat dihasilkan oleh non-terminal tetapi sebaliknya, kami melihat apa yang akan menjadi simbol terminal berikutnya yang mengikuti produksi non-terminal.

Algoritma untuk menghitung set Ikuti:

  • jika α adalah simbol awal, maka IKUTI () = $

  • jika α adalah non-terminal dan memiliki produksi α → AB, maka FIRST (B) ada di FOLLOW (A) kecuali ℇ.

  • jika α non-terminal dan memiliki produksi α → AB, di mana B ℇ, maka IKUTI (A) dalam FOLLOW (α).

Ikuti set dapat dilihat sebagai: IKUTI (α) = {t | S * αt *}

Strategi Pemulihan Kesalahan

Pengurai harus dapat mendeteksi dan melaporkan kesalahan apa pun dalam program. Diharapkan bahwa ketika terjadi kesalahan, parser harus bisa menanganinya dan melanjutkan penguraian input lainnya. Sebagian besar dari parser diharapkan untuk memeriksa kesalahan, tetapi kesalahan dapat ditemukan pada berbagai tahap proses kompilasi. Suatu program mungkin memiliki jenis kesalahan berikut pada berbagai tahap:

  • Lexical : nama beberapa pengenal tidak diketik dengan benar

  • Syntactical : titik koma tidak ada atau tanda kurung tidak seimbang

  • Semantical : penugasan nilai yang tidak kompatibel

  • Logical : kode tidak dapat dijangkau, loop tak terbatas

Ada empat strategi pemulihan kesalahan umum yang dapat diterapkan di parser untuk menangani kesalahan dalam kode.

Mode panik

Saat parser menemukan kesalahan di mana pun dalam pernyataan, ia mengabaikan pernyataan lainnya dengan tidak memproses masukan dari masukan yang salah ke pembatas, seperti titik koma. Ini adalah cara termudah untuk pemulihan kesalahan dan juga, mencegah parser mengembangkan loop tak terbatas.

Mode pernyataan

Ketika pengurai menemukan kesalahan, ia mencoba untuk mengambil tindakan korektif sehingga masukan pernyataan lainnya memungkinkan pengurai untuk mengurai terlebih dahulu. Misalnya, menyisipkan titik koma yang hilang, mengganti koma dengan titik koma, dll. Desainer pengurai harus berhati-hati di sini karena satu koreksi yang salah dapat menyebabkan loop tak terbatas.

Produksi kesalahan

Beberapa kesalahan umum diketahui oleh perancang kompilator yang mungkin terjadi dalam kode. Selain itu, desainer dapat membuat tata bahasa tambahan untuk digunakan, sebagai produksi yang menghasilkan konstruksi yang salah saat kesalahan ini ditemui.

Koreksi global

Parser mempertimbangkan program yang ada di tangan secara keseluruhan dan mencoba untuk mencari tahu apa program yang dimaksudkan untuk dilakukan dan mencoba untuk menemukan kecocokan terdekat untuk itu, yang bebas dari kesalahan. Ketika input yang salah (pernyataan) X diumpankan, itu membuat pohon parse untuk beberapa pernyataan bebas kesalahan terdekat Y. Ini memungkinkan parser membuat perubahan minimal dalam kode sumber, tetapi karena kompleksitas (waktu dan ruang) dari strategi ini, belum diimplementasikan dalam praktiknya.

Pohon Sintaks Abstrak

Representasi parse tree tidak mudah diurai oleh compiler, karena mengandung lebih banyak detail daripada yang sebenarnya dibutuhkan. Ambil pohon parse berikut sebagai contoh:

Jika diamati lebih dekat, kami menemukan sebagian besar node daun adalah anak tunggal dari node induknya. Informasi ini dapat dihilangkan sebelum memasukkannya ke fase berikutnya. Dengan menyembunyikan informasi tambahan, kita dapat memperoleh pohon seperti yang ditunjukkan di bawah ini:

Pohon abstrak dapat direpresentasikan sebagai:

AST adalah struktur data penting dalam kompilator dengan informasi yang paling tidak diperlukan. AST lebih kompak daripada pohon parse dan dapat dengan mudah digunakan oleh kompilator.

Batasan Penganalisis Sintaks

Penganalisis sintaks menerima masukan mereka, dalam bentuk token, dari penganalisis leksikal. Penganalisis leksikal bertanggung jawab atas validitas token yang disediakan oleh penganalisis sintaks. Penganalisis sintaks memiliki kelemahan berikut:

  • itu tidak dapat menentukan apakah token itu valid,
  • itu tidak dapat menentukan apakah token dideklarasikan sebelum digunakan,
  • itu tidak dapat menentukan apakah token diinisialisasi sebelum digunakan,
  • itu tidak dapat menentukan apakah operasi yang dilakukan pada tipe token valid atau tidak.

Tugas-tugas ini diselesaikan oleh penganalisis semantik, yang akan kita pelajari dalam Analisis Semantik.

Kami telah mempelajari bagaimana parser membuat pohon parse dalam fase analisis sintaks. Parse-tree biasa yang dibangun dalam fase itu umumnya tidak berguna bagi kompiler, karena tidak membawa informasi apa pun tentang cara mengevaluasi hierarki tersebut. Produksi tata bahasa bebas konteks, yang membuat aturan-aturan bahasa, tidak mengakomodasi cara menafsirkannya.

Sebagai contoh

E → E + T

Produksi CFG di atas tidak memiliki aturan semantik yang terkait dengannya, dan tidak dapat membantu dalam memahami produksi.

Semantik

Semantik suatu bahasa memberi arti pada konstruksinya, seperti token dan struktur sintaksis. Semantik membantu menafsirkan simbol, tipenya, dan hubungannya satu sama lain. Analisis semantik menilai apakah struktur sintaks yang dibangun dalam program sumber memiliki arti atau tidak.

CFG + semantic rules = Syntax Directed Definitions

Sebagai contoh:

int a = “value”;

seharusnya tidak mengeluarkan kesalahan dalam tahap analisis leksikal dan sintaksis, karena secara leksikal dan struktural benar, tetapi harus menghasilkan kesalahan semantik karena jenis tugas berbeda. Aturan-aturan ini ditetapkan oleh tata bahasa dan dievaluasi dalam analisis semantik. Tugas berikut harus dilakukan dalam analisis semantik:

  • Resolusi lingkup
  • Ketik pemeriksaan
  • Pemeriksaan terikat larik

Kesalahan Semantik

Kami telah menyebutkan beberapa kesalahan semantik yang diharapkan dapat dikenali oleh penganalisis semantik:

  • Ketik tidak cocok
  • Variabel tidak dideklarasikan
  • Penyalahgunaan pengenal cadangan.
  • Beberapa deklarasi variabel dalam satu ruang lingkup.
  • Mengakses variabel di luar cakupan.
  • Ketidakcocokan parameter aktual dan formal.

Atribut Tata Bahasa

Tata bahasa atribut adalah bentuk khusus tata bahasa bebas konteks di mana beberapa informasi tambahan (atribut) ditambahkan ke satu atau lebih non-terminalnya untuk memberikan informasi yang peka konteks. Setiap atribut memiliki domain nilai yang terdefinisi dengan baik, seperti integer, float, karakter, string, dan ekspresi.

Atribut tata bahasa adalah media untuk memberikan semantik ke tata bahasa bebas konteks dan dapat membantu menentukan sintaks dan semantik bahasa pemrograman. Atribut grammar (jika dilihat sebagai parse-tree) dapat mengirimkan nilai atau informasi di antara node pohon.

Example:

E → E + T { E.value = E.value + T.value }

Bagian kanan CFG berisi aturan semantik yang menentukan bagaimana tata bahasa harus diinterpretasikan. Di sini, nilai non-terminal E dan T dijumlahkan dan hasilnya disalin ke non-terminal E.

Atribut semantik dapat ditetapkan ke nilainya dari domain mereka pada saat penguraian dan dievaluasi pada saat penugasan atau kondisi. Berdasarkan cara atribut mendapatkan nilainya, atribut secara luas dapat dibagi menjadi dua kategori: atribut yang disintesiskan dan atribut yang diwariskan.

Atribut yang disintesis

Atribut ini mendapatkan nilai dari nilai atribut node turunannya. Sebagai ilustrasi, asumsikan produksi berikut:

S → ABC

Jika S mengambil nilai dari simpul anaknya (A, B, C), maka itu dikatakan sebagai atribut yang disintesis, karena nilai ABC disintesis ke S.

Seperti pada contoh kita sebelumnya (E → E + T), simpul induk E mendapatkan nilainya dari simpul anaknya. Atribut yang disintesis tidak pernah mengambil nilai dari node induknya atau node saudaranya.

Atribut yang diwariskan

Berbeda dengan atribut yang disintesis, atribut yang diwariskan dapat mengambil nilai dari induk dan / atau saudara kandung. Seperti pada produksi berikut ini,

S → ABC

A bisa mendapatkan nilai dari S, B dan C. B bisa mengambil nilai dari S, A, dan C. Begitu juga, C bisa mengambil nilai dari S, A, dan B.

Expansion : Ketika sebuah non-terminal diperluas ke terminal sesuai dengan aturan tata bahasa

Reduction: Ketika sebuah terminal direduksi menjadi non-terminal yang sesuai menurut aturan tata bahasa. Pohon sintaks diuraikan dari atas ke bawah dan dari kiri ke kanan. Setiap kali reduksi terjadi, kami menerapkan aturan semantik yang sesuai (tindakan).

Analisis semantik menggunakan Syntax Directed Translations untuk melakukan tugas-tugas di atas.

Penganalisis semantik menerima AST (Abstract Syntax Tree) dari tahap sebelumnya (analisis sintaks).

Penganalisis semantik melampirkan informasi atribut dengan AST, yang disebut AST Atribut.

Atribut adalah dua nilai tuple, <nama atribut, nilai atribut>

Sebagai contoh:

int value  = 5;
<type, “integer”>
<presentvalue, “5”>

Untuk setiap produksi, kami melampirkan aturan semantik.

SDT dengan atribut S.

Jika SDT hanya menggunakan atribut yang disintesis, itu disebut SDT yang dikaitkan dengan S. Atribut ini dievaluasi menggunakan SDT yang dikaitkan dengan S yang tindakan semantiknya ditulis setelah produksi (sisi kanan).

Seperti yang digambarkan di atas, atribut dalam SDT yang diatribusikan S dievaluasi dalam penguraian bottom-up, karena nilai node induk bergantung pada nilai node turunan.

SDT dengan atribut L.

Bentuk SDT ini menggunakan atribut yang disintesis dan diwariskan dengan batasan untuk tidak mengambil nilai dari saudara kandung.

Dalam SDT yang diatribusikan L, non-terminal bisa mendapatkan nilai dari node induk, anak, dan saudara kandungnya. Seperti pada produksi berikutnya

S → ABC

S dapat mengambil nilai dari A, B, dan C (disintesis). A dapat mengambil nilai dari S saja. B bisa mengambil nilai dari S dan A. C bisa mendapatkan nilai dari S, A, dan B. Tidak ada non-terminal yang bisa mendapatkan nilai dari sibling ke kanannya.

Atribut dalam SDT dengan atribut L dievaluasi dengan cara penguraian kedalaman-pertama dan kiri-ke-kanan.

Kita dapat menyimpulkan bahwa jika sebuah definisi diberi atribut S, maka definisi tersebut juga diberi atribut L karena definisi atribut L menyertakan definisi atribut S.

Pada bab sebelumnya, kami memahami konsep dasar yang terlibat dalam parsing. Pada bab ini, kita akan mempelajari berbagai jenis metode konstruksi parser yang tersedia.

Parsing dapat didefinisikan sebagai top-down atau bottom-up berdasarkan bagaimana parse-tree dibangun.

Parsing Top-Down

Kita telah mempelajari di bab terakhir bahwa teknik parsing top-down mem-parsing input, dan mulai membangun pohon parse dari simpul akar secara bertahap bergerak ke bawah ke simpul daun. Jenis penguraian top-down digambarkan di bawah ini:

Penguraian Penurunan Rekursif

Turunan rekursif adalah teknik penguraian atas-bawah yang menyusun pohon parse dari atas dan input dibaca dari kiri ke kanan. Ia menggunakan prosedur untuk setiap terminal dan entitas non-terminal. Teknik parsing ini mengurai input secara rekursif untuk membuat pohon parse, yang mungkin memerlukan atau tidak memerlukan pelacakan balik. Tetapi tata bahasa yang terkait dengannya (jika tidak dibiarkan) tidak dapat menghindari pelacakan ke belakang. Suatu bentuk penguraian keturunan rekursif yang tidak memerlukan pelacakan mundur apa pun dikenal sebagaipredictive parsing.

Teknik parsing ini dianggap rekursif karena menggunakan tata bahasa bebas konteks yang bersifat rekursif.

Pelacakan belakang

Parser top-down mulai dari node root (simbol awal) dan mencocokkan string input dengan aturan produksi untuk menggantikannya (jika cocok). Untuk memahaminya, ambil contoh CFG berikut:

S → rXd | rZd
X → oa | ea
Z → ai

Untuk string masukan: read, parser top-down, akan berperilaku seperti ini:

Ini akan dimulai dengan S dari aturan produksi dan akan mencocokkan hasilnya dengan huruf paling kiri dari input, yaitu 'r'. Produksi S (S → rXd) sangat cocok dengannya. Jadi pengurai top-down maju ke huruf masukan berikutnya (yaitu 'e'). Pengurai mencoba memperluas non-terminal 'X' dan memeriksa produksinya dari kiri (X → oa). Itu tidak cocok dengan simbol masukan berikutnya. Jadi parser top-down backtracks untuk mendapatkan aturan produksi berikutnya dari X, (X → ea).

Sekarang parser mencocokkan semua huruf input secara berurutan. String diterima.

Parser Prediktif

Pengurai prediktif adalah parser keturunan rekursif, yang memiliki kemampuan untuk memprediksi produksi mana yang akan digunakan untuk menggantikan string input. Pengurai prediktif tidak mengalami kemunduran.

Untuk menyelesaikan tugasnya, pengurai prediktif menggunakan penunjuk lihat ke depan, yang menunjuk ke simbol masukan berikutnya. Untuk membuat pelacakan mundur parser gratis, parser prediktif menempatkan beberapa batasan pada tata bahasa dan hanya menerima kelas tata bahasa yang dikenal sebagai tata bahasa LL (k).

Penguraian prediktif menggunakan tumpukan dan tabel penguraian untuk mengurai input dan menghasilkan pohon parse. Baik tumpukan dan masukan berisi simbol akhir$untuk menunjukkan bahwa tumpukan kosong dan masukan dikonsumsi. Pengurai mengacu pada tabel parsing untuk mengambil keputusan apa pun tentang kombinasi elemen tumpukan dan masukan.

Dalam penguraian keturunan rekursif, pengurai mungkin memiliki lebih dari satu produksi untuk dipilih untuk satu contoh masukan, sedangkan dalam pengurai prediktif, setiap langkah memiliki paling banyak satu produksi untuk dipilih. Mungkin ada contoh di mana tidak ada produksi yang cocok dengan string input, membuat prosedur penguraian gagal.

LL Parser

Seorang LL Parser menerima tata bahasa LL. Tata bahasa LL adalah bagian dari tata bahasa bebas konteks tetapi dengan beberapa batasan untuk mendapatkan versi yang disederhanakan, untuk mencapai implementasi yang mudah. Tata bahasa LL dapat diimplementasikan dengan menggunakan kedua algoritma yaitu, recursive-descent atau table-driven.

Pengurai LL dilambangkan sebagai LL (k). L pertama di LL (k) mengurai input dari kiri ke kanan, L kedua di LL (k) berarti derivasi paling kiri dan k itu sendiri mewakili jumlah pandangan ke depan. Umumnya k = 1, jadi LL (k) bisa juga ditulis LL (1).

Algoritma Penguraian LL

Kita mungkin tetap menggunakan LL deterministik (1) untuk penjelasan parser, karena ukuran tabel tumbuh secara eksponensial dengan nilai k. Kedua, jika tata bahasa yang diberikan bukan LL (1), maka biasanya bukan LL (k), untuk setiap k tertentu.

Diberikan di bawah ini adalah algoritma untuk Parsing LL (1):

Input: 
string ω 
parsing table M for grammar G
Output:
   If ω is in L(G) then left-most derivation of ω,
   error otherwise.

Initial State : $S on stack (with S being start symbol) ω$ in the input buffer

SET ip to point the first symbol of ω$.
repeat
let X be the top stack symbol and a the symbol pointed by ip.
if X∈ Vt or $
if X = a
   POP X and advance ip.
	else
   error()
 	endif
else	/* X is non-terminal */
   if M[X,a] = X → Y1, Y2,... Yk    
POP X
PUSH Yk, Yk-1,... Y1 /* Y1 on top */
   Output the production X → Y1, Y2,... Yk 
   else
   error()
   endif
	endif
until X = $	/* empty stack */

Tata bahasa G adalah LL (1) jika A-> alpha | b adalah dua produksi G yang berbeda:

  • untuk tidak ada terminal, baik alfa dan beta mendapatkan string yang dimulai dengan a.

  • paling banyak salah satu alfa dan beta dapat memperoleh string kosong.

  • jika beta => t, maka alpha tidak mendapatkan string apapun yang dimulai dengan terminal di FOLLOW (A).

Parsing Bottom-up

Penguraian bottom-up dimulai dari simpul daun pohon dan bekerja ke arah atas hingga mencapai simpul akar. Di sini, kita mulai dari kalimat dan kemudian menerapkan aturan produksi secara terbalik untuk mencapai simbol awal. Gambar yang diberikan di bawah ini menggambarkan parser bottom-up yang tersedia.

Shift-Reduce Parsing

Penguraian pengurangan-pergeseran menggunakan dua langkah unik untuk penguraian dari bawah ke atas. Langkah-langkah ini dikenal sebagai shift-step dan reduce-step.

  • Shift step: Langkah shift mengacu pada kemajuan penunjuk masukan ke simbol masukan berikutnya, yang disebut simbol bergeser. Simbol ini didorong ke tumpukan. Simbol yang digeser diperlakukan sebagai simpul tunggal dari pohon parse.

  • Reduce step: Ketika parser menemukan aturan tata bahasa lengkap (RHS) dan menggantinya ke (LHS), ini dikenal sebagai langkah pengurangan. Ini terjadi jika bagian atas tumpukan berisi pegangan. Untuk mengurangi, fungsi POP dilakukan pada tumpukan yang keluar dari pegangan dan menggantikannya dengan simbol non-terminal LHS.

LR Parser

Parser LR adalah parser non-rekursif, shift-reduce, dan bottom-up. Ini menggunakan kelas luas tata bahasa bebas konteks yang menjadikannya teknik analisis sintaks yang paling efisien. Pengurai LR juga dikenal sebagai pengurai LR (k), di mana L berarti pemindaian kiri-ke-kanan dari aliran input; R berarti konstruksi derivasi paling kanan secara terbalik, dan k menunjukkan jumlah simbol lookahead untuk membuat keputusan.

Ada tiga algoritme yang banyak digunakan yang tersedia untuk membangun parser LR:

  • SLR (1) - Parser LR Sederhana:
    • Bekerja pada kelas tata bahasa terkecil
    • Sedikit jumlah negara bagian, maka tabelnya sangat kecil
    • Konstruksi sederhana dan cepat
  • LR (1) - Parser LR:
    • Bekerja pada set lengkap Tata Bahasa LR (1)
    • Menghasilkan tabel besar dan sejumlah besar status
    • Konstruksi lambat
  • LALR (1) - Parser LR Look-Ahead:
    • Bekerja pada ukuran tata bahasa menengah
    • Jumlah negara bagian sama seperti di SLR (1)

Algoritma Parsing LR

Di sini kami menjelaskan algoritme kerangka pengurai LR:

token = next_token()
repeat forever
   s = top of stack
   if action[s, token] = “shift si” then
   PUSH token
   PUSH si 
   token = next_token()
else if action[s, tpken] = “reduce A::= β“ then 
   POP 2 * |β| symbols
   s = top of stack
   PUSH A
	PUSH goto[s,A]
else if action[s, token] = “accept” then
	return
	else
   error()

LL vs. LR

LL LR
Melakukan derivasi paling kiri. Melakukan derivasi paling kanan secara terbalik.
Mulailah dengan akar nonterminal di tumpukan. Akhiri dengan akar nonterminal di tumpukan.
Berakhir saat tumpukan kosong. Dimulai dengan tumpukan kosong.
Menggunakan tumpukan untuk menentukan apa yang masih diharapkan. Menggunakan tumpukan untuk menunjukkan apa yang sudah terlihat.
Membangun top-down pohon parse. Membangun pohon parse dari bawah ke atas.
Secara terus menerus mengeluarkan nonterminal dari tumpukan, dan mendorong sisi kanan yang sesuai. Mencoba mengenali sisi kanan tumpukan, memunculkannya, dan mendorong nonterminal yang sesuai.
Perluas non-terminal. Mengurangi non-terminal.
Membaca terminal saat meletuskan salah satu dari tumpukan. Membaca terminal saat mendorongnya ke tumpukan.
Praorder traversal dari pohon parse. Traversal pasca-order dari pohon parse.

Program sebagai kode sumber hanyalah kumpulan teks (kode, pernyataan, dll.) Dan untuk membuatnya hidup, diperlukan tindakan yang harus dilakukan pada mesin target. Sebuah program membutuhkan sumber daya memori untuk menjalankan instruksi. Sebuah program berisi nama untuk prosedur, pengenal, dll., Yang memerlukan pemetaan dengan lokasi memori aktual saat runtime.

Yang kami maksud dengan runtime adalah program yang sedang dieksekusi. Lingkungan waktu proses adalah keadaan mesin target, yang dapat mencakup pustaka perangkat lunak, variabel lingkungan, dll., Untuk menyediakan layanan ke proses yang berjalan di sistem.

Sistem pendukung runtime adalah sebuah paket, sebagian besar dihasilkan dengan program yang dapat dieksekusi itu sendiri dan memfasilitasi komunikasi proses antara proses dan lingkungan runtime. Ini menangani alokasi memori dan de-alokasi saat program sedang dijalankan.

Pohon Aktivasi

Program adalah urutan instruksi yang digabungkan menjadi sejumlah prosedur. Instruksi dalam prosedur dijalankan secara berurutan. Sebuah prosedur memiliki awal dan akhir pembatas dan semua yang ada di dalamnya disebut bagian tubuh prosedur. Pengidentifikasi prosedur dan urutan instruksi terbatas di dalamnya membentuk tubuh prosedur.

Eksekusi suatu prosedur disebut aktivasi. Catatan aktivasi berisi semua informasi yang diperlukan untuk memanggil prosedur. Catatan aktivasi mungkin berisi unit-unit berikut (tergantung pada bahasa sumber yang digunakan).

Temporaries Menyimpan nilai sementara dan menengah dari sebuah ekspresi.
Data Lokal Menyimpan data lokal dari prosedur yang dipanggil.
Status Mesin Menyimpan status mesin seperti Register, Program Counter, dll., Sebelum prosedur dipanggil.
Tautan Kontrol Menyimpan alamat catatan aktivasi prosedur pemanggil.
Akses Link Menyimpan informasi data yang berada di luar cakupan lokal.
Parameter Aktual Menyimpan parameter aktual, yaitu parameter yang digunakan untuk mengirim input ke prosedur yang dipanggil.
Nilai Kembali Menyimpan nilai kembali.

Setiap kali prosedur dijalankan, catatan aktivasi disimpan di tumpukan, juga dikenal sebagai tumpukan kontrol. Ketika sebuah prosedur memanggil prosedur lain, eksekusi pemanggil ditunda sampai prosedur yang dipanggil menyelesaikan eksekusi. Saat ini, rekaman aktivasi dari prosedur yang dipanggil disimpan di tumpukan.

Kami berasumsi bahwa kontrol program mengalir secara berurutan dan ketika sebuah prosedur dipanggil, kontrolnya ditransfer ke prosedur yang dipanggil. Ketika prosedur yang dipanggil dijalankan, itu mengembalikan kontrol kembali ke pemanggil. Jenis aliran kontrol ini memudahkan untuk merepresentasikan rangkaian aktivasi dalam bentuk pohon, yang dikenal sebagaiactivation tree.

Untuk memahami konsep ini, kami mengambil sepotong kode sebagai contoh:

. . .
printf(“Enter Your Name: “);
scanf(“%s”, username);
show_data(username);
printf(“Press any key to continue…”);
. . .
int show_data(char *user)
   {
   printf(“Your name is %s”, username);
   return 0;
   }
. . .

Di bawah ini adalah pohon aktivasi dari kode yang diberikan.

Sekarang kami memahami bahwa prosedur dijalankan secara mendalam pertama, sehingga alokasi tumpukan adalah bentuk penyimpanan yang paling sesuai untuk aktivasi prosedur.

Alokasi Penyimpanan

Lingkungan runtime mengelola persyaratan memori runtime untuk entitas berikut:

  • Code: Ini dikenal sebagai bagian teks dari program yang tidak berubah saat runtime. Persyaratan memorinya diketahui pada waktu kompilasi.

  • Procedures: Bagian teksnya statis tetapi dipanggil secara acak. Itulah sebabnya, penyimpanan tumpukan digunakan untuk mengelola panggilan dan aktivasi prosedur.

  • Variables: Variabel hanya diketahui pada waktu proses, kecuali variabel tersebut global atau konstan. Skema alokasi memori heap digunakan untuk mengelola alokasi dan de-alokasi memori untuk variabel dalam runtime.

Alokasi Statis

Dalam skema alokasi ini, data kompilasi terikat ke lokasi tetap di memori dan tidak berubah saat program dijalankan. Karena persyaratan memori dan lokasi penyimpanan telah diketahui sebelumnya, paket dukungan waktu proses untuk alokasi dan pembatalan alokasi memori tidak diperlukan.

Alokasi Stack

Panggilan prosedur dan aktivasi mereka dikelola melalui alokasi memori tumpukan. Ia bekerja dalam metode last-in-first-out (LIFO) dan strategi alokasi ini sangat berguna untuk panggilan prosedur rekursif.

Alokasi Heap

Variabel lokal untuk prosedur dialokasikan dan dialokasikan hanya pada waktu proses. Alokasi heap digunakan untuk mengalokasikan memori secara dinamis ke variabel dan mengklaimnya kembali saat variabel tidak lagi diperlukan.

Kecuali area memori yang dialokasikan secara statis, memori stack dan heap dapat berkembang dan menyusut secara dinamis dan tidak terduga. Oleh karena itu, mereka tidak dapat disediakan dengan jumlah memori tetap dalam sistem.

Seperti yang ditunjukkan pada gambar di atas, bagian teks dari kode dialokasikan sejumlah memori tetap. Stack dan heap memory diatur pada batas ekstrim dari total memori yang dialokasikan untuk program. Keduanya menyusut dan tumbuh melawan satu sama lain.

Penerusan Parameter

Media komunikasi antar prosedur dikenal sebagai parameter passing. Nilai variabel dari prosedur pemanggilan ditransfer ke prosedur yang dipanggil dengan beberapa mekanisme. Sebelum melanjutkan, pertama-tama pelajari beberapa terminologi dasar yang berkaitan dengan nilai-nilai dalam sebuah program.

nilai r

Nilai ekspresi disebut nilai-r. Nilai yang terkandung dalam variabel tunggal juga menjadi nilai-r jika muncul di sisi kanan operator penugasan. nilai-r selalu dapat diberikan ke beberapa variabel lain.

nilai-l

Lokasi memori (alamat) tempat ekspresi disimpan dikenal sebagai nilai-l ekspresi tersebut. Itu selalu muncul di sisi kiri operator penugasan.

Sebagai contoh:

day = 1;
week = day * 7;
month = 1;
year = month * 12;

Dari contoh ini, kami memahami bahwa nilai konstanta seperti 1, 7, 12, dan variabel seperti hari, minggu, bulan, dan tahun, semuanya memiliki nilai r. Hanya variabel yang memiliki nilai-l karena mereka juga mewakili lokasi memori yang ditugaskan padanya.

Sebagai contoh:

7 = x + y;

adalah kesalahan nilai-l, karena konstanta 7 tidak mewakili lokasi memori apa pun.

Parameter Formal

Variabel yang mengambil informasi yang diteruskan oleh prosedur pemanggil disebut parameter formal. Variabel-variabel ini dideklarasikan dalam definisi dari fungsi yang dipanggil.

Parameter Aktual

Variabel yang nilai atau alamatnya diteruskan ke prosedur yang dipanggil disebut parameter aktual. Variabel ini ditentukan dalam pemanggilan fungsi sebagai argumen.

Example:

fun_one()
{
   int actual_parameter = 10;
   call fun_two(int actual_parameter);
}
   fun_two(int formal_parameter)
{
   print formal_parameter;
}

Parameter formal menyimpan informasi dari parameter aktual, tergantung pada teknik passing parameter yang digunakan. Bisa berupa nilai atau alamat.

Lewati Nilai

Dalam mekanisme pass by value, prosedur pemanggilan meneruskan nilai-r dari parameter aktual dan kompilator memasukkannya ke dalam catatan aktivasi prosedur yang dipanggil. Parameter formal kemudian menahan nilai yang dilewatkan oleh prosedur pemanggilan. Jika nilai yang dipegang oleh parameter formal diubah, seharusnya tidak berdampak pada parameter sebenarnya.

Lewati Referensi

Dalam mekanisme referensi lewat, nilai-l dari parameter aktual disalin ke catatan aktivasi dari prosedur yang dipanggil. Dengan cara ini, prosedur yang dipanggil sekarang memiliki alamat (lokasi memori) dari parameter aktual dan parameter formal merujuk ke lokasi memori yang sama. Oleh karena itu, jika nilai yang ditunjukkan oleh parameter formal diubah, dampaknya harus dilihat pada parameter aktual karena nilai tersebut juga harus mengarah ke nilai yang sama.

Lewati Copy-restore

Mekanisme penerusan parameter ini bekerja mirip dengan 'pass-by-reference' kecuali bahwa perubahan pada parameter aktual dibuat saat prosedur yang dipanggil berakhir. Setelah pemanggilan fungsi, nilai parameter aktual disalin dalam catatan aktivasi dari prosedur yang dipanggil. Parameter formal jika dimanipulasi tidak memiliki efek real-time pada parameter aktual (saat nilai l dilewatkan), tetapi ketika prosedur yang dipanggil berakhir, nilai l dari parameter formal disalin ke nilai l dari parameter aktual.

Example:

int y; 
calling_procedure() 
{
   y = 10;     
   copy_restore(y); //l-value of y is passed
   printf y; //prints 99 
}
copy_restore(int x) 
{     
   x = 99; // y still has value 10 (unaffected)
   y = 0; // y is now 0 
}

Ketika fungsi ini berakhir, nilai l dari parameter formal x disalin ke parameter y yang sebenarnya. Bahkan jika nilai y diubah sebelum prosedur berakhir, nilai l dari x disalin ke nilai l dari y membuatnya berperilaku seperti call by reference.

Lewati Nama

Bahasa seperti Algol menyediakan jenis mekanisme penerusan parameter baru yang bekerja seperti preprocessor dalam bahasa C. Dalam mekanisme pass by name, nama prosedur yang dipanggil diganti dengan badan aslinya. Pass-by-name secara tekstual menggantikan ekspresi argumen dalam panggilan prosedur untuk parameter yang sesuai dalam tubuh prosedur sehingga sekarang dapat bekerja pada parameter aktual, seperti referensi lewat.

Tabel simbol adalah struktur data penting yang dibuat dan dipelihara oleh penyusun untuk menyimpan informasi tentang terjadinya berbagai entitas seperti nama variabel, nama fungsi, objek, kelas, antarmuka, dll. Tabel simbol digunakan baik oleh analisis maupun sintesis. bagian dari sebuah kompiler.

Tabel simbol dapat melayani tujuan berikut tergantung pada bahasa yang digunakan:

  • Untuk menyimpan nama semua entitas dalam bentuk terstruktur di satu tempat.

  • Untuk memverifikasi apakah variabel telah dideklarasikan.

  • Untuk mengimplementasikan pemeriksaan tipe, dengan memverifikasi tugas dan ekspresi dalam kode sumber sudah benar secara semantik.

  • Untuk menentukan ruang lingkup nama (resolusi lingkup).

Tabel simbol hanyalah tabel yang dapat berupa tabel linier atau tabel hash. Itu memelihara entri untuk setiap nama dalam format berikut:

<symbol name,  type,  attribute>

Misalnya, jika tabel simbol harus menyimpan informasi tentang deklarasi variabel berikut:

static int interest;

maka itu harus menyimpan entri seperti:

<interest, int, static>

Klausa atribut berisi entri yang terkait dengan nama.

Penerapan

Jika kompilator akan menangani sejumlah kecil data, maka tabel simbol dapat diimplementasikan sebagai daftar tak berurutan, yang mudah untuk dikodekan, tetapi hanya cocok untuk tabel kecil saja. Tabel simbol dapat diimplementasikan dengan salah satu cara berikut:

  • Daftar linier (diurutkan atau tidak diurutkan)
  • Pohon Pencarian Biner
  • Tabel hash

Di antara semuanya, tabel simbol sebagian besar diimplementasikan sebagai tabel hash, di mana simbol kode sumber itu sendiri diperlakukan sebagai kunci untuk fungsi hash dan nilai yang dikembalikan adalah informasi tentang simbol tersebut.

Operasi

Tabel simbol, baik linier atau hash, harus menyediakan operasi berikut.

memasukkan()

Operasi ini lebih sering digunakan oleh fase analisis, yaitu, paruh pertama kompilator tempat token diidentifikasi dan nama disimpan dalam tabel. Operasi ini digunakan untuk menambahkan informasi dalam tabel simbol tentang nama unik yang muncul di kode sumber. Format atau struktur di mana nama-nama tersebut disimpan bergantung pada kompiler yang ada.

Atribut untuk simbol dalam kode sumber adalah informasi yang terkait dengan simbol itu. Informasi ini berisi nilai, status, cakupan, dan tipe tentang simbol. Fungsi insert () mengambil simbol dan atributnya sebagai argumen dan menyimpan informasi dalam tabel simbol.

Sebagai contoh:

int a;

harus diproses oleh kompilator sebagai:

insert(a, int);

Lihatlah()

operasi lookup () digunakan untuk mencari nama dalam tabel simbol untuk menentukan:

  • jika simbol itu ada di tabel.
  • jika dideklarasikan sebelum digunakan.
  • jika nama digunakan dalam ruang lingkup.
  • jika simbol diinisialisasi.
  • jika simbol dideklarasikan beberapa kali.

Format fungsi lookup () bervariasi sesuai dengan bahasa pemrograman. Format dasar harus sesuai dengan yang berikut:

lookup(symbol)

Metode ini mengembalikan 0 (nol) jika simbol tidak ada di tabel simbol. Jika simbol ada di tabel simbol, ia mengembalikan atributnya yang disimpan di tabel.

Manajemen Lingkup

Kompiler memelihara dua jenis tabel simbol: a global symbol table yang dapat diakses oleh semua prosedur dan scope symbol tables yang dibuat untuk setiap cakupan dalam program.

Untuk menentukan ruang lingkup suatu nama, tabel simbol disusun dalam struktur hierarki seperti yang ditunjukkan pada contoh di bawah ini:

. . . 
int value=10;

void pro_one()
   {
   int one_1;
   int one_2;
   
      {              \
      int one_3;      |_  inner scope 1 
      int one_4;      | 
      }              /
      
   int one_5; 
   
      {              \   
      int one_6;      |_  inner scope 2
      int one_7;      |
      }              /
   }
   
void pro_two()
   {
   int two_1;
   int two_2;
   
      {              \
      int two_3;      |_  inner scope 3
      int two_4;      |
      }              /
      
   int two_5;
   }
. . .

Program di atas dapat direpresentasikan dalam struktur hierarki tabel simbol:

Tabel simbol global berisi nama untuk satu variabel global (nilai int) dan dua nama prosedur, yang harus tersedia untuk semua node turunan yang ditunjukkan di atas. Nama yang disebutkan dalam tabel simbol pro_one (dan semua tabel anaknya) tidak tersedia untuk simbol pro_two dan tabel anaknya.

Hierarki struktur data tabel simbol ini disimpan di penganalisis semantik dan setiap kali nama perlu dicari di tabel simbol, ia dicari menggunakan algoritma berikut:

  • pertama sebuah simbol akan dicari dalam lingkup saat ini, yaitu tabel simbol saat ini.

  • jika nama ditemukan, maka pencarian selesai, jika tidak akan dicari di tabel simbol induk sampai,

  • baik nama ditemukan atau tabel simbol global telah dicari untuk namanya.

Sebuah kode sumber dapat langsung diterjemahkan ke dalam kode mesin targetnya, lalu mengapa kita perlu menerjemahkan kode sumber menjadi kode perantara yang kemudian diterjemahkan ke kode targetnya? Mari kita lihat alasan mengapa kita membutuhkan kode perantara.

  • Jika kompilator menerjemahkan bahasa sumber ke bahasa mesin targetnya tanpa memiliki opsi untuk membuat kode perantara, maka untuk setiap mesin baru, diperlukan kompilator asli lengkap.

  • Kode perantara menghilangkan kebutuhan akan kompiler lengkap baru untuk setiap mesin unik dengan menjaga porsi analisis tetap sama untuk semua kompiler.

  • Bagian kedua dari penyusun, sintesis, diubah sesuai dengan mesin target.

  • Menjadi lebih mudah untuk menerapkan modifikasi kode sumber untuk meningkatkan kinerja kode dengan menerapkan teknik pengoptimalan kode pada kode perantara.

Representasi Menengah

Kode perantara dapat direpresentasikan dalam berbagai cara dan memiliki manfaatnya sendiri.

  • High Level IR- Representasi kode menengah tingkat tinggi sangat dekat dengan bahasa sumber itu sendiri. Mereka dapat dengan mudah dihasilkan dari kode sumber dan kita dapat dengan mudah menerapkan modifikasi kode untuk meningkatkan kinerja. Namun untuk pengoptimalan mesin target, ini kurang disukai.

  • Low Level IR - Yang ini dekat dengan mesin target, sehingga cocok untuk register dan alokasi memori, pemilihan set instruksi, dll. Ini bagus untuk pengoptimalan yang bergantung pada mesin.

Kode perantara dapat berupa bahasa tertentu (mis., Kode Byte untuk Java) atau bahasa independen (kode tiga alamat).

Kode Tiga Alamat

Generator kode menengah menerima masukan dari fase pendahulunya, penganalisis semantik, dalam bentuk pohon sintaks beranotasi. Pohon sintaks tersebut kemudian dapat diubah menjadi representasi linier, misalnya, notasi postfix. Kode perantara cenderung merupakan kode yang tidak bergantung pada mesin. Oleh karena itu, pembuat kode mengasumsikan memiliki jumlah penyimpanan memori yang tidak terbatas (register) untuk menghasilkan kode.

Sebagai contoh:

a = b + c * d;

Generator kode perantara akan mencoba membagi ekspresi ini menjadi sub-ekspresi dan kemudian menghasilkan kode yang sesuai.

r1 = c * d;
r2 = b + r1;
a = r2

r digunakan sebagai register dalam program target.

Kode tiga alamat memiliki paling banyak tiga lokasi alamat untuk menghitung ekspresi. Kode tiga alamat dapat direpresentasikan dalam dua bentuk: empat kali lipat dan tiga kali lipat.

Empat kali lipat

Setiap instruksi dalam penyajian empat kali lipat dibagi menjadi empat bidang: operator, arg1, arg2, dan result. Contoh di atas diwakili di bawah ini dalam format empat kali lipat:

Op arg 1 arg 2 hasil
* c d r1
+ b r1 r2
+ r2 r1 r3
= r3 Sebuah

Tiga kali lipat

Setiap instruksi dalam presentasi triples memiliki tiga bidang: op, arg1, dan arg2. Hasil dari masing-masing sub-ekspresi dilambangkan dengan posisi ekspresi. Tripel mewakili kesamaan dengan DAG dan pohon sintaks. Mereka setara dengan DAG saat mewakili ekspresi.

Op arg 1 arg 2
* c d
+ b (0)
+ (1) (0)
= (2)

Tripel menghadapi masalah ketidakmampuan kode saat pengoptimalan, karena hasilnya bersifat posisional dan mengubah urutan atau posisi ekspresi dapat menyebabkan masalah.

Tripel Tidak Langsung

Representasi ini merupakan peningkatan atas representasi tiga kali lipat. Ini menggunakan petunjuk alih-alih posisi untuk menyimpan hasil. Ini memungkinkan pengoptimal untuk dengan bebas memposisikan ulang sub-ekspresi untuk menghasilkan kode yang dioptimalkan.

Deklarasi

Variabel atau prosedur harus dideklarasikan sebelum dapat digunakan. Deklarasi melibatkan alokasi ruang dalam memori dan entri jenis dan nama dalam tabel simbol. Sebuah program dapat diberi kode dan dirancang dengan mengingat struktur mesin target, tetapi mungkin tidak selalu memungkinkan untuk secara akurat mengonversi kode sumber ke bahasa targetnya.

Mengambil seluruh program sebagai kumpulan prosedur dan sub-prosedur, menjadi mungkin untuk mendeklarasikan semua nama lokal untuk prosedur. Alokasi memori dilakukan secara berurutan dan nama dialokasikan ke memori dalam urutan yang dideklarasikan dalam program. Kami menggunakan variabel offset dan mengaturnya ke nol {offset = 0} yang menunjukkan alamat dasar.

Bahasa pemrograman sumber dan arsitektur mesin target dapat bervariasi dalam cara penyimpanan nama, sehingga pengalamatan relatif digunakan. Sementara nama depan dialokasikan memori mulai dari lokasi memori 0 {offset = 0}, nama berikutnya yang dideklarasikan nanti, harus dialokasikan memori di sebelah yang pertama.

Example:

Kami mengambil contoh bahasa pemrograman C di mana variabel integer diberikan 2 byte memori dan variabel float diberikan 4 byte memori.

int a;
float b;
Allocation process:
{offset = 0}
int a;
id.type = int
id.width = 2
offset = offset + id.width 
{offset = 2}
float b;
   id.type = float
   id.width = 4
   offset = offset + id.width 
{offset = 6}

Untuk memasukkan detail ini dalam tabel simbol, prosedur enter dapat digunakan. Metode ini mungkin memiliki struktur berikut:

enter(name, type, offset)

Prosedur ini harus membuat entri dalam tabel simbol, untuk nama variabel , memiliki tipe yang disetel ke tipe dan alamat relatif offset di area datanya.

Pembuatan kode dapat dianggap sebagai tahap akhir kompilasi. Melalui pembuatan kode pos, proses optimasi dapat diterapkan pada kode, tetapi itu dapat dilihat sebagai bagian dari fase pembuatan kode itu sendiri. Kode yang dihasilkan oleh compiler adalah kode objek dari beberapa bahasa pemrograman tingkat rendah, misalnya bahasa assembly. Kita telah melihat bahwa kode sumber yang ditulis dalam bahasa tingkat yang lebih tinggi diubah menjadi bahasa tingkat yang lebih rendah yang menghasilkan kode objek tingkat yang lebih rendah, yang seharusnya memiliki properti minimum berikut:

  • Ini harus membawa arti yang tepat dari kode sumber.
  • Ini harus efisien dalam hal penggunaan CPU dan manajemen memori.

Sekarang kita akan melihat bagaimana kode perantara diubah menjadi kode objek target (kode assembly, dalam hal ini).

Grafik Asiklik Terarah

Grafik Asiklik Terarah (DAG) adalah alat yang menggambarkan struktur blok dasar, membantu melihat aliran nilai yang mengalir di antara blok dasar, dan juga menawarkan pengoptimalan. DAG menyediakan transformasi yang mudah pada blok dasar. DAG dapat dipahami di sini:

  • Simpul daun mewakili pengenal, nama, atau konstanta.

  • Node interior mewakili operator.

  • Node interior juga mewakili hasil ekspresi atau pengenal / nama tempat nilai disimpan atau ditetapkan.

Example:

t0 = a + b
t1 = t0 + c
d = t0 + t1

[t 0 = a + b]

[t 1 = t 0 + c]

[d = t 0 + t 1 ]

Optimasi Lubang intip

Teknik pengoptimalan ini bekerja secara lokal pada kode sumber untuk mengubahnya menjadi kode yang dioptimalkan. Secara lokal, yang kami maksud adalah sebagian kecil dari blok kode yang ada. Metode ini dapat diterapkan pada kode perantara maupun pada kode target. Sekumpulan pernyataan dianalisis dan diperiksa untuk kemungkinan pengoptimalan berikut:

Penghapusan instruksi yang berlebihan

Pada level kode sumber, hal berikut dapat dilakukan oleh pengguna:

int add_ten(int x)
   {
   int y, z;
   y = 10;
   z = x + y;
   return z;
   }
int add_ten(int x)
   {
   int y;
   y = 10;
   y = x + y;
   return y;
   }
int add_ten(int x)
   {
   int y = 10;
   return x + y;
   }
int add_ten(int x)
   {
   return x + 10;
   }

Pada level kompilasi, kompilator mencari instruksi yang bersifat redundan. Beberapa instruksi pemuatan dan penyimpanan mungkin memiliki arti yang sama bahkan jika beberapa di antaranya dihapus. Sebagai contoh:

  • MOV x, R0
  • MOV R0, R1

Kita dapat menghapus instruksi pertama dan menulis ulang kalimatnya sebagai:

MOV x, R1

Kode tidak dapat dijangkau

Kode tidak dapat dijangkau adalah bagian dari kode program yang tidak pernah diakses karena konstruksi pemrograman. Pemrogram mungkin secara tidak sengaja menulis sepotong kode yang tidak pernah bisa dijangkau.

Example:

void add_ten(int x)
{
   return x + 10;
   printf(“value of x is %d”, x);
}

Di segmen kode ini, printf pernyataan tidak akan pernah dieksekusi karena kontrol program kembali sebelum dapat dieksekusi, karenanya printf bisa dilepas.

Arus pengoptimalan kontrol

Ada contoh dalam kode di mana kontrol program melompat-lompat tanpa melakukan tugas yang signifikan. Lompatan ini bisa dihilangkan. Pertimbangkan potongan kode berikut:

...		
MOV R1, R2
GOTO L1
...
L1 :   GOTO L2
L2 :   INC R1

Dalam kode ini, label L1 dapat dihapus saat melewati kontrol ke L2. Jadi alih-alih melompat ke L1 lalu ke L2, kontrolnya bisa langsung mencapai L2, seperti gambar di bawah ini:

...		
MOV R1, R2
GOTO L2
...
L2 :   INC R1

Penyederhanaan ekspresi aljabar

Ada kalanya ekspresi aljabar dapat dibuat sederhana. Misalnya ekspresia = a + 0 bisa diganti dengan a dirinya sendiri dan ekspresi a = a + 1 dapat dengan mudah diganti dengan INC a.

Pengurangan kekuatan

Ada operasi yang menghabiskan lebih banyak waktu dan ruang. 'Kekuatan' mereka dapat dikurangi dengan menggantinya dengan operasi lain yang menghabiskan lebih sedikit waktu dan ruang, tetapi menghasilkan hasil yang sama.

Sebagai contoh, x * 2 bisa diganti dengan x << 1, yang hanya melibatkan satu shift kiri. Meskipun keluaran dari a * a dan 2 sama, 2 jauh lebih efisien untuk diterapkan.

Mengakses instruksi mesin

Mesin target dapat menerapkan instruksi yang lebih canggih, yang dapat memiliki kemampuan untuk melakukan operasi tertentu dengan lebih efisien. Jika kode target dapat mengakomodasi instruksi tersebut secara langsung, itu tidak hanya akan meningkatkan kualitas kode, tetapi juga menghasilkan hasil yang lebih efisien.

Generator kode

Generator kode diharapkan memiliki pemahaman tentang lingkungan runtime mesin target dan set instruksinya. Pembuat kode harus mempertimbangkan hal-hal berikut untuk menghasilkan kode:

  • Target language: Pembuat kode harus menyadari sifat bahasa target yang kode akan diubah. Bahasa tersebut dapat memfasilitasi beberapa instruksi khusus mesin untuk membantu kompilator menghasilkan kode dengan cara yang lebih nyaman. Mesin target dapat memiliki arsitektur prosesor CISC atau RISC.

  • IR Type: Representasi perantara memiliki berbagai bentuk. Ini bisa dalam struktur Abstrak Syntax Tree (AST), Reverse Polish Notation, atau kode 3-alamat.

  • Selection of instruction: Generator kode menggunakan Representasi Menengah sebagai input dan mengubahnya (memetakan) menjadi set instruksi mesin target. Satu representasi dapat memiliki banyak cara (instruksi) untuk mengubahnya, sehingga menjadi tanggung jawab pembuat kode untuk memilih instruksi yang sesuai dengan bijak.

  • Register allocation: Sebuah program memiliki sejumlah nilai yang harus dipertahankan selama eksekusi. Arsitektur mesin target mungkin tidak mengizinkan semua nilai disimpan dalam memori CPU atau register. Pembuat kode memutuskan nilai apa yang harus disimpan dalam register. Juga, ia memutuskan register yang akan digunakan untuk menyimpan nilai-nilai ini.

  • Ordering of instructions: Akhirnya, pembuat kode memutuskan urutan eksekusi instruksi. Ini membuat jadwal untuk instruksi untuk melaksanakannya.

Deskriptor

Pembuat kode harus melacak register (untuk ketersediaan) dan alamat (lokasi nilai) saat membuat kode. Untuk keduanya, dua deskriptor berikut digunakan:

  • Register descriptor: Deskriptor register digunakan untuk menginformasikan pembuat kode tentang ketersediaan register. Deskriptor register melacak nilai yang disimpan di setiap register. Setiap kali register baru diperlukan selama pembuatan kode, deskriptor ini dikonsultasikan untuk ketersediaan register.

  • Address descriptor: Nilai dari nama (pengenal) yang digunakan dalam program mungkin disimpan di lokasi yang berbeda selama eksekusi. Deskriptor alamat digunakan untuk melacak lokasi memori tempat nilai pengenal disimpan. Lokasi ini mungkin termasuk register CPU, heaps, stack, memori atau kombinasi dari lokasi yang disebutkan.

Pembuat kode terus memperbarui deskriptor secara real-time. Untuk pernyataan beban, LD R1, x, pembuat kode:

  • memperbarui Register Descriptor R1 yang memiliki nilai x dan
  • memperbarui Address Descriptor (x) untuk menunjukkan bahwa satu contoh x ada di R1.

Pembuatan Kode

Blok dasar terdiri dari urutan instruksi tiga alamat. Generator kode mengambil urutan instruksi ini sebagai input.

Note: Jika nilai sebuah nama ditemukan di lebih dari satu tempat (register, cache, atau memori), nilai register akan lebih disukai daripada cache dan memori utama. Nilai cache juga akan lebih disukai daripada memori utama. Memori utama hampir tidak diberi preferensi apa pun.

getReg: Generator kode menggunakan fungsi getReg untuk menentukan status register yang tersedia dan lokasi nilai nama. getReg bekerja sebagai berikut:

  • Jika variabel Y sudah ada di register R, ia menggunakan register itu.

  • Lain jika beberapa register R tersedia, ia menggunakan register itu.

  • Jika kedua opsi di atas tidak memungkinkan, ia memilih register yang membutuhkan jumlah minimal memuat dan menyimpan instruksi.

Untuk instruksi x = y OP z, pembuat kode dapat melakukan tindakan berikut. Mari kita asumsikan bahwa L adalah lokasi (sebaiknya register) di mana output dari y OP z akan disimpan:

  • Panggil fungsi getReg, untuk menentukan lokasi L.

  • Tentukan lokasi sekarang (register atau memori) dari y dengan berkonsultasi dengan Penjelasan Alamat y. Jikay saat ini tidak terdaftar L, lalu buat instruksi berikut untuk menyalin nilai y untuk L:

    MOV y ', L

    dimana y’ mewakili nilai yang disalin dari y.

  • Tentukan lokasi sekarang dari z menggunakan metode yang sama dengan yang digunakan pada langkah 2 untuk y dan buat instruksi berikut:

    OP z ', L

    dimana z’ mewakili nilai yang disalin dari z.

  • Sekarang L berisi nilai y OP z, yang dimaksudkan untuk ditugaskan x. Jadi, jika L adalah sebuah register, perbarui deskriptornya untuk menunjukkan bahwa ia berisi nilaix. Perbarui deskriptorx untuk menunjukkan bahwa itu disimpan di lokasi L.

  • Jika y dan z tidak lagi digunakan, mereka dapat diberikan kembali ke sistem.

Konstruksi kode lain seperti loop dan pernyataan bersyarat diubah menjadi bahasa assembly dengan cara assembly umum.

Optimasi adalah teknik transformasi program, yang mencoba untuk memperbaiki kode dengan membuatnya mengkonsumsi lebih sedikit sumber daya (yaitu CPU, Memori) dan memberikan kecepatan tinggi.

Dalam pengoptimalan, konstruksi pemrograman umum tingkat tinggi diganti dengan kode pemrograman tingkat rendah yang sangat efisien. Proses pengoptimalan kode harus mengikuti tiga aturan yang diberikan di bawah ini:

  • Kode keluaran tidak boleh, dengan cara apapun, mengubah arti program.

  • Pengoptimalan harus meningkatkan kecepatan program dan jika memungkinkan, program harus meminta lebih sedikit sumber daya.

  • Pengoptimalan itu sendiri harus cepat dan tidak menunda proses kompilasi secara keseluruhan.

Upaya untuk kode yang dioptimalkan dapat dilakukan pada berbagai tingkat proses kompilasi.

  • Pada awalnya, pengguna dapat mengubah / menyusun ulang kode atau menggunakan algoritme yang lebih baik untuk menulis kode.

  • Setelah membuat kode perantara, kompilator dapat memodifikasi kode perantara dengan kalkulasi alamat dan meningkatkan loop.

  • Saat menghasilkan kode mesin target, kompilator dapat menggunakan hierarki memori dan register CPU.

Pengoptimalan dapat dikategorikan secara luas menjadi dua jenis: tidak bergantung pada mesin dan bergantung pada mesin.

Pengoptimalan Tanpa Mesin

Dalam pengoptimalan ini, compiler mengambil kode perantara dan mengubah bagian kode yang tidak melibatkan register CPU dan / atau lokasi memori absolut. Sebagai contoh:

do
{
   item = 10;
   value = value + item; 
}while(value<100);

Kode ini melibatkan penugasan berulang dari item pengenal, yang jika kita begini:

Item = 10;
do
{
   value = value + item; 
} while(value<100);

seharusnya tidak hanya menyimpan siklus CPU, tetapi dapat digunakan pada prosesor apa pun.

Pengoptimalan yang Tergantung Mesin

Pengoptimalan yang bergantung pada mesin dilakukan setelah kode target dibuat dan ketika kode diubah sesuai dengan arsitektur mesin target. Ini melibatkan register CPU dan mungkin memiliki referensi memori absolut daripada referensi relatif. Pengoptimal yang bergantung pada mesin berupaya memanfaatkan hierarki memori secara maksimal.

Blok Dasar

Kode sumber umumnya memiliki sejumlah instruksi, yang selalu dieksekusi secara berurutan dan dianggap sebagai blok dasar kode. Blok dasar ini tidak memiliki pernyataan lompat di antara mereka, yaitu, ketika instruksi pertama dijalankan, semua instruksi dalam blok dasar yang sama akan dieksekusi dalam urutan kemunculannya tanpa kehilangan kontrol aliran program.

Sebuah program dapat memiliki berbagai konstruksi sebagai blok dasar, seperti IF-THEN-ELSE, SWITCH-CASE pernyataan bersyarat dan loop seperti DO-WHILE, FOR, dan REPEAT-UNTIL, dll.

Identifikasi blok dasar

Kami dapat menggunakan algoritma berikut untuk menemukan blok dasar dalam sebuah program:

  • Cari pernyataan tajuk dari semua blok dasar tempat blok dasar dimulai:

    • Pernyataan pertama dari sebuah program.
    • Pernyataan yang menjadi target cabang mana pun (bersyarat / tidak bersyarat).
    • Pernyataan yang mengikuti pernyataan cabang mana pun.
  • Pernyataan header dan pernyataan yang mengikutinya membentuk blok dasar.

  • Blok dasar tidak menyertakan pernyataan header dari blok dasar lainnya.

Blok dasar adalah konsep penting dari segi pembuatan kode dan pengoptimalan.

Blok dasar memainkan peran penting dalam mengidentifikasi variabel, yang digunakan lebih dari sekali dalam satu blok dasar. Jika ada variabel yang digunakan lebih dari sekali, memori register yang dialokasikan ke variabel itu tidak perlu dikosongkan kecuali blok tersebut menyelesaikan eksekusi.

Grafik Alir Kontrol

Blok-blok dasar dalam sebuah program dapat direpresentasikan dengan menggunakan grafik aliran kendali. Grafik aliran kendali menggambarkan bagaimana kendali program dilewatkan di antara blok-blok. Ini adalah alat yang berguna yang membantu dalam pengoptimalan dengan membantu menemukan loop yang tidak diinginkan dalam program.

Optimasi Loop

Sebagian besar program berjalan sebagai loop dalam sistem. Menjadi perlu untuk mengoptimalkan loop untuk menghemat siklus CPU dan memori. Loop dapat dioptimalkan dengan teknik berikut:

  • Invariant code: Fragmen kode yang berada dalam loop dan menghitung nilai yang sama pada setiap iterasi disebut kode loop-invariant. Kode ini dapat dipindahkan keluar dari loop dengan menyimpannya untuk dihitung hanya sekali, bukan dengan setiap iterasi.

  • Induction analysis : Sebuah variabel disebut variabel induksi jika nilainya diubah dalam loop oleh nilai invarian-loop.

  • Strength reduction: Ada ekspresi yang mengonsumsi lebih banyak siklus CPU, waktu, dan memori. Ekspresi ini harus diganti dengan ekspresi yang lebih murah tanpa mengorbankan keluaran ekspresi. Misalnya, perkalian (x * 2) mahal dalam hal siklus CPU daripada (x << 1) dan menghasilkan hasil yang sama.

Penghapusan Kode Mati

Kode mati adalah satu atau lebih dari satu pernyataan kode, yaitu:

  • Tidak pernah dieksekusi atau tidak dapat dijangkau,
  • Atau jika dijalankan, outputnya tidak pernah digunakan.

Jadi, kode mati tidak berperan dalam operasi program apa pun dan karena itu dapat dihilangkan dengan mudah.

Kode mati sebagian

Ada beberapa pernyataan kode yang nilai penghitungannya hanya digunakan dalam keadaan tertentu, misalnya, terkadang nilai digunakan dan terkadang tidak. Kode semacam itu dikenal sebagai kode mati sebagian.

Grafik aliran kontrol di atas menggambarkan potongan program di mana variabel 'a' digunakan untuk menetapkan keluaran dari ekspresi 'x * y'. Mari kita asumsikan bahwa nilai yang diberikan ke 'a' tidak pernah digunakan di dalam loop. Segera setelah kontrol meninggalkan loop, 'a' diberi nilai variabel 'z', yang akan digunakan nanti dalam program. Kami menyimpulkan di sini bahwa kode penugasan 'a' tidak pernah digunakan di mana pun, oleh karena itu memenuhi syarat untuk dihilangkan.

Demikian pula, gambar di atas menggambarkan bahwa pernyataan kondisional selalu salah, menyiratkan bahwa kode, yang ditulis dalam kasus yang benar, tidak akan pernah dijalankan, sehingga dapat dihapus.

Redundansi Parsial

Ekspresi redundan dihitung lebih dari sekali dalam jalur paralel, tanpa perubahan apa pun dalam operan. Sedangkan ekspresi redundan parsial dihitung lebih dari sekali dalam sebuah jalur, tanpa perubahan apa pun pada operan. Sebagai contoh,

[ekspresi yang berlebihan]

[ekspresi yang sebagian berlebihan]

Kode invarian-loop sebagian berlebihan dan dapat dihilangkan dengan menggunakan teknik gerakan kode.

Contoh lain dari kode yang sebagian berlebihan dapat berupa:

If (condition)
{
   a = y OP z;
}
else
{
   ...
}
c = y OP z;

Kami berasumsi bahwa nilai-nilai operan (y dan z) tidak diubah dari penetapan variabel a ke variabel c. Di sini, jika pernyataan kondisi benar, maka y OP z dihitung dua kali, sebaliknya sekali. Gerakan kode dapat digunakan untuk menghilangkan redundansi ini, seperti yang ditunjukkan di bawah ini:

If (condition)
{
   ...
   tmp = y OP z;
   a = tmp;
   ...
}
else
{
   ...
   tmp = y OP z;
}
c = tmp;

Di sini, apakah kondisinya benar atau salah; y OP z harus dihitung hanya sekali.