HTML - Pengodean Karakter

Pengkodean karakter adalah metode untuk mengubah byte menjadi karakter. Untuk memvalidasi atau menampilkan dokumen HTML dengan benar, program harus memilih pengkodean karakter yang tepat.

Kumpulan karakter yang paling umum atau pengkodean karakter yang digunakan di komputer adalah ASCII - The American Standard Code for Information Interchange, dan ini mungkin kumpulan karakter yang paling banyak digunakan untuk menyandikan teks secara elektronik.

Pengkodean ASCII hanya mendukung alfabet Latin huruf besar dan kecil, angka 0-9, dan beberapa karakter tambahan yang membuat total 128 karakter. Anda dapat melihat set lengkap Karakter ASCII yang Dapat Dicetak

Namun, banyak bahasa menggunakan karakter Latin beraksen atau abjad yang sama sekali berbeda. ASCII tidak membahas karakter ini; oleh karena itu, Anda perlu mempelajari tentang pengkodean karakter jika Anda ingin menggunakan karakter non-ASCII.

Organisasi Standar Internasional menciptakan serangkaian karakter untuk menangani karakter nasional yang berbeda. Untuk dokumen dalam bahasa Inggris dan sebagian besar bahasa Eropa Barat lainnya, pengkodean yang didukung secara luas ISO-8859-1 digunakan.

Berikut adalah daftar Kumpulan Karakter yang digunakan di seluruh dunia beserta deskripsinya.

Sr Tidak	Set Karakter & Deskripsi
1	ISO-8859-1 Alfabet latin bagian 1 Meliputi Amerika Utara, Eropa Barat, Amerika Latin, Karibia, Kanada, Afrika
2	ISO-8859-2 Alfabet latin bagian 2 Meliputi Eropa Timur
3	ISO-8859-3 Alfabet latin bagian 3 Meliputi Eropa Tenggara, Esperanto, dan lain-lain
4	ISO-8859-4 Alfabet latin bagian 4 Meliputi Skandinavia / Baltik (dan lainnya tidak dalam ISO-8859-1)
5	ISO-8859-5 Alfabet Latin / Sirilik bagian 5
6	ISO-8859-6 Alfabet Latin / Arab bagian 6
7	ISO-8859-7 Alfabet Latin / Yunani bagian 7
8	ISO-8859-8 Alfabet Latin / Ibrani bagian 8
9	ISO-8859-9 Latin 5 alfabet bagian 9 Sama seperti ISO-8859-1 kecuali karakter Turki menggantikan karakter Islandia
10	ISO-8859-10 Latin 6 Latin 6 Lappish, Nordik, dan Eskimo
11	ISO-8859-15 Sama seperti ISO-8859-1 tetapi dengan lebih banyak karakter yang ditambahkan
12	ISO-2022-JP Alfabet Latin / Jepang bagian 1
13	ISO-2022-JP-2 Alfabet Latin / Jepang bagian 2
14	ISO-2022-KR Alfabet Latin / Korea bagian 1

Konsorsium Unicode kemudian didirikan untuk menemukan cara untuk menampilkan semua karakter dari bahasa yang berbeda, daripada memiliki kode karakter berbeda yang tidak kompatibel untuk bahasa yang berbeda.

Oleh karena itu, jika Anda ingin membuat dokumen yang menggunakan karakter dari beberapa kumpulan karakter, Anda dapat melakukannya dengan menggunakan pengkodean karakter Unicode tunggal.

Oleh karena itu, Unicode menentukan pengkodean yang dapat menangani string dengan cara khusus sehingga membuat cukup ruang untuk kumpulan karakter besar yang dicakupnya. Ini dikenal sebagai UTF8, UTF-16, dan UTF-32.

Sr Tidak	Set Karakter & Deskripsi
1	UTF-8 Format Terjemahan Unicode yang datang dalam unit 8-bit yaitu, datang dalam byte. Karakter dalam UTF8 dapat berukuran 1 hingga 4 byte, sehingga lebar variabel UTF8.
2	UTF-16 Format Terjemahan Unicode yang datang dalam unit 16-bit, singkatnya. Panjangnya bisa 1 atau 2 celana pendek, sehingga lebar variabel UTF16.
3	UTF-32 Format Terjemahan Unicode yang datang dalam unit 32-bit yang datang dengan panjang. Ini adalah format dengan lebar tetap dan panjangnya selalu 1 "panjang".

256 karakter pertama dari kumpulan karakter Unicode sesuai dengan 256 karakter ISO-8859-1.

Secara default, prosesor HTML 4 harus mendukung UTF-8, dan prosesor XML seharusnya mendukung UTF-8 dan UTF-16; oleh karena itu semua prosesor yang mendukung XHTML juga harus mendukung UTF-16.