HTML - การเข้ารหัสอักขระ

การเข้ารหัสอักขระเป็นวิธีการแปลงไบต์เป็นอักขระ ในการตรวจสอบหรือแสดงเอกสาร HTML อย่างถูกต้องโปรแกรมต้องเลือกการเข้ารหัสอักขระที่เหมาะสม

ชุดอักขระหรือการเข้ารหัสอักขระที่ใช้บ่อยที่สุดในคอมพิวเตอร์คือ ASCII - The American Standard Code for Information Interchangeและนี่อาจเป็นชุดอักขระที่ใช้กันอย่างแพร่หลายในการเข้ารหัสข้อความทางอิเล็กทรอนิกส์

การเข้ารหัส ASCII รองรับเฉพาะอักษรละตินตัวบนและตัวพิมพ์เล็กตัวเลข 0-9 และอักขระพิเศษบางตัวที่มีทั้งหมด 128 อักขระ คุณสามารถดูชุดอักขระ ASCII ที่พิมพ์ได้ทั้งหมด

อย่างไรก็ตามหลายภาษาใช้อักขระละตินที่เน้นเสียงหรือตัวอักษรที่แตกต่างกันโดยสิ้นเชิง ASCII ไม่ได้กล่าวถึงอักขระเหล่านี้ ดังนั้นคุณต้องเรียนรู้เกี่ยวกับการเข้ารหัสอักขระหากคุณต้องการใช้อักขระที่ไม่ใช่ ASCII

องค์การมาตรฐานระหว่างประเทศได้สร้างชุดอักขระขึ้นมาเพื่อจัดการกับอักขระประจำชาติต่างๆ สำหรับเอกสารที่เป็นภาษาอังกฤษและภาษายุโรปตะวันตกอื่น ๆ ส่วนใหญ่จะใช้การเข้ารหัส ISO-8859-1 ที่รองรับอย่างกว้างขวาง

นี่คือรายการชุดตัวละครที่ใช้ทั่วโลกพร้อมกับคำอธิบาย

ซีเนียร์ No	ชุดอักขระและคำอธิบาย
1	ISO-8859-1 อักษรละตินตอนที่ 1 ครอบคลุมอเมริกาเหนือยุโรปตะวันตกละตินอเมริกาแคริบเบียนแคนาดาแอฟริกา
2	ISO-8859-2 อักษรละตินตอนที่ 2 ครอบคลุมยุโรปตะวันออก
3	ISO-8859-3 อักษรละตินตอนที่ 3 ครอบคลุม SE Europe, Esperanto และอื่น ๆ อีกมากมาย
4	ISO-8859-4 อักษรละตินตอนที่ 4 ครอบคลุมสแกนดิเนเวีย / บอลติค (และอื่น ๆ ที่ไม่อยู่ใน ISO-8859-1)
5	ISO-8859-5 อักษรละติน / ซิริลลิกตอนที่ 5
6	ISO-8859-6 อักษรละติน / อาหรับตอนที่ 6
7	ISO-8859-7 อักษรละติน / กรีกตอนที่ 7
8	ISO-8859-8 อักษรละติน / ฮีบรูตอนที่ 8
9	ISO-8859-9 อักษรละติน 5 ตอนที่ 9 เหมือนกับ ISO-8859-1 ยกเว้นอักขระตุรกีจะแทนที่ตัวอักษรไอซ์แลนด์
10	ISO-8859-10 ละติน 6 ละติน 6 แลปปิชนอร์ดิกและเอสกิโม
11	ISO-8859-15 เช่นเดียวกับ ISO-8859-1 แต่มีการเพิ่มอักขระมากขึ้น
12	ISO-2022-JP อักษรละติน / ญี่ปุ่นตอนที่ 1
13	ISO-2022-JP-2 อักษรละติน / ญี่ปุ่นตอนที่ 2
14	ISO-2022-KR อักษรละติน / เกาหลีตอนที่ 1

จากนั้น Unicode Consortium ได้รับการจัดตั้งขึ้นเพื่อคิดค้นวิธีการแสดงอักขระทั้งหมดของภาษาต่างๆแทนที่จะมีรหัสอักขระที่เข้ากันไม่ได้สำหรับภาษาต่างๆ

ดังนั้นหากคุณต้องการสร้างเอกสารที่ใช้อักขระจากชุดอักขระหลายชุดคุณจะสามารถทำได้โดยใช้การเข้ารหัสอักขระ Unicode เดียว

ดังนั้น Unicode จึงระบุการเข้ารหัสที่สามารถจัดการกับสตริงในรูปแบบพิเศษเพื่อให้มีพื้นที่เพียงพอสำหรับชุดอักขระขนาดใหญ่ที่ล้อมรอบ สิ่งเหล่านี้เรียกว่า UTF8, UTF-16 และ UTF-32

ซีเนียร์ No	ชุดอักขระและคำอธิบาย
1	UTF-8 รูปแบบการแปล Unicode ที่มาในหน่วย 8 บิตนั่นคือเป็นไบต์ อักขระใน UTF8 สามารถมีความยาวได้ตั้งแต่ 1 ถึง 4 ไบต์ทำให้มีความกว้างตัวแปร UTF8
2	UTF-16 รูปแบบการแปล Unicode ที่มาในหน่วย 16 บิตนั่นคือมันมาในกางเกงขาสั้น สามารถเป็นกางเกงขาสั้นยาว 1 หรือ 2 ตัวทำให้มีความกว้างตัวแปร UTF16
3	UTF-32 รูปแบบการแปล Unicode ที่มาในหน่วย 32 บิตนั่นคือมันมีความยาว เป็นรูปแบบความกว้างคงที่และมีความยาว 1 "ยาว" เสมอ

อักขระ 256 ตัวแรกของชุดอักขระ Unicode สอดคล้องกับอักขระ 256 ตัวของ ISO-8859-1

โดยค่าเริ่มต้นโปรเซสเซอร์ HTML 4 ควรรองรับ UTF-8 และตัวประมวลผล XML ควรสนับสนุน UTF-8 และ UTF-16 ดังนั้นโปรเซสเซอร์ที่สอดคล้องกับ XHTML ทั้งหมดควรสนับสนุน UTF-16 ด้วย