HTML - การเข้ารหัสอักขระ
การเข้ารหัสอักขระเป็นวิธีการแปลงไบต์เป็นอักขระ ในการตรวจสอบหรือแสดงเอกสาร HTML อย่างถูกต้องโปรแกรมต้องเลือกการเข้ารหัสอักขระที่เหมาะสม
ชุดอักขระหรือการเข้ารหัสอักขระที่ใช้บ่อยที่สุดในคอมพิวเตอร์คือ ASCII - The American Standard Code for Information Interchangeและนี่อาจเป็นชุดอักขระที่ใช้กันอย่างแพร่หลายในการเข้ารหัสข้อความทางอิเล็กทรอนิกส์
การเข้ารหัส ASCII รองรับเฉพาะอักษรละตินตัวบนและตัวพิมพ์เล็กตัวเลข 0-9 และอักขระพิเศษบางตัวที่มีทั้งหมด 128 อักขระ คุณสามารถดูชุดอักขระ ASCII ที่พิมพ์ได้ทั้งหมด
อย่างไรก็ตามหลายภาษาใช้อักขระละตินที่เน้นเสียงหรือตัวอักษรที่แตกต่างกันโดยสิ้นเชิง ASCII ไม่ได้กล่าวถึงอักขระเหล่านี้ ดังนั้นคุณต้องเรียนรู้เกี่ยวกับการเข้ารหัสอักขระหากคุณต้องการใช้อักขระที่ไม่ใช่ ASCII
องค์การมาตรฐานระหว่างประเทศได้สร้างชุดอักขระขึ้นมาเพื่อจัดการกับอักขระประจำชาติต่างๆ สำหรับเอกสารที่เป็นภาษาอังกฤษและภาษายุโรปตะวันตกอื่น ๆ ส่วนใหญ่จะใช้การเข้ารหัส ISO-8859-1 ที่รองรับอย่างกว้างขวาง
นี่คือรายการชุดตัวละครที่ใช้ทั่วโลกพร้อมกับคำอธิบาย
ซีเนียร์ No | ชุดอักขระและคำอธิบาย |
---|---|
1 | ISO-8859-1 อักษรละตินตอนที่ 1 ครอบคลุมอเมริกาเหนือยุโรปตะวันตกละตินอเมริกาแคริบเบียนแคนาดาแอฟริกา |
2 | ISO-8859-2 อักษรละตินตอนที่ 2 ครอบคลุมยุโรปตะวันออก |
3 | ISO-8859-3 อักษรละตินตอนที่ 3 ครอบคลุม SE Europe, Esperanto และอื่น ๆ อีกมากมาย |
4 | ISO-8859-4 อักษรละตินตอนที่ 4 ครอบคลุมสแกนดิเนเวีย / บอลติค (และอื่น ๆ ที่ไม่อยู่ใน ISO-8859-1) |
5 | ISO-8859-5 อักษรละติน / ซิริลลิกตอนที่ 5 |
6 | ISO-8859-6 อักษรละติน / อาหรับตอนที่ 6 |
7 | ISO-8859-7 อักษรละติน / กรีกตอนที่ 7 |
8 | ISO-8859-8 อักษรละติน / ฮีบรูตอนที่ 8 |
9 | ISO-8859-9 อักษรละติน 5 ตอนที่ 9 เหมือนกับ ISO-8859-1 ยกเว้นอักขระตุรกีจะแทนที่ตัวอักษรไอซ์แลนด์ |
10 | ISO-8859-10 ละติน 6 ละติน 6 แลปปิชนอร์ดิกและเอสกิโม |
11 | ISO-8859-15 เช่นเดียวกับ ISO-8859-1 แต่มีการเพิ่มอักขระมากขึ้น |
12 | ISO-2022-JP อักษรละติน / ญี่ปุ่นตอนที่ 1 |
13 | ISO-2022-JP-2 อักษรละติน / ญี่ปุ่นตอนที่ 2 |
14 | ISO-2022-KR อักษรละติน / เกาหลีตอนที่ 1 |
จากนั้น Unicode Consortium ได้รับการจัดตั้งขึ้นเพื่อคิดค้นวิธีการแสดงอักขระทั้งหมดของภาษาต่างๆแทนที่จะมีรหัสอักขระที่เข้ากันไม่ได้สำหรับภาษาต่างๆ
ดังนั้นหากคุณต้องการสร้างเอกสารที่ใช้อักขระจากชุดอักขระหลายชุดคุณจะสามารถทำได้โดยใช้การเข้ารหัสอักขระ Unicode เดียว
ดังนั้น Unicode จึงระบุการเข้ารหัสที่สามารถจัดการกับสตริงในรูปแบบพิเศษเพื่อให้มีพื้นที่เพียงพอสำหรับชุดอักขระขนาดใหญ่ที่ล้อมรอบ สิ่งเหล่านี้เรียกว่า UTF8, UTF-16 และ UTF-32
ซีเนียร์ No | ชุดอักขระและคำอธิบาย |
---|---|
1 | UTF-8 รูปแบบการแปล Unicode ที่มาในหน่วย 8 บิตนั่นคือเป็นไบต์ อักขระใน UTF8 สามารถมีความยาวได้ตั้งแต่ 1 ถึง 4 ไบต์ทำให้มีความกว้างตัวแปร UTF8 |
2 | UTF-16 รูปแบบการแปล Unicode ที่มาในหน่วย 16 บิตนั่นคือมันมาในกางเกงขาสั้น สามารถเป็นกางเกงขาสั้นยาว 1 หรือ 2 ตัวทำให้มีความกว้างตัวแปร UTF16 |
3 | UTF-32 รูปแบบการแปล Unicode ที่มาในหน่วย 32 บิตนั่นคือมันมีความยาว เป็นรูปแบบความกว้างคงที่และมีความยาว 1 "ยาว" เสมอ |
อักขระ 256 ตัวแรกของชุดอักขระ Unicode สอดคล้องกับอักขระ 256 ตัวของ ISO-8859-1
โดยค่าเริ่มต้นโปรเซสเซอร์ HTML 4 ควรรองรับ UTF-8 และตัวประมวลผล XML ควรสนับสนุน UTF-8 และ UTF-16 ดังนั้นโปรเซสเซอร์ที่สอดคล้องกับ XHTML ทั้งหมดควรสนับสนุน UTF-16 ด้วย