HTML - การเข้ารหัสอักขระ

การเข้ารหัสอักขระเป็นวิธีการแปลงไบต์เป็นอักขระ ในการตรวจสอบหรือแสดงเอกสาร HTML อย่างถูกต้องโปรแกรมต้องเลือกการเข้ารหัสอักขระที่เหมาะสม

ชุดอักขระหรือการเข้ารหัสอักขระที่ใช้บ่อยที่สุดในคอมพิวเตอร์คือ ASCII - The American Standard Code for Information Interchangeและนี่อาจเป็นชุดอักขระที่ใช้กันอย่างแพร่หลายในการเข้ารหัสข้อความทางอิเล็กทรอนิกส์

การเข้ารหัส ASCII รองรับเฉพาะอักษรละตินตัวบนและตัวพิมพ์เล็กตัวเลข 0-9 และอักขระพิเศษบางตัวที่มีทั้งหมด 128 อักขระ คุณสามารถดูชุดอักขระ ASCII ที่พิมพ์ได้ทั้งหมด

อย่างไรก็ตามหลายภาษาใช้อักขระละตินที่เน้นเสียงหรือตัวอักษรที่แตกต่างกันโดยสิ้นเชิง ASCII ไม่ได้กล่าวถึงอักขระเหล่านี้ ดังนั้นคุณต้องเรียนรู้เกี่ยวกับการเข้ารหัสอักขระหากคุณต้องการใช้อักขระที่ไม่ใช่ ASCII

องค์การมาตรฐานระหว่างประเทศได้สร้างชุดอักขระขึ้นมาเพื่อจัดการกับอักขระประจำชาติต่างๆ สำหรับเอกสารที่เป็นภาษาอังกฤษและภาษายุโรปตะวันตกอื่น ๆ ส่วนใหญ่จะใช้การเข้ารหัส ISO-8859-1 ที่รองรับอย่างกว้างขวาง

นี่คือรายการชุดตัวละครที่ใช้ทั่วโลกพร้อมกับคำอธิบาย

ซีเนียร์ No ชุดอักขระและคำอธิบาย
1

ISO-8859-1

อักษรละตินตอนที่ 1

ครอบคลุมอเมริกาเหนือยุโรปตะวันตกละตินอเมริกาแคริบเบียนแคนาดาแอฟริกา

2

ISO-8859-2

อักษรละตินตอนที่ 2

ครอบคลุมยุโรปตะวันออก

3

ISO-8859-3

อักษรละตินตอนที่ 3

ครอบคลุม SE Europe, Esperanto และอื่น ๆ อีกมากมาย

4

ISO-8859-4

อักษรละตินตอนที่ 4

ครอบคลุมสแกนดิเนเวีย / บอลติค (และอื่น ๆ ที่ไม่อยู่ใน ISO-8859-1)

5

ISO-8859-5

อักษรละติน / ซิริลลิกตอนที่ 5

6

ISO-8859-6

อักษรละติน / อาหรับตอนที่ 6

7

ISO-8859-7

อักษรละติน / กรีกตอนที่ 7

8

ISO-8859-8

อักษรละติน / ฮีบรูตอนที่ 8

9

ISO-8859-9

อักษรละติน 5 ตอนที่ 9

เหมือนกับ ISO-8859-1 ยกเว้นอักขระตุรกีจะแทนที่ตัวอักษรไอซ์แลนด์

10

ISO-8859-10

ละติน 6 ละติน 6 แลปปิชนอร์ดิกและเอสกิโม

11

ISO-8859-15

เช่นเดียวกับ ISO-8859-1 แต่มีการเพิ่มอักขระมากขึ้น

12

ISO-2022-JP

อักษรละติน / ญี่ปุ่นตอนที่ 1

13

ISO-2022-JP-2

อักษรละติน / ญี่ปุ่นตอนที่ 2

14

ISO-2022-KR

อักษรละติน / เกาหลีตอนที่ 1

จากนั้น Unicode Consortium ได้รับการจัดตั้งขึ้นเพื่อคิดค้นวิธีการแสดงอักขระทั้งหมดของภาษาต่างๆแทนที่จะมีรหัสอักขระที่เข้ากันไม่ได้สำหรับภาษาต่างๆ

ดังนั้นหากคุณต้องการสร้างเอกสารที่ใช้อักขระจากชุดอักขระหลายชุดคุณจะสามารถทำได้โดยใช้การเข้ารหัสอักขระ Unicode เดียว

ดังนั้น Unicode จึงระบุการเข้ารหัสที่สามารถจัดการกับสตริงในรูปแบบพิเศษเพื่อให้มีพื้นที่เพียงพอสำหรับชุดอักขระขนาดใหญ่ที่ล้อมรอบ สิ่งเหล่านี้เรียกว่า UTF8, UTF-16 และ UTF-32

ซีเนียร์ No ชุดอักขระและคำอธิบาย
1

UTF-8

รูปแบบการแปล Unicode ที่มาในหน่วย 8 บิตนั่นคือเป็นไบต์ อักขระใน UTF8 สามารถมีความยาวได้ตั้งแต่ 1 ถึง 4 ไบต์ทำให้มีความกว้างตัวแปร UTF8

2

UTF-16

รูปแบบการแปล Unicode ที่มาในหน่วย 16 บิตนั่นคือมันมาในกางเกงขาสั้น สามารถเป็นกางเกงขาสั้นยาว 1 หรือ 2 ตัวทำให้มีความกว้างตัวแปร UTF16

3

UTF-32

รูปแบบการแปล Unicode ที่มาในหน่วย 32 บิตนั่นคือมันมีความยาว เป็นรูปแบบความกว้างคงที่และมีความยาว 1 "ยาว" เสมอ

อักขระ 256 ตัวแรกของชุดอักขระ Unicode สอดคล้องกับอักขระ 256 ตัวของ ISO-8859-1

โดยค่าเริ่มต้นโปรเซสเซอร์ HTML 4 ควรรองรับ UTF-8 และตัวประมวลผล XML ควรสนับสนุน UTF-8 และ UTF-16 ดังนั้นโปรเซสเซอร์ที่สอดคล้องกับ XHTML ทั้งหมดควรสนับสนุน UTF-16 ด้วย