HTML5 - การเข้ารหัสอักขระ

การเข้ารหัสอักขระเป็นวิธีการแปลงไบต์เป็นอักขระ ในการตรวจสอบความถูกต้องหรือแสดงเอกสาร HTML โปรแกรมต้องเลือกการเข้ารหัสอักขระ ผู้เขียน HTML 5 มีสามวิธีในการตั้งค่าการเข้ารหัสอักขระ -

HTTP Content-Type Header

หากคุณกำลังเขียน cgi หรือโปรแกรมที่คล้ายกันคุณจะใช้ HTTP Content-Type header เพื่อตั้งค่าการเข้ารหัสอักขระใด ๆ

ต่อไปนี้เป็นตัวอย่างง่ายๆ -

print "Content-Type: text/html; charset=utf-8\r\n";

องค์ประกอบ <meta>

คุณสามารถใช้องค์ประกอบ <meta> กับแอตทริบิวต์ charset ที่ระบุการเข้ารหัสภายใน 512 ไบต์แรกของเอกสาร HTML5

ต่อไปนี้เป็นตัวอย่างแบบง่าย -

<meta charset="UTF-8">

ไวยากรณ์ด้านบนแทนที่ความต้องการสำหรับ <meta http-equiv = "Content-Type" content = "text / html; charset = UTF-8"> แม้ว่าไวยากรณ์นั้นจะยังคงได้รับอนุญาต

เครื่องหมายคำสั่ง Unicode Byte (BOM)

เครื่องหมายลำดับไบต์ (BOM) ประกอบด้วยรหัสอักขระ U + FEFF ที่จุดเริ่มต้นของสตรีมข้อมูลซึ่งสามารถใช้เป็นลายเซ็นที่กำหนดลำดับไบต์และรูปแบบการเข้ารหัสโดยส่วนใหญ่มาจากไฟล์ข้อความธรรมดาที่ไม่มีเครื่องหมาย

โปรแกรม Windows จำนวนมาก (รวมถึง Windows Notepad) จะเพิ่มไบต์ 0xEF, 0xBB, 0xBF ที่จุดเริ่มต้นของเอกสารใด ๆ ที่บันทึกเป็น UTF-8 นี่คือการเข้ารหัส UTF-8 ของเครื่องหมายคำสั่ง Unicode byte (BOM) และโดยทั่วไปเรียกว่า UTF-8 BOM แม้ว่าจะไม่เกี่ยวข้องกับลำดับไบต์ก็ตาม

สำหรับเอกสาร HTML5 คุณสามารถใช้อักขระ Unicode Byte Order Mark (BOM) ที่จุดเริ่มต้นของไฟล์ อักขระนี้มีลายเซ็นสำหรับการเข้ารหัสที่ใช้