HTML5-文字エンコード

文字エンコードは、バイトを文字に変換する方法です。HTMLドキュメントを検証または表示するには、プログラムで文字エンコードを選択する必要があります。HTML 5の作成者には、文字エンコードを設定する3つの方法があります-

HTTPコンテンツタイプヘッダー

cgiまたは同様のプログラムを作成している場合は、HTTPContent -Typeヘッダーを使用して任意の文字エンコードを設定します。

以下は簡単な例です-

print "Content-Type: text/html; charset=utf-8\r\n";

<meta>要素

HTML5ドキュメントの最初の512バイト内のエンコーディングを指定するcharset属性を持つ<meta>要素を使用できます。

以下は簡略化された例です-

<meta charset="UTF-8">

上記の構文は、<meta http-equiv = "Content-Type" content = "text / html; charset = UTF-8">の必要性を置き換えますが、その構文は引き続き許可されます。

Unicodeバイトオーダーマーク(BOM)

バイトオーダーマーク(BOM)は、データストリームの先頭にある文字コードU + FEFFで構成され、主にマークされていないプレーンテキストファイルのバイトオーダーとエンコード形式を定義する署名として使用できます。

多くのWindowsプログラム(Windowsのメモ帳を含む)は、UTF-8として保存されたドキュメントの先頭にバイト0xEF、0xBB、0xBFを追加します。これは、Unicodeバイトオーダーマーク(BOM)のUTF-8エンコーディングであり、バイトオーダーとは関係ありませんが、一般にUTF-8BOMと呼ばれます。

HTML5ドキュメントの場合、ファイルの先頭にUnicodeバイト順マーク(BOM)文字を使用できます。この文字は、使用されるエンコーディングの署名を提供します。