HTML5 - Codifiche dei caratteri

Una codifica dei caratteri è un metodo per convertire i byte in caratteri. Per convalidare o visualizzare un documento HTML, un programma deve scegliere una codifica dei caratteri. Gli autori HTML 5 hanno tre mezzi per impostare la codifica dei caratteri:

Intestazione del tipo di contenuto HTTP

Se stai scrivendo cgi o un programma simile, dovresti usare l' intestazione HTTP Content-Type per impostare qualsiasi codifica dei caratteri.

Di seguito è riportato il semplice esempio:

print "Content-Type: text/html; charset=utf-8\r\n";

L'elemento <meta>

Puoi utilizzare un elemento <meta> con un attributo charset che specifica la codifica entro i primi 512 byte del documento HTML5.

Di seguito è riportato l'esempio semplificato:

<meta charset="UTF-8">

La sintassi precedente sostituisce la necessità di <meta http-equiv = "Content-Type" content = "text / html; charset = UTF-8"> sebbene tale sintassi sia ancora consentita.

Unicode Byte Order Mark (BOM)

Un byte order mark (BOM) è costituito dal codice carattere U + FEFF all'inizio di un flusso di dati, dove può essere utilizzato come firma che definisce l'ordine dei byte e la forma di codifica, principalmente di file di testo in chiaro non contrassegnati.

Molti programmi Windows (incluso Blocco note di Windows) aggiungono i byte 0xEF, 0xBB, 0xBF all'inizio di qualsiasi documento salvato come UTF-8. Questa è la codifica UTF-8 del byte order mark (BOM) Unicode ed è comunemente indicata come BOM UTF-8 anche se non è rilevante per l'ordine dei byte.

Per il documento HTML5, è possibile utilizzare un carattere Unicode Byte Order Mark (BOM) all'inizio del file. Questo carattere fornisce una firma per la codifica utilizzata.