HTML5 - Codifiche dei caratteri
Una codifica dei caratteri è un metodo per convertire i byte in caratteri. Per convalidare o visualizzare un documento HTML, un programma deve scegliere una codifica dei caratteri. Gli autori HTML 5 hanno tre mezzi per impostare la codifica dei caratteri:
Intestazione del tipo di contenuto HTTP
Se stai scrivendo cgi o un programma simile, dovresti usare l' intestazione HTTP Content-Type per impostare qualsiasi codifica dei caratteri.
Di seguito è riportato il semplice esempio:
print "Content-Type: text/html; charset=utf-8\r\n";
L'elemento <meta>
Puoi utilizzare un elemento <meta> con un attributo charset che specifica la codifica entro i primi 512 byte del documento HTML5.
Di seguito è riportato l'esempio semplificato:
<meta charset="UTF-8">
La sintassi precedente sostituisce la necessità di <meta http-equiv = "Content-Type" content = "text / html; charset = UTF-8"> sebbene tale sintassi sia ancora consentita.
Unicode Byte Order Mark (BOM)
Un byte order mark (BOM) è costituito dal codice carattere U + FEFF all'inizio di un flusso di dati, dove può essere utilizzato come firma che definisce l'ordine dei byte e la forma di codifica, principalmente di file di testo in chiaro non contrassegnati.
Molti programmi Windows (incluso Blocco note di Windows) aggiungono i byte 0xEF, 0xBB, 0xBF all'inizio di qualsiasi documento salvato come UTF-8. Questa è la codifica UTF-8 del byte order mark (BOM) Unicode ed è comunemente indicata come BOM UTF-8 anche se non è rilevante per l'ordine dei byte.
Per il documento HTML5, è possibile utilizzare un carattere Unicode Byte Order Mark (BOM) all'inizio del file. Questo carattere fornisce una firma per la codifica utilizzata.