HTML - Codificações de caracteres

A codificação de caracteres é um método de conversão de bytes em caracteres. Para validar ou exibir um documento HTML corretamente, um programa deve escolher uma codificação de caracteres adequada.

O conjunto de caracteres ou codificação de caracteres mais comum em uso em computadores é ASCII - The American Standard Code for Information Interchange, e este é provavelmente o conjunto de caracteres mais amplamente usado para codificar texto eletronicamente.

A codificação ASCII suporta apenas o alfabeto latino em maiúsculas e minúsculas, os números de 0 a 9 e alguns caracteres extras que perfazem um total de 128 caracteres. Você pode dar uma olhada no conjunto completo de caracteres ASCII para impressão

No entanto, muitos idiomas usam caracteres latinos acentuados ou alfabetos completamente diferentes. ASCII não aborda esses caracteres; portanto, você precisa aprender sobre a codificação de caracteres se quiser usar qualquer caractere não ASCII.

A International Standards Organization criou uma série de conjuntos de caracteres para lidar com diferentes personagens nacionais. Para documentos em inglês e na maioria dos outros idiomas da Europa Ocidental, é usada a codificação amplamente aceita ISO-8859-1.

Aqui está a lista de conjuntos de caracteres usados em todo o mundo junto com sua descrição.

Sr. Não	Conjunto de caracteres e descrição
1	ISO-8859-1 Alfabeto latino parte 1 Cobrindo a América do Norte, Europa Ocidental, América Latina, Caribe, Canadá, África
2	ISO-8859-2 Alfabeto latino parte 2 Cobrindo a Europa Oriental
3	ISO-8859-3 Alfabeto latino parte 3 Cobrindo o sudeste da Europa, esperanto, diversos outros
4	ISO-8859-4 Alfabeto latino parte 4 Cobrindo a Escandinávia / Báltico (e outros que não estão em ISO-8859-1)
5	ISO-8859-5 Alfabeto latino / cirílico parte 5
6	ISO-8859-6 Alfabeto latino / árabe parte 6
7	ISO-8859-7 Alfabeto latino / grego, parte 7
8	ISO-8859-8 Alfabeto latino / hebraico parte 8
9	ISO-8859-9 Alfabeto latino 5, parte 9 Igual ao ISO-8859-1, exceto os caracteres turcos que substituem os islandeses
10	ISO-8859-10 Latim 6 Latim 6 lapão, nórdico e esquimó
11	ISO-8859-15 O mesmo que ISO-8859-1, mas com mais caracteres adicionados
12	ISO-2022-JP Alfabeto latino / japonês parte 1
13	ISO-2022-JP-2 Alfabeto latino / japonês parte 2
14	ISO-2022-KR Alfabeto latino / coreano parte 1

O Unicode Consortium foi então estabelecido para desenvolver uma maneira de mostrar todos os caracteres de diferentes idiomas, em vez de ter esses diferentes códigos de caracteres incompatíveis para diferentes idiomas.

Portanto, se você deseja criar documentos que usam caracteres de vários conjuntos de caracteres, poderá fazê-lo usando as codificações de caracteres Unicode únicas.

O Unicode, portanto, especifica codificações que podem lidar com uma string de maneiras especiais, de modo a criar espaço suficiente para o enorme conjunto de caracteres que abrange. Eles são conhecidos como UTF8, UTF-16 e UTF-32.

Sr. Não	Conjunto de caracteres e descrição
1	UTF-8 Um formato de tradução Unicode que vem em unidades de 8 bits, ou seja, vem em bytes. Um caractere em UTF8 pode ter de 1 a 4 bytes, tornando a largura variável de UTF8.
2	UTF-16 Um formato de tradução Unicode que vem em unidades de 16 bits, ou seja, em shorts. Pode ter 1 ou 2 shorts, tornando a largura variável do UTF16.
3	UTF-32 Um formato de tradução Unicode que vem em unidades de 32 bits, ou seja, vem em longos. É um formato de largura fixa e sempre tem 1 "comprimento" de comprimento.

Os primeiros 256 caracteres dos conjuntos de caracteres Unicode correspondem aos 256 caracteres do ISO-8859-1.

Por padrão, os processadores HTML 4 devem oferecer suporte a UTF-8 e os processadores XML devem oferecer suporte a UTF-8 e UTF-16; portanto, todos os processadores compatíveis com XHTML também devem oferecer suporte a UTF-16.