XML - codificação
Encodingé o processo de conversão de caracteres Unicode em sua representação binária equivalente. Quando o processador XML lê um documento XML, ele codifica o documento dependendo do tipo de codificação. Portanto, precisamos especificar o tipo de codificação na declaração XML.
Tipos de codificação
Existem basicamente dois tipos de codificação -
- UTF-8
- UTF-16
UTF significa Formato de Transformação UCS e o próprio UCS significa Conjunto de Caracteres Universais . O número 8 ou 16 refere-se ao número de bits usados para representar um caractere. Eles são 8 (1 a 4 bytes) ou 16 (2 ou 4 bytes). Para os documentos sem informações de codificação, UTF-8 é definido por padrão.
Sintaxe
O tipo de codificação está incluído na seção do prólogo do documento XML. A sintaxe para codificação UTF-8 é a seguinte -
<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>
A sintaxe para codificação UTF-16 é a seguinte -
<?xml version = "1.0" encoding = "UTF-16" standalone = "no" ?>
Exemplo
O exemplo a seguir mostra a declaração de codificação -
<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>
<contact-info>
<name>Tanmay Patil</name>
<company>TutorialsPoint</company>
<phone>(011) 123-4567</phone>
</contact-info>
No exemplo acima encoding="UTF-8", especifica que 8 bits são usados para representar os caracteres. Para representar caracteres de 16 bits,UTF-16 codificação pode ser usada.
Os arquivos XML codificados com UTF-8 tendem a ser menores em tamanho do que aqueles codificados com o formato UTF-16.