XML - Codierung

Encodingist der Prozess des Konvertierens von Unicode-Zeichen in ihre äquivalente binäre Darstellung. Wenn der XML-Prozessor ein XML-Dokument liest, codiert er das Dokument abhängig von der Art der Codierung. Daher müssen wir den Codierungstyp in der XML-Deklaration angeben.

Codierungstypen

Es gibt hauptsächlich zwei Arten der Codierung -

  • UTF-8
  • UTF-16

UTF steht für UCS Transformation Format und UCS selbst bedeutet Universal Character Set . Die Zahl 8 oder 16 bezieht sich auf die Anzahl der Bits, die zur Darstellung eines Zeichens verwendet werden. Sie sind entweder 8 (1 bis 4 Byte) oder 16 (2 oder 4 Byte). Für Dokumente ohne Codierungsinformationen ist UTF-8 standardmäßig festgelegt.

Syntax

Der Codierungstyp ist im Prologabschnitt des XML-Dokuments enthalten. Die Syntax für die UTF-8-Codierung lautet wie folgt:

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>

Die Syntax für die UTF-16-Codierung lautet wie folgt:

<?xml version = "1.0" encoding = "UTF-16" standalone = "no" ?>

Beispiel

Das folgende Beispiel zeigt die Deklaration der Codierung -

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>
<contact-info>
   <name>Tanmay Patil</name>
   <company>TutorialsPoint</company>
   <phone>(011) 123-4567</phone>
</contact-info>

Im obigen Beispiel encoding="UTF-8"gibt an, dass 8-Bit zur Darstellung der Zeichen verwendet werden. Um 16-Bit-Zeichen darzustellen,UTF-16 Codierung kann verwendet werden.

Die mit UTF-8 codierten XML-Dateien sind in der Regel kleiner als die mit dem UTF-16-Format codierten.