HTML - Кодировки символов

Кодировка символов - это метод преобразования байтов в символы. Чтобы проверить или правильно отобразить документ HTML, программа должна выбрать правильную кодировку символов.

Наиболее распространенный набор символов или кодировка символов, используемая на компьютерах, - это ASCII - The American Standard Code for Information Interchange, и это, вероятно, наиболее широко используемый набор символов для электронного кодирования текста.

Кодировка ASCII поддерживает только латинский алфавит в верхнем и нижнем регистре, числа от 0 до 9 и некоторые дополнительные символы, всего 128 символов. Вы можете ознакомиться с полным набором печатаемых символов ASCII

Однако во многих языках используются латинские символы с диакритическими знаками или совершенно разные алфавиты. ASCII не обращается к этим символам; поэтому вам нужно узнать о кодировках символов, если вы хотите использовать какие-либо символы, отличные от ASCII.

Международная организация по стандартизации создала ряд наборов символов для работы с различными национальными символами. Для документов на английском и большинстве других западноевропейских языков используется широко поддерживаемая кодировка ISO-8859-1.

Вот список наборов символов, используемых во всем мире, а также их описание.

Старший Нет	Набор символов и описание
1	ISO-8859-1 Латинский алфавит часть 1 Охватывает Северную Америку, Западную Европу, Латинскую Америку, Карибский бассейн, Канаду, Африку.
2	ISO-8859-2 Латинский алфавит, часть 2 Покрытие Восточной Европы
3	ISO-8859-3 Латинский алфавит часть 3 Покрытие Юго-Восточной Европы, эсперанто, разные другие
4	ISO-8859-4 Латинский алфавит часть 4 Охват Скандинавии / Прибалтики (и других стран, не указанных в ISO-8859-1)
5	ISO-8859-5 Латинский / кириллица часть 5
6	ISO-8859-6 Латинский / арабский алфавит часть 6
7	ISO-8859-7 Латинский / греческий алфавит часть 7
8	ISO-8859-8 Латинский / еврейский алфавит часть 8
9	ISO-8859-9 Латинский алфавит 5 часть 9 То же, что и ISO-8859-1, за исключением того, что турецкие символы заменяют исландские.
10	ISO-8859-10 Латинский 6 Латинский 6 Лапландский, нордический и эскимосский
11	ISO-8859-15 То же, что ISO-8859-1, но с добавлением дополнительных символов
12	ISO-2022-JP Латинский / японский алфавит, часть 1
13	ISO-2022-JP-2 Латинский / японский алфавит, часть 2
14	ISO-2022-KR Латинский / корейский алфавит, часть 1

Затем был создан Консорциум Unicode, чтобы разработать способ отображения всех символов разных языков вместо того, чтобы иметь эти разные несовместимые коды символов для разных языков.

Следовательно, если вы хотите создать документы, в которых используются символы из нескольких наборов символов, вы сможете сделать это, используя одиночные кодировки символов Unicode.

Поэтому Unicode определяет кодировки, которые могут обрабатывать строку особым образом, чтобы освободить достаточно места для огромного набора символов, который она охватывает. Они известны как UTF8, UTF-16 и UTF-32.

Старший Нет	Набор символов и описание
1	UTF-8 Формат перевода Unicode, который представлен в 8-битных единицах, то есть в байтах. Символ в UTF8 может иметь длину от 1 до 4 байтов, что делает ширину UTF8 переменной шириной.
2	UTF-16 Формат перевода Unicode, который поставляется в 16-битных единицах, то есть он поставляется в сокращенном виде. Это может быть 1 или 2 шорта, что делает ширину UTF16 переменной.
3	UTF-32 Формат перевода Unicode, который поставляется в 32-битных единицах, то есть в длинных. Это формат с фиксированной шириной и всегда имеет длину 1 «длинный».

Первые 256 символов наборов символов Unicode соответствуют 256 символам ISO-8859-1.

По умолчанию процессоры HTML 4 должны поддерживать UTF-8, а процессоры XML должны поддерживать UTF-8 и UTF-16; поэтому все XHTML-совместимые процессоры также должны поддерживать UTF-16.