HTML - kodowanie znaków

Kodowanie znaków to metoda konwersji bajtów na znaki. Aby sprawdzić poprawność lub poprawnie wyświetlić dokument HTML, program musi wybrać odpowiednie kodowanie znaków.

Najpopularniejszym zestawem znaków lub kodowaniem znaków używanym na komputerach jest ASCII - The American Standard Code for Information Interchange, i jest to prawdopodobnie najczęściej używany zestaw znaków do elektronicznego kodowania tekstu.

Kodowanie ASCII obsługuje tylko wielkie i małe litery alfabetu łacińskiego, cyfry 0-9 i kilka dodatkowych znaków, które łącznie tworzą 128 znaków. Możesz rzucić okiem na pełny zestaw drukowalnych znaków ASCII

Jednak wiele języków używa akcentowanych znaków łacińskich lub zupełnie innych alfabetów. ASCII nie odnosi się do tych znaków; w związku z tym musisz nauczyć się kodowania znaków, jeśli chcesz używać znaków spoza zestawu ASCII.

Międzynarodowa Organizacja Normalizacyjna stworzyła szereg zestawów znaków, aby radzić sobie z różnymi znakami narodowymi. W przypadku dokumentów w języku angielskim i większości innych języków zachodnioeuropejskich używane jest szeroko obsługiwane kodowanie ISO-8859-1.

Oto lista zestawów znaków używanych na całym świecie wraz z ich opisem.

Sr.No	Zestaw znaków i opis
1	ISO-8859-1 Alfabet łaciński część 1 Obejmuje Amerykę Północną, Europę Zachodnią, Amerykę Łacińską, Karaiby, Kanadę, Afrykę
2	ISO-8859-2 Alfabet łaciński część 2 Obejmuje Europę Wschodnią
3	ISO-8859-3 Alfabet łaciński część 3 Obejmuje SE Europe, Esperanto, różne inne
4	ISO-8859-4 Alfabet łaciński cz.4 Obejmuje Skandynawię / kraje bałtyckie (i inne nieujęte w ISO-8859-1)
5	ISO-8859-5 Alfabet łaciński / cyrylica część 5
6	ISO-8859-6 Alfabet łaciński / arabski cz.6
7	ISO-8859-7 Alfabet łaciński / grecki cz.7
8	ISO-8859-8 Alfabet łaciński / hebrajski cz.8
9	ISO-8859-9 Alfabet łaciński 5 część 9 To samo co ISO-8859-1, ale znaki tureckie zastępują znaki islandzkie
10	ISO-8859-10 Latin 6 Latin 6 Lappish, Nordic i Eskimo
11	ISO-8859-15 To samo co ISO-8859-1, ale z większą liczbą dodanych znaków
12	ISO-2022-JP Alfabet łaciński / japoński część 1
13	ISO-2022-JP-2 Alfabet łaciński / japoński część 2
14	ISO-2022-KR Alfabet łaciński / koreański część 1

Następnie utworzono Konsorcjum Unicode, aby opracować sposób wyświetlania wszystkich znaków z różnych języków, zamiast stosować te różne niezgodne kody znaków dla różnych języków.

Dlatego jeśli chcesz tworzyć dokumenty, które używają znaków z wielu zestawów znaków, będziesz w stanie to zrobić za pomocą pojedynczego kodowania znaków Unicode.

Dlatego Unicode określa kodowanie, które może obsługiwać ciąg w specjalny sposób, aby zrobić wystarczająco dużo miejsca na ogromny zestaw znaków, który obejmuje. Są one znane jako UTF8, UTF-16 i UTF-32.

Sr.No	Zestaw znaków i opis
1	UTF-8 Format tłumaczenia Unicode, który jest dostępny w jednostkach 8-bitowych, to znaczy w bajtach. Znak w UTF8 może mieć od 1 do 4 bajtów, dzięki czemu szerokość UTF8 jest zmienna.
2	UTF-16 Format tłumaczenia Unicode, który jest dostępny w 16-bitowych jednostkach, to znaczy jest dostępny w krótkich odstępach czasu. Może mieć 1 lub 2 szorty, dzięki czemu UTF16 ma zmienną szerokość.
3	UTF-32 Format tłumaczenia Unicode, który jest dostępny w jednostkach 32-bitowych, to znaczy w długich. Jest to format o stałej szerokości i zawsze ma długość 1 „długości”.

Pierwsze 256 znaków zestawu znaków Unicode odpowiada 256 znakom normy ISO-8859-1.

Domyślnie procesory HTML 4 powinny obsługiwać UTF-8, a procesory XML mają obsługiwać UTF-8 i UTF-16; dlatego wszystkie procesory zgodne z XHTML powinny również obsługiwać UTF-16.