HTML - Mã hóa ký tự
Mã hóa ký tự là một phương pháp chuyển đổi byte thành ký tự. Để xác thực hoặc hiển thị một tài liệu HTML đúng cách, một chương trình phải chọn một kiểu mã hóa ký tự thích hợp.
Bộ ký tự hoặc mã hóa ký tự phổ biến nhất được sử dụng trên máy tính là ASCII - The American Standard Code for Information Interchange, và đây có lẽ là bộ ký tự được sử dụng rộng rãi nhất để mã hóa văn bản điện tử.
Mã hóa ASCII chỉ hỗ trợ bảng chữ cái Latinh viết hoa và viết thường, các số 0-9 và một số ký tự phụ tạo nên tổng cộng 128 ký tự. Bạn có thể xem toàn bộ bộ ký tự ASCII có thể in
Tuy nhiên, nhiều ngôn ngữ sử dụng các ký tự Latinh có dấu hoặc các bảng chữ cái hoàn toàn khác nhau. ASCII không giải quyết các ký tự này; do đó, bạn cần tìm hiểu về bảng mã ký tự nếu bạn muốn sử dụng bất kỳ ký tự không phải ASCII nào.
Tổ chức Tiêu chuẩn Quốc tế đã tạo ra một loạt các bộ ký tự để đối phó với các ký tự quốc gia khác nhau. Đối với các tài liệu bằng tiếng Anh và hầu hết các ngôn ngữ Tây Âu khác, mã hóa ISO-8859-1 được hỗ trợ rộng rãi được sử dụng.
Đây là danh sách các Bộ nhân vật đang được sử dụng trên khắp thế giới cùng với mô tả của chúng.
Sr.No | Bộ ký tự & Mô tả |
---|---|
1 | ISO-8859-1 Bảng chữ cái Latinh phần 1 Bao gồm Bắc Mỹ, Tây Âu, Mỹ Latinh, Canada, Canada, Châu Phi |
2 | ISO-8859-2 Bảng chữ cái Latinh phần 2 Bao gồm Đông Âu |
3 | ISO-8859-3 Bảng chữ cái Latinh phần 3 Bao gồm Đông Nam Âu, Esperanto, những thứ khác |
4 | ISO-8859-4 Bảng chữ cái Latinh phần 4 Bao gồm Scandinavia / Baltics (và những vùng khác không có trong ISO-8859-1) |
5 | ISO-8859-5 Bảng chữ cái Latinh / Kirin phần 5 |
6 | ISO-8859-6 Bảng chữ cái Latinh / Ả Rập phần 6 |
7 | ISO-8859-7 Bảng chữ cái Latinh / Hy Lạp phần 7 |
số 8 | ISO-8859-8 Bảng chữ cái Latinh / tiếng Do Thái phần 8 |
9 | ISO-8859-9 5 bảng chữ cái Latinh phần 9 Giống như ISO-8859-1 ngoại trừ các ký tự Thổ Nhĩ Kỳ thay thế các ký tự Iceland |
10 | ISO-8859-10 Tiếng Latinh 6 Tiếng Latinh 6 Tiếng Lappish, Tiếng Bắc Âu và Tiếng Eskimo |
11 | ISO-8859-15 Giống như ISO-8859-1 nhưng có thêm nhiều ký tự hơn |
12 | ISO-2022-JP Bảng chữ cái Latinh / Nhật Bản phần 1 |
13 | ISO-2022-JP-2 Bảng chữ cái Latinh / Nhật Bản phần 2 |
14 | ISO-2022-KR Bảng chữ cái Latinh / Hàn Quốc phần 1 |
Sau đó Unicode Consortium được thành lập để tìm ra cách hiển thị tất cả các ký tự của các ngôn ngữ khác nhau, thay vì có các mã ký tự không tương thích khác nhau này cho các ngôn ngữ khác nhau.
Do đó, nếu bạn muốn tạo tài liệu sử dụng các ký tự từ nhiều bộ ký tự, bạn sẽ có thể làm như vậy bằng cách sử dụng các bảng mã ký tự Unicode duy nhất.
Do đó, Unicode chỉ định các mã hóa có thể xử lý một chuỗi theo những cách đặc biệt để tạo đủ không gian cho bộ ký tự khổng lồ mà nó bao gồm. Chúng được gọi là UTF8, UTF-16 và UTF-32.
Sr.No | Bộ ký tự & Mô tả |
---|---|
1 | UTF-8 Định dạng dịch Unicode có đơn vị 8 bit, tức là nó có tính bằng byte. Một ký tự trong UTF8 có thể dài từ 1 đến 4 byte, làm cho chiều rộng UTF8 có thể thay đổi. |
2 | UTF-16 Định dạng dịch Unicode có đơn vị 16 bit, tức là nó có dạng ngắn. Nó có thể dài 1 hoặc 2 quần đùi, làm cho chiều rộng UTF16 có thể thay đổi. |
3 | UTF-32 Định dạng Bản dịch Unicode có đơn vị 32-bit, tức là nó có tính lâu dài. Đây là định dạng có chiều rộng cố định và luôn có chiều dài là 1 "". |
256 ký tự đầu tiên của bộ ký tự Unicode tương ứng với 256 ký tự của ISO-8859-1.
Theo mặc định, bộ xử lý HTML 4 phải hỗ trợ UTF-8 và bộ xử lý XML phải hỗ trợ UTF-8 và UTF-16; do đó tất cả các bộ xử lý tuân thủ XHTML cũng phải hỗ trợ UTF-16.