एचटीएमएल 5 - चरित्र एनकोडिंग

एक चरित्र एन्कोडिंग बाइट्स को वर्णों में परिवर्तित करने की एक विधि है। HTML दस्तावेज़ को मान्य या प्रदर्शित करने के लिए, एक प्रोग्राम को एक वर्ण एन्कोडिंग चुनना होगा। HTML 5 लेखकों के पास वर्ण एन्कोडिंग सेट करने के तीन साधन हैं -

HTTP कंटेंट-टाइप हैडर

यदि आप cgi या इसी तरह का प्रोग्राम लिख रहे हैं तो आप किसी भी वर्ण एन्कोडिंग को सेट करने के लिए HTTP कंटेंट-टाइप हेडर का उपयोग करेंगे ।

निम्नलिखित सरल उदाहरण है -

print "Content-Type: text/html; charset=utf-8\r\n";

<मेटा> तत्व

आप एक विशेषता के साथ एक <मेटा> तत्व का उपयोग कर सकते हैं जो HTML5 दस्तावेज़ के पहले 512 बाइट्स के भीतर एन्कोडिंग को निर्दिष्ट करता है।

निम्नलिखित सरलीकृत उदाहरण है -

<meta charset="UTF-8">

सिंटैक्स के ऊपर <meta http-equiv = "कंटेंट-टाइप" कंटेंट = "टेक्स्ट / अडजस्ट; चारसेट = यूटीएफ -8"> की जरूरत होती है, हालांकि उस सिंटैक्स को अभी भी अनुमति है।

यूनिकोड बाइट ऑर्डर मार्क (BOM)

एक बाइट ऑर्डर मार्क (BOM) में एक डेटा स्ट्रीम की शुरुआत में चरित्र कोड U + FEFF होता है, जहां इसे बाइट ऑर्डर और एन्कोडिंग फॉर्म को परिभाषित करने वाले हस्ताक्षर के रूप में इस्तेमाल किया जा सकता है, मुख्य रूप से अनचाहे प्लेनटेक्स्ट फाइलों में।

कई विंडोज प्रोग्राम (विंडोज नोटपैड सहित) यूटीएफ -8 के रूप में सहेजे गए किसी भी दस्तावेज़ की शुरुआत में बाइट्स 0xEF, 0xBB, 0xBF जोड़ते हैं। यह यूनिकोड बाइट ऑर्डर मार्क (BOM) का UTF-8 एन्कोडिंग है, और आमतौर पर इसे UTF-8 BOM के रूप में संदर्भित किया जाता है, भले ही यह बाइट ऑर्डर के लिए प्रासंगिक नहीं है।

HTML5 दस्तावेज़ के लिए, आप फ़ाइल के प्रारंभ में यूनिकोड बाइट ऑर्डर मार्क (BOM) वर्ण का उपयोग कर सकते हैं। यह वर्ण उपयोग किए गए एन्कोडिंग के लिए एक हस्ताक्षर प्रदान करता है।