क्या बड़े भाषा मॉडल (एलएलएम) हमारी भाषाओं की काफी मदद कर सकते हैं?

May 03 2023
जब से नवंबर में OpenAI द्वारा ChatGPT को सार्वजनिक उपयोग के लिए उपलब्ध कराया गया था, तब से इंटरनेट अपने पांचवें पुनरावृत्ति के लिए इस पर अधिक से अधिक डेटा जोड़ रहा है। ChatGPT (GPT-3) और GPT-4 के बारे में इंटरनेट पर बाढ़ आ गई लेखों, खोजों, सीमाओं, क्षमताओं और चेतावनियों की विशाल मात्रा को देखते हुए, यह कहना सुरक्षित है कि GPT-5 अपने बारे में अधिक जानने में सक्षम होगा इसके डेवलपर्स के बजाय इसके प्रशिक्षण डेटा से।
अनस्प्लैश पर एंड्रयू नील द्वारा फोटो

जब से नवंबर में OpenAI द्वारा ChatGPT को सार्वजनिक उपयोग के लिए उपलब्ध कराया गया था, तब से इंटरनेट अपने पांचवें पुनरावृत्ति के लिए इस पर अधिक से अधिक डेटा जोड़ रहा है। ChatGPT (GPT-3) और GPT-4 के बारे में इंटरनेट पर बाढ़ आ गई लेखों, खोजों, सीमाओं, क्षमताओं और चेतावनियों की विशाल मात्रा को देखते हुए, यह कहना सुरक्षित है कि GPT-5 अपने बारे में अधिक जानने में सक्षम होगा इसके डेवलपर्स के बजाय इसके प्रशिक्षण डेटा से।

GPT-3 और GPT-4 वे हैं जिन्हें बड़े भाषा मॉडल के उदाहरणों के रूप में परिभाषित किया जा सकता है । एक बड़ा भाषा मॉडल एक प्रकार का मशीन लर्निंग मॉडल है जो प्राकृतिक भाषा को संसाधित करने और समझने के लिए गहरे तंत्रिका नेटवर्क का उपयोग करता है। इन मॉडलों को बड़ी मात्रा में टेक्स्ट डेटा, जैसे किताबें, लेख और वेब पेजों पर प्रशिक्षित किया जाता है, और प्राकृतिक भाषा इनपुट के लिए मानव-जैसी प्रतिक्रिया उत्पन्न करने के लिए डिज़ाइन किया गया है। बड़े भाषा मॉडल का प्राथमिक लक्ष्य भाषा को गहरे स्तर पर समझना है और इस समझ का उपयोग पाठ उत्पन्न करने के लिए करना है जो सुसंगत, प्रासंगिक और प्रासंगिक रूप से उपयुक्त हो। उनका उपयोग भाषा अनुवाद, भावना विश्लेषण, पाठ वर्गीकरण और प्रश्न उत्तर सहित कई प्रकार के कार्यों के लिए किया जा सकता है।

अपनी प्रारंभिक रिलीज के महीनों बाद, चैटजीपीटी को अभी भी एक आदर्श मानव की तरह मानव भाषा, गणित, विज्ञान, नैतिकता, तर्क और मूल्यों को समझने की क्षमता के आधार पर जादुई शक्तियों वाला प्राणी माना जाता है। इतिहास और पौराणिक कथाओं ने हमें बार-बार यह साबित करने के लिए पर्याप्त सबूत दिए हैं कि जादुई शक्तियों वाला हर प्राणी हमेशा स्वर्गदूतों के परिवार का नहीं होता, उनमें से कुछ शैतान के अनुयायी भी होते हैं। अभी यह देखा जाना बाकी है कि GPT-4 और इसके बाद के संस्करणों में उनके सिर के चारों ओर एक प्रभामंडल होगा या उनकी खोपड़ी से सींग निकल रहे होंगे। किसी भी तरह से, हमें प्रभाव के लिए तैयार होने की जरूरत है।

हम समाज और हमारे जीवन पर नए एआई के प्रभाव का आकलन करने के शुरुआती चरण में हैं। स्वचालन, लेखन, संपादन, दृश्य कला, प्रोग्रामिंग जैसे विभिन्न मुद्दों, प्रक्रियाओं और कार्यों पर इसका प्रभाव। अनुसंधान और भी बहुत कुछ हर आने वाले दिन पर प्रकाश डाला जाता है। जबकि हम ऐसे कई विषयों की खोज कर रहे हैं जो एआई को प्रभावित कर सकते हैं, हो सकता है कि हम कुछ को याद कर रहे हों। ऐसे विषयों में से एक भाषा हो सकती है।

एआई, या बड़े भाषा मॉडल, अधिक विशेष रूप से, हमें भाषाओं को अधिक व्यापक रूप से डिजिटाइज़ करने के लिए बाध्य करेंगे। इसके अलावा, यह हमारी भाषाओं को इस तरह से संरक्षित करने में हमारी मदद कर सकता है जो पहले कभी संभव नहीं था।

बड़े भाषा मॉडल और उनकी भाषाएँ

ChatGPT, यकीनन सबसे व्यापक रूप से ज्ञात मुफ्त लार्ज लैंग्वेज मॉडल को 570 गीगाबाइट डेटा¹ पर प्रशिक्षित किया गया था। यह इंटरनेट के कुल आकार की तुलना में काफी कम मात्रा में डेटा है, जिसे आसानी से कुछ हजार पेटाबाइट्स तक पहुंचने का अनुमान लगाया जा सकता है। बीबीसी साइंस फोकस के अनुसार, Google, Amazon, Microsoft और Facebook (मेटा) अकेले कम से कम 1,200 पेटाबाइट्स (1.2 मिलियन टेराबाइट्स) डेटा² स्टोर करते हैं।

सामान्य क्रॉल, वेबटेक्स्ट 2, पुस्तकें 1 और 2 और विकिपीडिया चैटजीपीटी के लिए डेटा स्रोत हैं। इसका मतलब है कि ये डेटा के भंडार थे जिन पर चैटजीपीटी को प्रशिक्षित किया जाता है।

ऊपर दी गई तालिका शीर्षक वाले पेपर से है: भाषा मॉडल कुछ शॉट लर्नर्स हैं और GPT-3 के लिए डेटा स्रोतों का खुलासा करते हैं। GPT-4 के डेटा स्रोत अभी तक सार्वजनिक नहीं किए गए हैं।

आइए कॉमन क्रॉल को प्राथमिक डेटासेट मानें और अन्य डेटासेट को नज़रअंदाज़ करें। कॉमन क्रॉल कॉर्पस में 12 वर्षों के वेब क्रॉलिंग में एकत्र किए गए डेटा के पेटाबाइट्स होते हैं। कॉर्पस में रॉ वेब पेज डेटा, मेटाडेटा एक्सट्रैक्ट्स और टेक्स्ट एक्सट्रैक्ट्स होते हैं। कॉमन क्रॉल डेटा Amazon वेब सर्विसेज के पब्लिक डेटा सेट और दुनिया भर के कई अकादमिक क्लाउड प्लेटफॉर्म पर स्टोर किया जाता है।

द कॉमन क्रॉल द्वारा प्रकाशित आँकड़ों को देखने पर, हमें यह देखने को मिलता है कि अंग्रेजी भाषा अधिकांश डेटासेट (46%) बनाती है , इसके बाद जर्मन भाषा (5%) , रूसी (5%) , फ्रेंच (4%) ) और चीनी (4%)। इसका अर्थ है कि GPT-3 को किसी भी अन्य भाषा की तुलना में अंग्रेजी भाषा पर अधिक प्रशिक्षित किया गया था और परिणामस्वरूप, किसी भी अन्य भाषा की तुलना में अंग्रेजी में बेहतर है। वास्तविक दुनिया के साथ इस डिजिटल आंकड़े की तुलना करने पर, अंग्रेजी सबसे अधिक बोली जाने वाली भाषा है, 19वीं और 20वीं शताब्दी में दुनिया के प्रमुख हिस्से के उपनिवेशीकरण और "सभ्यता" के कारण, इसके बाद मंदारिन , हिंदी ,स्पेनिश और फ्रेंच।

दुनिया भर में बोली जाने वाली शीर्ष 20 भाषाओं और कॉमन क्रॉल में इसके हिस्से के प्रतिशत को देखते हुए, हम आसानी से यह पता लगा सकते हैं कि भाषाओं की वास्तविक और आभासी उपस्थिति में बड़ी असमानता है।

वैश्विक वक्ताओं का प्रतिशत बनाम भाषाओं का सामान्य क्रॉल प्रतिशत

भले ही कॉमन क्रॉल डेटासेट (और अन्य डेटासेट) में अन्य प्रमुख भाषाओं की मात्रा का भारी अभाव दिखाई देता है, GPT-3 उन भाषाओं में भी वास्तव में अच्छा साबित हुआ है।

हालाँकि, एक बड़े भाषा मॉडल के लिए किसी भी भाषा में बेहतर बनने के लिए, उसे पहले उस भाषा को "सीखने" की आवश्यकता होती है, जिसका अर्थ है कि उसे विभिन्न शब्दों, वाक्यों और वाक्यांशों को देखने और वाक्य निर्माण पैटर्न, विभिन्न संस्थाओं के लिंग की पहचान करने की आवश्यकता होती है। और एक भाषा और इसकी संरचना की अन्य पेचीदगियों के बीच विभिन्न संदर्भों में विभिन्न शब्दों के अर्थ। बड़े भाषा मॉडल को विभिन्न भाषाओं में बेहतर और अधिक सुसंगत बनाने के लिए, डेवलपर्स को प्रशिक्षण डेटा के आकार को बढ़ाने के लिए उन विशेष भाषाओं में टेक्स्ट के अधिक स्रोत निकालने की आवश्यकता होगी। एलएलएम विकसित करने के लिए एक विशाल डेटासेट तैयार करने की आवश्यकता है जो विभिन्न भाषाओं को "बोलता है" और "समझता" है।

भाषाएँ, बड़े भाषा मॉडल, इंटरनेट और अनंत काल

डेटासेट के आकार को बढ़ाने का अर्थ है इंटरनेट पर विभिन्न भाषाओं की उपस्थिति बढ़ाना, या किसी प्रकार के डिजिटल प्रारूप में। एक बार जब कोई भाषा रिकॉर्ड की जाती है और इंटरनेट (या एक डेटाबेस) पर संग्रहीत की जाती है, तो यह सुरक्षित रूप से माना जा सकता है कि वह भाषा अब कभी नष्ट नहीं होगी।

एक्सेंट कभी-कभी किसी एक भाषा के लिए विशिष्ट कारक के रूप में कार्य कर सकते हैं। इसे एक "शैली" तत्व के रूप में माना जा सकता है जो एक भाषा को बोलने और समझने के तरीके को काफी बदल देता है। लहजे के अलावा, कुछ भाषाओं में विभिन्न बोलियाँ शामिल होती हैं जो मूल भाषाओं की संरचना से संबंधित शब्दावली, कार्यान्वयन और शायद कुछ शैलीगत तत्वों को पूरी तरह से बदल देती हैं। किसी भाषा के ऐसे तत्वों को उन्हें बनाने के लिए डेटासेट में भी शामिल करने की आवश्यकता होती है, और बदले में भाषा मॉडल समृद्ध होते हैं। यह किसी भाषा के हमारे मौजूदा रिकॉर्ड को समृद्ध बनाएगा और मौजूदा अनुप्रयोगों जैसे अनुवाद को अधिक सटीक बनाने में मदद कर सकता है।

हमने देखा है कि कुछ भाषाएँ अधिकांश प्रशिक्षण डेटासेट बनाती हैं और इस प्रकार उन्हें उच्च-संसाधन भाषाओं के रूप में वर्गीकृत किया जाता है , जबकि अन्य भाषाओं में काफी कम डिजिटल उपस्थिति होती है, जिन्हें निम्न-संसाधन भाषाओं के रूप में जाना जाता है । इसलिए, तार्किक रूप से, एलएलएम कम संसाधन वाली भाषाओं में निपुण नहीं होंगे। ब्लूम⁴, एक हगिंग फेस प्रोजेक्ट अगले टोकन भविष्यवाणी जैसे GPT-3 और GPT-4 के लिए निम्न संसाधन भाषाओं पर ऑटो-रिग्रेसिव मॉडल के फोकस को स्थानांतरित करके इस समस्या को हल करने का प्रयास कर रहा है।

बड़े भाषा मॉडल ने एक किताब के पन्नों को छोड़ने के लिए अधिक से अधिक भाषाओं की आवश्यकता को सुगम बनाया है, लोगों द्वारा केवल कथन और भाषण से बचने और अनिवार्य रूप से एक डेटासेट में 0 और 1 के रूप में कब्जा कर लिया है। एक बार एक भाषा को एक डेटासेट में संग्रहीत कर लेने के बाद, इसे हमेशा के लिए मृत या विलुप्त भाषा घोषित किए जाने की असुरक्षा से मुक्त किया जा सकता है। इसलिए, बड़े भाषा मॉडल हमारी भाषाओं को जीवित रहने में मदद कर सकते हैं। बड़ी संख्या में भाषाओं पर एलएलएम का प्रशिक्षण उन्हें समृद्ध और अधिक सुसंगत बनाने में मदद कर सकता है और साथ ही भाषा को और अधिक ज्ञात और उपयोग में ला सकता है। हाल या दूर के भविष्य में किसी भी समय, एलएलएम यह सुनिश्चित कर सकता है कि किसी भी भाषा में हमेशा एक वक्ता जीवित हो सकता है - स्वयं। एलएलएम एक भाषा के अंतिम स्थायी वक्ता के रूप में कार्य कर सकते हैं, इस प्रकार इसे विलुप्त होने से रोक सकते हैं।

यह लगभग विडंबनापूर्ण है कि इंटरनेट के माध्यम से अनंत काल प्राप्त करने के लिए भाषाओं को अपने प्रतीकात्मक रूपों को आत्मसमर्पण करने और चरित्रहीन बाइनरी आकार प्राप्त करने की आवश्यकता कैसे हो सकती है।

आर्टिफिशियल इंटेलिजेंस अपने साथ समस्याओं और समाधानों, सवालों और जवाबों, अनिश्चितताओं और परिणामों, चेतावनियों और स्पष्टीकरणों की अधिकता लेकर आता है लेकिन जीवों की एक दौड़ के रूप में जो हमेशा परिवर्तनों और नई धारणाओं के प्रति शंकालु रहा है, हमें आज के युग में बहुत सावधानी से चलने की आवश्यकता है। आर्टिफिशियल जनरल इंटेलिजेंस के उद्भव से (अच्छे या बुरे के लिए) बदलने वाला है। हमें हर उस छोटे से लाभ और नुकसान की जांच करने की आवश्यकता है जो एआई हमारे लिए ला सकता है या ला सकता है और यह सिर्फ उन प्रमुख लाभों में से एक हो सकता है जो एआई हमारे लिए लाता है और कुछ ऐसा जो हमने एआई से बहुत पहले बनाया था - हमारी भाषाएं।

संदर्भ

  1. ChatGPT और Dall-E-2 - मुझे डेटा स्रोत दिखाएं, डेनिस लेटन
  2. इंटरनेट पर कितना डेटा है, गैरेथ मिशेल
  3. लैंग्वेज मॉडल्स फ्यू शॉट लर्नर्स, टॉम बी. ब्राउन एट अल।
  4. एआई हर भाषा क्यों नहीं बोलता, वोक्स (7:14 - 8:19)