चैटजीपीटी और इसी तरह के चैट सिस्टम कैसे काम करते हैं?
May 03 2023
GPT, या जनरेटिव प्रीट्रेन ट्रांसफॉर्मर, OpenAI द्वारा मानव-समान पाठ उत्पन्न करने के लिए विकसित एक मॉडल है। यह ट्रांसफॉर्मर आर्किटेक्चर पर आधारित है, जो वासवानी एट अल द्वारा पेपर "अटेंशन इज ऑल यू नीड" में पेश किया गया एक प्रकार का न्यूरल नेटवर्क आर्किटेक्चर है।

GPT, या जनरेटिव प्रीट्रेन ट्रांसफॉर्मर, OpenAI द्वारा मानव-समान पाठ उत्पन्न करने के लिए विकसित एक मॉडल है। यह ट्रांसफॉर्मर आर्किटेक्चर पर आधारित है, जो वासवानी एट अल द्वारा पेपर "अटेंशन इज ऑल यू नीड" में पेश किया गया एक प्रकार का न्यूरल नेटवर्क आर्किटेक्चर है।
GPT कैसे काम करता है, इसका विस्तृत विवरण यहां दिया गया है:
- ट्रांसफॉर्मर और अटेंशन मैकेनिज्म : GPT का मूलभूत बिल्डिंग ब्लॉक ट्रांसफॉर्मर मॉडल है। आउटपुट तत्व का उत्पादन करते समय ट्रांसफॉर्मर इनपुट तत्वों (जैसे वाक्य में शब्द) की प्रासंगिकता को मापने के लिए "ध्यान" नामक एक तंत्र का उपयोग करते हैं। यह एक विशिष्ट क्रम में इनपुट तत्वों को संसाधित किए बिना प्राप्त किया जाता है, जैसे कि पारंपरिक आवर्तक तंत्रिका नेटवर्क (आरएनएन) या लंबी शॉर्ट-टर्म मेमोरी नेटवर्क (एलएसटीएम)। यह संपत्ति ट्रांसफार्मर को डेटा में अधिक प्रभावी ढंग से और कुशलता से लंबी दूरी की निर्भरता को संभालने की अनुमति देती है।
- स्व-ध्यान : GPT विशेष रूप से "स्व-ध्यान" या "स्केल्ड डॉट-उत्पाद ध्यान" के रूप में ज्ञात ध्यान तंत्र के एक प्रकार का उपयोग करता है। स्व-ध्यान मॉडल को आउटपुट शब्द उत्पन्न करते समय इनपुट में अन्य शब्दों पर विचार करने की अनुमति देता है। प्रत्येक शब्द के लिए, एक स्कोर की गणना की जाती है (इनपुट वैक्टर के डॉट उत्पाद का उपयोग करके), यह दर्शाता है कि वाक्य में अन्य शब्दों पर कितना ध्यान दिया जाना चाहिए। इन अंकों का उपयोग आउटपुट में प्रत्येक शब्द के योगदान को तौलने के लिए किया जाता है।
- मास्क्ड डिकोडिंग : प्रशिक्षण के दौरान, GPT "मास्क्ड डिकोडिंग" या "कारण ध्यान" नामक तकनीक का उपयोग करता है। इसका मतलब यह है कि किसी शब्द की भविष्यवाणी करते समय, मॉडल केवल उन शब्दों का उपयोग करता है जो वाक्य में उसके पहले आए हैं, जो मनुष्य के पाठ उत्पन्न करने के तरीके की नकल करता है।
- प्रशिक्षण और फाइन-ट्यूनिंग : जीपीटी को दो चरणों में प्रशिक्षित किया जाता है: प्री-ट्रेनिंग और फाइन-ट्यूनिंग। पूर्व-प्रशिक्षण के दौरान, वाक्य में अगले शब्द की भविष्यवाणी करने के लिए मॉडल को पाठ के एक बड़े कोष पर प्रशिक्षित किया जाता है। यह इसे भाषा की सामान्य समझ सीखने की अनुमति देता है, जिसमें व्याकरण, दुनिया के बारे में तथ्य, तर्क क्षमता और प्रशिक्षण डेटा में मौजूद कुछ पूर्वाग्रह शामिल हैं। पूर्व-प्रशिक्षण के बाद, मॉडल को अनुवाद, प्रश्न उत्तर या पाठ निर्माण जैसे विशिष्ट कार्यों के लिए अनुकूलित करने के लिए, अक्सर मानव पर्यवेक्षण के साथ, एक संकीर्ण डेटासेट पर ठीक-ठीक किया जाता है।
- टोकनाइजेशन : GPT के टेक्स्ट इनपुट को "टोकन" कहे जाने वाले टुकड़ों में विभाजित किया जाता है, जो शब्दों या उपशब्दों के अनुरूप हो सकता है। यह टोकननाइजेशन प्रक्रिया मॉडल को इनपुट शब्दावली की एक विस्तृत श्रृंखला को संभालने की अनुमति देती है।
- पोजिशनल एनकोडिंग : यह सुनिश्चित करने के लिए कि मॉडल वाक्य में शब्दों के क्रम को जानता है (चूंकि ट्रांसफॉर्मर आर्किटेक्चर आरएनएन जैसे अनुक्रम को स्वाभाविक रूप से नहीं समझता है), जीपीटी इनपुट एंबेडिंग में पोजिशनल एनकोडिंग जोड़ता है। यह मॉडल को अनुक्रम में टोकन की सापेक्ष या पूर्ण स्थिति के बारे में जानकारी देता है।
- मॉडल का आकार : GPT मॉडल बहुत बड़े हो सकते हैं। उदाहरण के लिए, पिछले संस्करणों में से एक GPT-3 में 175 बिलियन पैरामीटर हैं। ये पैरामीटर मॉडल के भाग हैं जो प्रशिक्षण डेटा से सीखे जाते हैं। बड़े मॉडल आमतौर पर अधिक जटिल पैटर्न को पकड़ सकते हैं और अधिक सुसंगत और विविध पाठ उत्पन्न कर सकते हैं, लेकिन उन्हें प्रशिक्षित करने और उपयोग करने के लिए अधिक कम्प्यूटेशनल संसाधनों की भी आवश्यकता होती है।
- आउटपुट : GPT का आउटपुट सभी संभावित अगले शब्दों पर एक प्रायिकता वितरण है। पाठ उत्पन्न करते समय, आप इस वितरण से एक विश्वसनीय अगला शब्द प्राप्त करने के लिए नमूना ले सकते हैं। इस प्रक्रिया की श्रृंखला बनाकर, GPT पाठ के संपूर्ण अंश उत्पन्न कर सकता है जो काफी सुसंगत और प्रासंगिक रूप से प्रासंगिक हो सकता है
यह वह पेपर है जिसने ट्रांसफॉर्मर क्रांति को प्रारंभ किया और चैटजीपीटी और इसी तरह की प्रणालियों का नेतृत्व किया:
अटेंशन इज ऑल यू नीड
आशीष वासवानी , नोआम शाज़ीर , निकी परमार , जैकब उस्ज़कोरिट , लियोन जोन्स , एडन एन. गोमेज़ , लुकाज़ कैसर , इलिया पोलोसुखिन , 2017
लिंक:https://arxiv.org/abs/1706.03762
अब आप जानते हैं :)