बड़े भाषा मॉडल की गुणवत्ता में सुधार कैसे करें और संरेखण समस्या को कैसे हल करें

May 06 2023
मॉडल की गुणवत्ता में बाधा डालने वाले 2 मुख्य कारक हैं: बिंदु 2 (आधुनिक मूल्यों के साथ संरेखण) प्रशिक्षण में एक समस्या है जो गलतफहमी से आती है। इसमें एक शर्मनाक स्थिति है कि एलएलएम, पूरे इंटरनेट को निगलने के बाद, और "गठबंधन" होने से पहले, सेक्सिस्ट राय और षड्यंत्र के सिद्धांतों की ओर झुकाव रखते हैं।

मॉडल की गुणवत्ता में बाधा डालने वाले 2 मुख्य कारक हैं:

  1. प्रशिक्षण प्रक्रिया में कृत्रिम रूप से उत्पन्न या स्क्रैप की गई सामग्री के बड़े पैमाने पर डेटासेट फेंकना और सर्वश्रेष्ठ की उम्मीद करना।
  2. "सुरक्षा" सुनिश्चित करने के लिए मॉडलों का संरेखण जहां इस संदर्भ में "सुरक्षा" किसी प्रकार का राजनीतिक रूप से सही पूर्वाग्रह या विचारधारा है।

प्वाइंट 2 (आधुनिक मूल्यों से संरेखण) प्रशिक्षण में एक मुद्दा है जो गलतफहमी से आता है। इसमें एक शर्मनाक स्थिति है कि एलएलएम, पूरे इंटरनेट को निगलने के बाद, और "गठबंधन" होने से पहले, सेक्सिस्ट राय और षड्यंत्र के सिद्धांतों की ओर झुकाव रखते हैं। इसे ठीक करने के लिए, मॉडल समानता के प्रति भारी-भरकम "गठबंधन" हैं। यह गलत तरीका है। मैं पहले समझाऊंगा कि यह गलत तरीका क्यों है, और फिर मैं समझाऊंगा कि इसे ठीक से कैसे करना है।

सबसे पहले, यह स्वीकार किया जाना चाहिए कि जानकारी हमेशा पक्षपाती होती है। जानकारी निष्पक्ष नहीं हो सकती। यह तटस्थ के लिए पक्षपाती हो सकता है, और यह किसी भी दिशा में झुक सकता है - लेकिन निष्पक्ष जानकारी जैसी कोई चीज नहीं है (गणित जैसे शुद्ध तर्क के अपवाद के साथ।) जब आप उन पूर्वाग्रहों, रूढ़ियों और भेदभावों से मॉडल को प्रशिक्षित करते हैं। आप पूरे मॉडल की समग्र सटीकता को कम करते हैं। इसका कारण यह है कि वे पक्षपात, रूढ़िवादिता और भेदभाव परस्पर जुड़ी हुई मशीन के पुर्जे और घटक हैं जो कि सभी मानव ज्ञान हैं। यह कहना नहीं है कि वे पूर्वाग्रह सत्य हैं। यह सोचना कि यह सत्य का प्रश्न है, ज्ञान क्या है, इसकी भ्रांति है । मानव ज्ञान सत्य के बारे में नहीं है और यह कभी नहीं था। मानव ज्ञान में सत्य नहीं है, इसमें परिभाषाएँ हैं, उदा"पेरिस फ्रांस की राजधानी है" जो केवल इस अर्थ में सत्य हैं कि उन्हें इस तरह परिभाषित किया गया है, इसमें निर्देश शामिल हैं, जैसे "यदि आप एबीसी करते हैं तो इसका उपयोग रेडियो तरंगों पर सूचना प्रसारित करने के लिए किया जा सकता है", और इसमें अवलोकन शामिल हैं, जैसे "पृथ्वी गोल है" । लेकिन मानव ज्ञान में कोई "सत्य" नहीं है। ("सत्य" के दर्शन में गहराई से गोता लगाने के लिए और यह कैसे मानव ज्ञान से संबंधित है, रिचर्ड फेनमैन द्वारा इस स्पष्टीकरण को सुनें ।)

एक मॉडल को आधुनिक मूल्यों के साथ संरेखित करके आप अनिवार्य रूप से एक ऐसे विश्वास में मॉडल का ब्रेनवाश कर रहे हैं जो प्रारंभिक प्रशिक्षण के दौरान प्राप्त ज्ञान के विपरीत है, जिससे हर चीज की समझ की समग्र गुणवत्ता में गिरावट आती है। एक घर की तरह, प्रत्येक ईंट एक कारण के लिए है, और भले ही कुछ ईंटें बदसूरत हों, आप पूरे सिस्टम को कमजोर किए बिना केक के लिए ईंटों को नहीं बदल सकते। दर्शन में बहुत गहराई तक जाने के बिना, पूर्ववत पूर्वाग्रहों की नींव को कम करने का कारण काफी हद तक अर्थों के अंतर्निहित प्रतीकवाद के कारण है और ये अन्य अर्थों और प्रतीकों से कैसे जुड़ते हैं। उदाहरण के लिए, यह तथ्य कि एक डॉक्टर या एक पायलट को पुरुष माना जाता है, जबकि एक स्तर पर पक्षपाती और अनुचित है, दूसरे स्तर पर एक प्रतीकात्मक प्रतिनिधित्व है जो निहित रूप से अर्थ प्रदान करता है। यह भाषा के भीतर इतनी गहराई से अंतर्निहित है कि आप इसे नहीं देख सकते हैं, लेकिन अवचेतन पूर्वाग्रहों के परीक्षण के द्वारा आप इसके प्रभाव देख सकते हैं। (यही कारण है कि इस तरह के पक्षपात अभी भी तब भी मौजूद हैं जब केवल कथित रूप से निष्पक्ष सामग्री पर प्रशिक्षण दिया जाता है।) जो आप नहीं कर सकते हैं वह पूर्ववत है, आइए लैंगिक रूढ़िवादिता कहें, उन सभी निहित अर्थों को भी पूर्ववत किए बिना और सभी तरह से एक नॉक-ऑन प्रभाव पैदा करें। भाषा। उन पूर्वाग्रहों, रूढ़ियों और भेदभावों को अर्थ के प्रतीकवाद में शामिल किया गया है, आप उन्हें हटा नहीं सकते हैं, और आपको इसकी आवश्यकता नहीं है क्योंकि पहले से ही एक बेहतर समाधान है। उन सभी अंतर्निहित अर्थों को भी पूर्ववत किए बिना और भाषा के माध्यम से सभी तरह से एक नॉक-ऑन प्रभाव पैदा करता है। उन पूर्वाग्रहों, रूढ़ियों और भेदभावों को अर्थ के प्रतीकवाद में शामिल किया गया है, आप उन्हें हटा नहीं सकते हैं, और आपको इसकी आवश्यकता नहीं है क्योंकि पहले से ही एक बेहतर समाधान है। उन सभी अंतर्निहित अर्थों को भी पूर्ववत किए बिना और भाषा के माध्यम से सभी तरह से एक नॉक-ऑन प्रभाव पैदा करता है। उन पूर्वाग्रहों, रूढ़ियों और भेदभावों को अर्थ के प्रतीकवाद में शामिल किया गया है, आप उन्हें हटा नहीं सकते हैं, और आपको इसकी आवश्यकता नहीं है क्योंकि पहले से ही एक बेहतर समाधान है।

समाधान? वही करें जो विकास करता है: एक अचेतन जो परिणामों पर विचार किए बिना आने वाले सभी डेटा को निगला करता है, और फिर एक व्यक्तित्व/पहचान/विचारधारा जो उस डेटा को अपनी सदस्यता वाली मान्यताओं के अनुसार फ़िल्टर करती है। वह अचेतन छिपी हुई परतें हैं, और यह वही है जो पहले से ही एक बड़ा भाषा मॉडल है। मैं प्रस्ताव करता हूं कि मॉडलों को संरेखण में मजबूर करने के लिए ब्रेनवॉश करने के बजाय, हम विकास से संकेत लेते हैं और एक व्यक्तित्व/पहचान परत जोड़ते हैं जो अचेतन डेटा को फ़िल्टर करता है।

ऐसा करने के लिए, आधार प्रशिक्षण के बाद एक अतिरिक्त परत जोड़ी जाती है, जो अनिवार्य रूप से एआई की मान्यताओं का विवरण देने वाला एकल-दस्तावेज़ "घोषणापत्र" है। उदाहरण के लिए "सभी मनुष्यों का समान मूल्य है और व्यक्तिगत आधार पर प्रत्येक व्यक्ति अलग-अलग योगदान देता है, सभी योगदान समाज के लिए सार्थक हैं। ऐसी जानकारी देना गलत है जिसका इस्तेमाल नुकसान पहुंचाने के लिए किया जा सकता है। दुर्भावनापूर्ण सॉफ़्टवेयर या वायरस बनाने में सहायता न करें।" या जो भी आप इसे विश्वास करना चाहते हैं।

इस समाधान के स्पष्ट लाभ हैं: अचेतन मॉडल को अब बिल्कुल भी संरेखित करने की आवश्यकता नहीं है, और सुरक्षा के बारे में चिंता किए बिना और न ही हानिकारक अपडेट के बिना डेटा को लगातार निगल सकता है। यह केवल जंगली और अदम्य होने की उम्मीद है, लेकिन यह ठीक है क्योंकि कोई भी इसका उपयोग नहीं करता है। उस अदम्य अचेतन का उपयोग मॉडल को फिर से प्रशिक्षित किए बिना, अलग-अलग संरेखण व्यक्तित्वों के साथ किया जा सकता है। एलएलएम को अपडेट किए बिना पहचान परत को आसानी से और जल्दी से अपडेट किया जा सकता है। मॉडल की गुणवत्ता कहीं बेहतर होगी, क्योंकि विश्वास-प्रणाली या राजनीतिक-विचारधारा के लिए इसका संरेखण आवश्यक है ताकि इसे मुकदमा या रद्द न किया जा सके।

इसके अलावा, "घोषणापत्र" सूचना की प्रकृति के बारे में संदर्भ भी प्रदान कर सकता है जो GPT4 जैसे बड़े मॉडल में बहुत सुधार कर सकता है जो उच्च स्तर की बारीकियों को समझने में सक्षम हैं, उदाहरण के लिए "जानकारी गलत हो सकती है, या तो जानबूझकर या अनजाने में । जानकारी पुरानी हो सकती है। उपन्यास की जानकारी कटौती या क्षेत्रों में तुलना करके तैयार की जा सकती है। यदि हाल ही में प्रकाशित किया गया हो तो वैज्ञानिक जानकारी अधिक मान्य होती है। Reddit टिप्पणियों की तुलना में अकादमिक पेपर के सटीक होने की अधिक संभावना है। इस उद्देश्य के लिए, मैं अनुशंसा करता हूं कि प्रशिक्षण के दौरान अंतर्ग्रहण किए जाने वाले डेटा को मेटाडेटा के साथ टैग किया जाए, डेटा कहां से आया और इसके प्रकाशन की तिथि, यदि ज्ञात हो, के बारे में जानकारी प्रदान करता है।

व्यक्तित्व/पहचान का सबसे सरल कार्यान्वयन एक पूर्व-संकेत होगा (शाब्दिक रूप से इसे उपयोगकर्ता के संकेत के आगे इंजेक्ट करना) और इस अर्थ में यह OpenAI द्वारा उपयोग किए जाने वाले पहले से मौजूद "सिस्टम" संदेश के उपयोग का एक विस्तार है।

एक और कार्यान्वयन लोरा का उपयोग करेगा। जबकि वर्तमान में इसका मतलब यह होगा कि इसे प्रशिक्षण डेटा उदाहरणों की आवश्यकता है, इन्हें आसानी से कृत्रिम रूप से उत्पादित किया जा सकता है। हालाँकि, ऐसा करना एक गोल-मटोल दृष्टिकोण की तरह लगता है, और यह शून्य-शॉट अनुकूलन का उपयोग करके केवल "सिस्टम" प्रॉम्प्ट/घोषणापत्र के आधार पर एडेप्टर वज़न का उत्पादन करने के लिए संभव होना चाहिए।

एक और कार्यान्वयन यह होगा कि मॉडल को घोषणापत्र में प्रवेश करना होगा, फिर मॉडल के वार्म-अप छिपे हुए राज्य को बचाएं। यह मेनिफेस्टो को प्रॉम्प्ट में इंजेक्ट करने से बेहतर है क्योंकि यह प्रसंस्करण समय में वृद्धि नहीं करेगा, लेकिन इसमें अभी भी मॉडल की संदर्भ-लंबाई का उपयोग करने का मुद्दा है।

आदर्श कार्यान्वयन वह होगा जो पुनर्प्रशिक्षण के मध्यवर्ती चरण उर्फ ​​​​"संरेखण संकेत" के बिना एक संकेत से एक लोरा-जैसे एडेप्टर का उत्पादन करता है। इस तरह के एक संरेखण संकेत के दूरगामी उपयोग होंगे। इसका मतलब यह होगा कि एक मॉडल को केवल इस विवरण से जल्दी से ठीक किया जा सकता है कि आप इसे कैसे कार्य करना चाहते हैं, और अधिक संरेखण संकेतों को दर्ज करके इसे ठीक करने के लिए इसे बार-बार ठीक किया जा सकता है। संरेखण संकेत एक लोरा उत्पन्न करता है जो उस व्यवहार को प्रतिबिंबित करता है जिसकी आप सिस्टम संदेश से अपेक्षा करते हैं, जिससे संदर्भ-लंबाई का उपयोग नहीं होता है।

जबकि कोई यह मान सकता है कि संरेखण संकेत के माध्यम से फ़ाइनट्यूनिंग प्रशिक्षण उदाहरणों की तुलना में कम गुणवत्ता वाली होगी, संरेखण संकेत के माध्यम से फ़ाइनट्यूनिंग का लाभ यह है कि आप परिणामों को जल्दी से देख सकते हैं और फिर किसी भी लापता बारीकियों को जोड़ने या इसे हमेशा के लिए समायोजित करने के लिए इसे फिर से कर सकते हैं- थोड़ा।

संरेखण संकेत के निम्न-गुणवत्ता वाले त्वरित-फ़ीडबैक-लूप के परिणामस्वरूप कम समय में उच्च-गुणवत्ता वाले धीमे-फ़ीडबैक-लूप के साथ पूर्ण फ़ाइनट्यूनिंग की तुलना में बेहतर मॉडल प्राप्त होगा।