अपने डोमेन-विशिष्ट ज्ञान के आधार पर एलएलएम का लाभ उठाना
चैटजीपीटी से "मैराथन" शब्द की उत्पत्ति के बारे में एक प्रश्न पूछें और यह आपको सटीक रूप से बताएगा कि हेरोडोटस ने पौराणिक 42 किमी की दौड़ का वर्णन कैसे किया, जिसे फिडिप्पिड्स ने थकावट से गिरने से पहले मैराथन से एथेंस तक पूरा किया था।
लेकिन मेरी दादी माँ के व्यंजनों की सूची के बारे में क्या? ज़रूर, मैं उन व्यंजनों को डिजिटाइज़ कर सकता हूँ, कोई बात नहीं। लेकिन क्या होगा यदि मैं सलाह लेना चाहता हूं कि मेरे फ्रिज में सामग्री, मेरे पसंदीदा रंग और दिन के लिए मेरे मूड के आधार पर कौन सा भोजन तैयार करना है?
आइए देखें कि क्या बिना थके गिरे यह संभव है।
एलएलएम, अपनी सीमाएं पूरी करें... और उन्हें पार करें
एलएलएम एक बड़ा भाषा मॉडल है। ओपनएआई का जीपीटी-4 एक उदाहरण है, मेटा का एलएलएमए दूसरा है। हम इन मॉडलों को संदर्भित करने के लिए सामान्य एलएलएम शब्द से चिपके रहने के लिए सचेत चुनाव करते हैं। ध्यान रखें: इनमें से प्रत्येक मॉडल को (सार्वजनिक रूप से उपलब्ध) डेटा के विशाल सेट पर प्रशिक्षित किया गया था।
अब तक यह स्पष्ट रूप से प्रदर्शित हो चुका है कि इन एलएलएम को सामान्य भाषा की सार्थक समझ है और वे अपने प्रशिक्षण डेटा में मौजूद जानकारी के लिए प्रासंगिक जानकारी (पुनः) उत्पन्न करने में सक्षम हैं। यही कारण है कि चैटजीपीटी जैसे जनरेटिव टूल उन विषयों के बारे में सवालों के जवाब देने में आश्चर्यजनक रूप से अच्छा प्रदर्शन करते हैं जिनका एलएलएम ने अपने प्रशिक्षण के दौरान सामना किया।
लेकिन उन बड़े पैमाने पर एलएलएम की सीधी पकड़ से बाहर क्या रहता है वह डेटा है जो प्रत्येक संगठन के भीतर इतना मूल्यवान है: आंतरिक ज्ञान का आधार। इस प्रकार बड़े पैमाने पर पॉप अप करने वाला प्रश्न है:
हम इन एलएलएम की शक्ति का उपयोग एक विशिष्ट ज्ञान आधार में संग्रहीत जानकारी को अनलॉक करने में कैसे कर सकते हैं, जिस पर इसे मूल रूप से प्रशिक्षित नहीं किया गया था?
ओह ठीक है, तो ऐसा करने के लिए, क्या हम अपने आंतरिक ज्ञान के आधार को अतिरिक्त डेटा के रूप में पेश नहीं कर सकते हैं जिस पर एलएलएम को प्रशिक्षित किया जाना चाहिए? या, यदि आप चाहें, तो क्या हम अपने विशिष्ट ज्ञान के आधार पर एलएलएम को ठीक कर सकते हैं।
हाँ, आप सबसे अधिक संभावना कर सकते हैं। लेकिन विश्वसनीय प्रश्न उत्तर के लिए, यह जाने का रास्ता नहीं हो सकता है।
फाइन-ट्यूनिंग हमेशा इसे क्यों नहीं काटेगा
बिली किताबी कीड़ा से मिलें। बिली एक बड़ा भाषा मॉडल है और उसने भारी मात्रा में ऑनलाइन जानकारी का उपभोग किया है, जो विशाल ज्ञान के साथ सशक्त है। बिली हालांकि, जैसा कि वह स्मार्ट है, उसने आपके बहुत विशिष्ट होम लाइब्रेरी में पुस्तकों के माध्यम से नहीं पढ़ा है।
फाइन-ट्यूनिंग यह है: बिली द बुकवर्म को आपके बहुत विशिष्ट ज्ञान के आधार पर सभी पुस्तकों के साथ प्रस्तुत करना और उसे उस सभी स्वादिष्ट अतिरिक्त जानकारी को ग्रहण करने देना। इस तरह, एलएलएम किताबी कीड़ा बिली केवल उस सामान्य जानकारी को ही नहीं जानता, वह आपके विशिष्ट ज्ञान आधार की सामग्री के बारे में भी बहुत कुछ "जानता" है।
बधाई हो, इस फाइन-ट्यूनिंग प्रक्रिया के माध्यम से आपने बिली को एक बहुत ही विशिष्ट बिली में बदल दिया है जो आपके विशिष्ट डोमेन के बारे में बहुत कुछ जानता है! नीचे हम बताते हैं कि आप कैसे बिली को काम पर लगाना शुरू कर सकते हैं। अपने उन्नत किताबी कीड़ा से प्रश्न पूछकर, आप उन उत्तरों की अपेक्षा कर सकते हैं जो इसके विशाल सामान्य प्रशिक्षण सेट और आपके विशिष्ट ज्ञानकोष में संग्रहीत जानकारी दोनों का उपयोग करते हैं।
निश्चित रूप से शक्तिशाली होने के बावजूद, इस समाधान के दृष्टिकोण के साथ महत्वपूर्ण समस्या यह है कि आपके पास अभी भी बहुत कम अंतर्दृष्टि है कि आपका किताबी कीड़ा इसके जवाबों के साथ कैसे आया। इसके अलावा, एलएलएम को ठीक करने के अपने (महंगे) परिणाम हैं।
हम उन मुख्य कारणों की सूची देते हैं जिनकी वजह से बिली की फ़ाइन-ट्यूनिंग कम हो जाती है:
- कोई स्रोत स्पष्टता नहीं । मतिभ्रम को रोकना मुश्किल है और आपके एलएलएम में "सामान्य" और "विशिष्ट" ज्ञान के बीच कोई स्पष्ट अंतर नहीं है।
- कोई पहुँच प्रतिबंध नहीं। एक ऐसे मामले की कल्पना करें जहां कुछ उपयोगकर्ता रणनीतिक दस्तावेज़ों की जानकारी को क्वेरी करने में सक्षम हों, जबकि अन्य को नहीं। आप इससे कैसे निपटेंगे? आपका ठीक-ठाक बिली सब कुछ जानता है, वह अनुमान के समय ज्ञान को छोड़ना नहीं चुन सकता है।
- एलएलएम की मेजबानी महंगी है। एक बार जब आपके पास एलएलएम ठीक-ठाक हो जाता है, तो आपको इसे घुमाते रहना होगा। एक बड़ा भाषा मॉडल अच्छा है ... बड़ा। इसे बनाए रखने और चलाने की लागत बढ़ जाएगी। क्या लाभ उन लागतों से अधिक हैं?
- फाइन-ट्यूनिंग दोहराव। जब आप चाहते हैं कि मॉडल ज्ञान के आधार में परिवर्तनों को प्रतिबिंबित करे तो मॉडल को फिर से प्रशिक्षित करना आवश्यक है।
धन के लिए आरएजी के साथ
रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) के पीछे का विचार काफी सीधा-सादा है। याद रखें, लक्ष्य हमारे ज्ञानकोष में जानकारी को अनलॉक करना है। उस पर अपने किताबी कीड़ा को खोलने (अर्थात् फाइन-ट्यूनिंग) करने के बजाय, हम अपने ज्ञान के आधार की जानकारी को व्यापक रूप से अनुक्रमित करते हैं।
उपरोक्त स्कीमा में, हम बताते हैं कि कैसे स्मार्ट रेट्रिवर लाइब्रेरियन की तरह काम करता है। आदर्श रूप से, लाइब्रेरियन को अपने पुस्तकालय में क्या है इसका पूरा ज्ञान है। एक आगंतुक के लिए एक निश्चित प्रश्न पूछने के लिए, उसे पता होगा कि किस पुस्तक के किस अध्याय की सिफारिश करनी है।
अधिक तकनीकी स्तर पर, यह सिमेंटिक सर्च इंजन का वर्णन करता है । इस मामले में, एम्बेडिंग दस्तावेज़ अनुभागों के सदिश प्रतिनिधित्व हैं और वे प्रत्येक अनुभाग में संग्रहीत वास्तविक अर्थ के गणितीय विवरण की अनुमति देते हैं। एम्बेडिंग की तुलना करके, हम यह निर्धारित कर सकते हैं कि कौन से टेक्स्ट सेक्शन अर्थ में अन्य टेक्स्ट सेक्शन के समान हैं। नीचे प्रदर्शित पुनर्प्राप्ति प्रक्रिया के लिए यह महत्वपूर्ण है।
नाटक में दो महत्वपूर्ण घटक हैं:
- स्मार्ट कुत्ता (यानी लाइब्रेरियन)
- जेनरेटर (यानी किताबी कीड़ा)
इस आरएजी-आधारित सेटअप की मुख्य विशेषताएं
- उस स्रोत का स्पष्ट संकेत जिस पर उत्तर आधारित था। जनरेटर द्वारा लौटाए गए उत्तर के सत्यापन की अनुमति देना।
- मतिभ्रम करने की बहुत संभावना नहीं है , हमारे जनरेटर घटक को हमारे ज्ञान आधार के कोष तक सीमित करके, यह स्वीकार करेगा कि जब रिट्रीवर द्वारा कोई प्रासंगिक स्रोत नहीं मिला तो यह प्रतिक्रिया तैयार नहीं कर सकता।
- बनाए रखने योग्य खोज सूचकांक। नॉलेज बेस एक जीवित चीज है, जब यह बदलता है, तो हम उन परिवर्तनों को दर्शाने के लिए अपने सर्च इंडेक्स को अनुकूलित कर सकते हैं।
फाइन-ट्यूनिंग पर दोबारा गौर किया गया
ध्यान दें कि ऊपर दिए गए अनुभाग में, हमने फाइन-ट्यूनिंग को एक मूल्यवान विकल्प के रूप में खारिज कर दिया क्योंकि स्रोत स्पष्टता पर हमारा बहुत कम नियंत्रण था जिससे मतिभ्रम का खतरा बढ़ गया ।
यह ध्यान दिया जाना चाहिए कि आरएजी दृष्टिकोण, एक सामान्य एलएलएम द्वारा संचालित, केवल तब तक अच्छी तरह से काम करता है जब तक विशिष्ट ज्ञान आधार में सुपर विशिष्ट शब्दजाल नहीं होता है जिसे एलएलएम अपने सामान्य प्रशिक्षण से नहीं समझ सकता है।
कल्पना कीजिए कि आपको अपने ज्ञान के आधार में मौजूद 'टोन और लिंगो' का पालन करने के लिए अपने समाधान की प्रतिक्रियाओं की आवश्यकता है। इस मामले में आपके एलएलएम की फाइन-ट्यूनिंग कम परिहार्य लगती है।
यह विशिष्ट शब्दजाल को संभालने में सक्षम होने के लिए एक वैध दृष्टिकोण हो सकता है और फिर संयुक्त लाभों को पुनः प्राप्त करने के लिए आरएजी आर्किटेक्चर में अपने ठीक-ठाक एलएलएम को शामिल कर सकता है। एक सामान्य किताबी कीड़ा के साथ काम करने के बजाय, आप अपने विशेष रूप से प्रशिक्षित बिली का उपयोग जेनरेटर और / या स्मार्ट रिट्रीवर घटकों को शक्ति देने के लिए करेंगे।
अब क्यों? नया क्या है?
बेहतरीन सवाल।
सिमेंटिक सर्च (स्मार्ट रिट्रीवल) काफी समय से है और इसलिए जेनेरेटिव एआई (कुछ आदिम रूप दशकों से हैं)।
हालांकि, हमने पिछले महीनों में महत्वपूर्ण प्रगति देखी है।
तकनीकी स्तर पर , हमने हाल ही में एलएलएम प्रदर्शन में बड़ी छलांग देखी है। ये आरएजी समाधान को दो स्तरों पर सकारात्मक रूप से प्रभावित करते हैं:
- एम्बेडिंग (उदाहरण के लिए OpenAI या Google के PaLM द्वारा एम्बेडिंग API )
- उत्पादक क्षमताएं (उदाहरण के लिए OpenAI का ChatGPT समाधान)
इसलिए, हालांकि आरएजी के यकीनन औसत दर्जे के संस्करण कुछ समय के लिए संभव हो सकते हैं, तकनीकी सुधार और बढ़े हुए कर्षण के परिणामस्वरूप एक उपयोगी बाजार अवसर मिलता है।
सफलता के रास्ते में चुनौतियां
इस खंड में, हम आपको सफल आरएजी समाधान स्थापित करने के साथ कुछ मुख्य चुनौतियों से परिचित कराने का लक्ष्य रखते हैं।
- स्मार्ट रिट्रीवर के प्रदर्शन पर अत्यधिक निर्भरता।
आपके जनरेटिव कंपोनेंट द्वारा दी गई प्रतिक्रियाओं की गुणवत्ता स्मार्ट रिट्रीवर द्वारा उसे सौंपी गई जानकारी की प्रासंगिकता पर सीधे निर्भर करेगी। जैसा कि ऊपर उल्लेख किया गया है, हमें समृद्ध और शक्तिशाली टेक्स्ट एम्बेडिंग देने के लिए हम एलएलएम की प्रगति को धन्यवाद दे सकते हैं। लेकिन इन एम्बेडिंग को शुद्ध रूप से एपीआई के माध्यम से लाना आपका सबसे अच्छा विकल्प नहीं हो सकता है। अपने सिमेंटिक खोज घटक को डिजाइन करते समय आपको बहुत सचेत रहना चाहिए, शायद आपके ज्ञान के आधार में विशिष्ट शब्दजाल है और इसे संभालने के लिए आपको एक कस्टम फिटेड (यानी ठीक-ठीक) घटक की आवश्यकता हो सकती है। सिमेंटिक खोज पर अधिक गहन व्यावहारिक मार्गदर्शिका इस ब्लॉगपोस्ट [1] में पाई जा सकती है । - नॉलेज बेस में जानकारी से चिपके रहने के लिए ट्रेड-ऑफ को प्रतिबंधित किया जाना चाहिए।
जैसा कि आरएजी आर्किटेक्चर में बताया गया है, हम अपने एलएलएम जनरेटिव घटक को प्रासंगिक दस्तावेजों में मिली जानकारी तक सीमित रखने के लिए मजबूर कर सकते हैं। जबकि यह सुनिश्चित करता है कि मतिभ्रम (यानी गैर-कामुक उत्तर) के पास बहुत कम मौका है, इसका मतलब यह भी है कि आप अपने एलएलएम की जानकारी का बमुश्किल लाभ उठा रहे हैं। हो सकता है कि आप चाहते हैं कि आपका समाधान उस ज्ञान का भी उपयोग करे लेकिन शायद उपयोगकर्ता द्वारा अनुरोध किए जाने पर ही। - जटिल संवाद की अनुमति देने के लिए संवादी डिजाइन।
जबकि ऊपर दिए गए हमारे चित्रण ने उपयोगकर्ता के व्यवहार को केवल "वन-शॉट प्रश्न" पूछने के रूप में दर्शाया है, अक्सर आपका उपयोगकर्ता आपके समाधान (चैटजीपीटी-शैली वार्तालाप में) द्वारा प्रदान किए गए उत्तर पर ज़ूम इन करना चाहता है । सौभाग्य से, इस लड़ाई में आपकी सहायता करने के लिए उपकरण मौजूद हैं। फ्रेमवर्कlangchain
इसे ठीक करने में मदद करता है। - शीघ्र इंजीनियरिंग, पीढ़ी को सफलता की ओर ले जाने के तरीके के रूप में।
अपने जनरेटिव कंपोनेंट का सही उत्तर पाने के लिए, आपको यह बताना होगा कि आप किस तरह के आउटपुट की उम्मीद करते हैं। कुल मिलाकर यह रॉकेट साइंस से कोसों दूर है। लेकिन आपके उपयोग के मामले के लिए आपका शीघ्र सेटअप प्राप्त करने में समय लगता है और पर्याप्त ध्यान देने योग्य है। यह सुनिश्चित करने के लिए शीघ्र प्रबंधन प्रणालियों को देखना सार्थक हो सकता है कि आप किस स्थिति के लिए सबसे अच्छा काम कर सकते हैं, इसका ट्रैक रख सकते हैं। - सही एलएलएम चुनना: इसकी लागत क्या है और मेरा डेटा कहां जाता है?
इस पूरे पाठ में, हमने आपके समाधान में उपयोग किए जाने वाले एलएलएम के बारे में कोई स्पष्ट विकल्प नहीं बनाया है। उपयोग करने के लिए एलएलएम (एपीआई) चुनते समय, गोपनीयता और लागत प्रतिबंधों को ध्यान में रखना सुनिश्चित करें। वहाँ पहले से ही काफी अच्छे विकल्प हैं। हमारे पास OpenAI का GPT , मेटा का LLaMA , Google का PaLM और एलएलएम दृश्य में शामिल होने का दावा करने वाले एलोन मस्क हैं, कौन जानता है कि चीजें कहां जाएंगी। रोमांचक खबर यह है: अधिक विकल्प आएंगे और प्रतिस्पर्धा को एलएलएम के प्रदर्शन को ऊपर और कीमतों को कम करना चाहिए। - उत्पादन में अपना एलएलएम समाधान प्राप्त करना और रखना (LLMOps)।
जैसा कि सभी परिपक्व एआई समाधानों के साथ होता है: उनका निर्माण एक बात है, उन्हें उत्पादन में रखना/प्राप्त करना दूसरी बात है। एलएलएमओपीएस का क्षेत्र एलएलएम के संचालन पर केंद्रित है। अपने एलएलएम-आधारित समाधान के प्रदर्शन की निगरानी करना, अपने ज्ञान के आधार और खोज अनुक्रमणिका को अद्यतित रखना, बातचीत के इतिहास को संसाधित करना... अपने
एलएलएम समाधान को उत्पादन में डालने से पहले, इसे बनाए रखने के बारे में बुद्धिमानी से सोचें और इसे कैसे उपयोगी बनाए रखें। आगे जाकर।
आरएजी से अपने हाथ गंदे करना
यदि आपकी रुचि पुनर्प्राप्ति-संवर्धित पीढ़ी की अवधारणा से जुड़ी है, तो आप स्वयं से पूछ सकते हैं:
क्या मेरे पास स्पिन के लिए आरएजी-आधारित समाधान लेने के लिए क्या है?
ठीक है, अगर आपके पास है:
- विशिष्ट ज्ञान: "नॉलेज आर्टिकल्स" का एक मॉडरेट (अधिमानतः संगठित) डेटाबेस जिसमें उपयोगी जानकारी होती है जो विश्वव्यापी वेब पर आसानी से नहीं मिलती है (जैसे तकनीकी दस्तावेज़, ऑनबोर्डिंग दिशानिर्देश, हैंडल किए गए समर्थन टिकट...)
- व्यावसायिक मूल्य : व्यावसायिक मूल्य की एक स्पष्ट परिभाषा यदि वह जानकारी इच्छित उपयोगकर्ताओं के लिए अनलॉक की जा सकती है
एक प्रयोग के तौर पर, हमने हाल ही में एक छोटा सा डेमो बनाया है, जिसमें दिखाया गया है कि किस तरह संसदीय सवालों के जवाब आसानी से देने में सरकारी कर्मचारियों की मदद करने के लिए इस तकनीक का इस्तेमाल किया जा सकता है ।
इस मामले में, विशिष्ट ज्ञान में निम्न शामिल हैं:
- फ्लेमिश विधायी दस्तावेजों का एक सेट
- अतीत के संसदीय प्रश्नों का एक सेट
- फ्लेमिश नॉलेज बेस पर आधारित संसदीय प्रश्नों के उत्तर स्वचालित रूप से सुझाकर दक्षता में सुधार करना
- स्पष्ट उद्धरणों के माध्यम से पारदर्शिता और उपयोगकर्ता अपनाने में सुधार
संदर्भ
- मैथियास लेयस (9 मई, 2022) शब्दार्थ खोज: एक व्यावहारिक अवलोकनhttps://blog.ml6.eu/semantic-search-a-practical-overview-bf2515e7be76