StableVicuna से मिलिए, Stability AI का पहला लार्ज-स्केल ओपन-सोर्स RLHF चैटबॉट
हाल के महीनों में चैटबॉट्स का विकास और रिलीज़ महत्वपूर्ण रहा है। ओपन-सोर्स विकल्पों ने चैट के लिए बड़े भाषा मॉडल को ट्यून करने में रुचि को और बढ़ाया है। हालांकि, ओपन-सोर्स मॉडल की कमी है, जिसने मानव प्रतिक्रिया (आरएलएचएफ) प्रशिक्षण के माध्यम से निर्देश को ठीक करने और सुदृढीकरण सीखने दोनों को लागू किया है।
एक ब्लॉग पोस्ट में , Stability AI ने StableVicuna पेश किया, जो मानव प्रतिक्रिया या RLHF के माध्यम से सुदृढीकरण सीखने के माध्यम से प्रशिक्षित पहला बड़े पैमाने का ओपन-सोर्स चैटबॉट है। यह विकुना v0 13b का एक और निर्देश ठीक-ठीक और RLHF-प्रशिक्षित संस्करण है, जो एक निर्देश ठीक-ठीक LLaMA 13b मॉडल है। चैटबॉट को अन्य समान आकार के ओपन-सोर्स चैटबॉट्स के खिलाफ बेंचमार्क किया गया है और इसने मजबूत प्रदर्शन दिखाया है।
StableVicuna के प्रदर्शन को प्राप्त करने के लिए, एक तीन-चरण RLHF पाइपलाइन का उपयोग किया गया है। पाइपलाइन में तीन डेटासेट के मिश्रण का उपयोग करके पर्यवेक्षित फ़िनट्यूनिंग के साथ बेस विकुना मॉडल का प्रशिक्षण शामिल है । एक इनाम मॉडल को तब प्रशिक्षित किया जाता है, जिसके बाद समीपस्थ नीति अनुकूलन सुदृढीकरण सीखने के लिए एसएफटी मॉडल का आरएलएचएफ प्रशिक्षण किया जाता है।
StableVicuna HuggingFace हब पर मूल LLaMA मॉडल के मुकाबले वज़न डेल्टा के रूप में उपलब्ध है। उपयोगकर्ताओं के पास मूल LLaMA मॉडल तक पहुंच होनी चाहिए, जिसके लिए उन्हें LLaMA भार के लिए अलग से आवेदन करना होगा। GitHub रेपो में प्रदान की गई एक स्क्रिप्ट का उपयोग उन्हें संयोजित करने और StableVicuna-13B प्राप्त करने के लिए किया जा सकता है।
StableVicuna को Discord bot के रूप में Stable Foundation सर्वर पर तैनात किया जाएगा। उपयोगकर्ता इस लिंक पर जाकर मॉडल को हगिंगफेस स्पेस पर आजमा सकते हैं । StableVicuna की प्रकृति के कारण, उपयोगकर्ता अनुभव को बेहतर बनाने और बॉट प्रदर्शन का विस्तार करने के लिए प्रतिक्रिया को प्रोत्साहित किया जाता है।
चैटबॉट के साथ, आगामी चैट इंटरफ़ेस भी विकास के अंतिम चरण में है। StableVicuna का विकास, Stability AI के अनुसार, Duy Phung, open-source योगदानकर्ताओं, और OpenAssistant, Anthropic, और Stanford द्वारा उपलब्ध कराए गए डेटासेट द्वारा संभव हुआ। उन्होंने OpenAssistant की टीम को RLHF डेटा सेट तक शीघ्र पहुँच प्रदान करने के लिए भी स्वीकार किया।
मूल रूप से OpenDataScience.com पर पोस्ट किया गया
OpenDataScience.com पर अधिक डेटा विज्ञान लेख पढ़ें , जिसमें शुरुआत से लेकर उन्नत स्तर तक के ट्यूटोरियल और गाइड शामिल हैं! यहां हमारे साप्ताहिक न्यूजलेटर की सदस्यता लें और प्रत्येक गुरुवार को नवीनतम समाचार प्राप्त करें। आप हमारे एआई+ प्रशिक्षण प्लेटफॉर्म के साथ कहीं भी हों, मांग पर डेटा विज्ञान प्रशिक्षण भी प्राप्त कर सकते हैं। हमारे तेजी से बढ़ते मध्यम प्रकाशन, ओडीएससी जर्नल की भी सदस्यता लें और लेखक बनने के बारे में पूछताछ करें।