Poznaj StableVicuna, pierwszego otwartego chatbota RLHF na dużą skalę od Stability AI
Rozwój i udostępnianie chatbotów było znaczące w ostatnich miesiącach. Alternatywy typu open source jeszcze bardziej podsyciły zainteresowanie dostosowywaniem dużych modeli językowych do czatu. Brakuje jednak modeli typu open source, które zastosowałyby zarówno dostrajanie instrukcji, jak i uczenie się przez wzmacnianie poprzez szkolenie w zakresie informacji zwrotnych od ludzi (RLHF).
W poście na blogu Stability AI przedstawiło StableVicuna, pierwszego otwartego chatbota o otwartym kodzie źródłowym na dużą skalę, wyszkolonego poprzez uczenie się przez wzmacnianie za pomocą informacji zwrotnych od ludzi lub RLHF. Jest to kolejna wersja Vicuna v0 13b, dostosowana do instrukcji i wyszkolona pod kątem RLHF, która jest precyzyjnie dostrojonym modelem LLaMA 13b. Chatbot został porównany z innymi chatbotami typu open source o podobnej wielkości i wykazał wysoką wydajność.
Aby osiągnąć wydajność StableVicuna, zastosowano trójstopniowy potok RLHF. Rurociąg obejmuje uczenie podstawowego modelu Vicuna z nadzorowanym dostrajaniem przy użyciu mieszanki trzech zestawów danych . Następnie szkolony jest model nagrody, po którym następuje uczenie wzmocnienia optymalizacji polityki proksymalnej w celu przeprowadzenia szkolenia RLHF modelu SFT.
StableVicuna jest dostępna na HuggingFace Hub jako delta wagi w stosunku do oryginalnego modelu LLaMA. Użytkownicy muszą mieć dostęp do oryginalnego modelu LLaMA, co wymaga osobnego ubiegania się o wagi LLaMA . Skrypt dostarczony w repozytorium GitHub może być użyty do ich połączenia i uzyskania StableVicuna-13B.
StableVicuna zostanie wdrożony jako bot Discord na serwerze Stable Foundation. Użytkownicy mogą wypróbować model na przestrzeni HuggingFace, odwiedzając ten link . Ze względu na charakter StableVicuna zachęcamy do przesyłania opinii w celu poprawy doświadczenia użytkownika i zwiększenia wydajności bota.
Oprócz chatbota nadchodzący interfejs czatu jest również w końcowej fazie rozwoju. Rozwój StableVicuna był możliwy, według Stability AI, dzięki Duy Phungowi, współautorom open source oraz zestawom danych udostępnionym przez OpenAssistant, Anthropic i Stanford. Podziękowali również zespołowi OpenAssistant za zapewnienie im wczesnego dostępu do zbioru danych RLHF.
Pierwotnie opublikowany na OpenDataScience.com
Przeczytaj więcej artykułów dotyczących nauki o danych na OpenDataScience.com , w tym samouczki i przewodniki na poziomach od początkującego do zaawansowanego! Zapisz się do naszego cotygodniowego newslettera tutaj i otrzymuj najświeższe informacje w każdy czwartek. Możesz także wziąć udział w szkoleniu z zakresu analizy danych na żądanie, gdziekolwiek jesteś, dzięki naszej platformie szkoleniowej Ai+ . Subskrybuj również naszą szybko rozwijającą się publikację medium, ODSC Journal , i zapytaj o możliwość zostania pisarzem.