Scopri StableVicuna, il primo chatbot RLHF open source su larga scala di Stability AI

Lo sviluppo e il rilascio di chatbot sono stati significativi negli ultimi mesi. Le alternative open source hanno ulteriormente alimentato l'interesse per la messa a punto di modelli linguistici di grandi dimensioni per una chat. Tuttavia, mancano modelli open source che abbiano applicato sia la messa a punto dell'istruzione che l'apprendimento per rinforzo attraverso la formazione del feedback umano (RLHF).
In un post sul blog , Stability AI ha presentato StableVicuna, il primo chatbot open source su larga scala addestrato tramite l'apprendimento per rinforzo tramite feedback umano o RLHF. Si tratta di un'ulteriore versione di Vicuna v0 13b ottimizzata per le istruzioni e addestrata con RLHF, che è un modello LLaMA 13b ottimizzato per le istruzioni . Il chatbot è stato confrontato con altri chatbot open source di dimensioni simili e ha mostrato ottime prestazioni.
Per ottenere le prestazioni di StableVicuna, è stata utilizzata una pipeline RLHF a tre stadi. La pipeline prevede l'addestramento del modello Vicuna di base con messa a punto supervisionata utilizzando una combinazione di tre set di dati . Viene quindi addestrato un modello di ricompensa, seguito dall'apprendimento di rinforzo dell'ottimizzazione della politica prossimale per eseguire l'addestramento RLHF del modello SFT.
StableVicuna è disponibile su HuggingFace Hub come delta di peso rispetto al modello LLaMA originale. Gli utenti devono avere accesso al modello LLaMA originale, che richiede loro di richiedere i pesi LLaMA separatamente. Uno script fornito nel repository GitHub può essere utilizzato per combinarli e ottenere StableVicuna-13B.
StableVicuna verrà distribuito come bot Discord sul server Stable Foundation. Gli utenti possono provare il modello su uno spazio HuggingFace visitando questo link . A causa della natura di StableVicuna, il feedback è incoraggiato per migliorare l'esperienza dell'utente ed espandere le prestazioni del bot.
Oltre al chatbot, anche un'imminente interfaccia di chat è nelle fasi finali di sviluppo. Lo sviluppo di StableVicuna è stato reso possibile, secondo Stability AI, da Duy Phung, contributori open source e set di dati resi disponibili da OpenAssistant, Anthropic e Stanford. Hanno anche riconosciuto il team di OpenAssistant per aver fornito loro l'accesso anticipato al set di dati RLHF.
Originariamente pubblicato su OpenDataScience.com
Leggi altri articoli di data science su OpenDataScience.com , inclusi tutorial e guide per principianti e livelli avanzati! Iscriviti qui alla nostra newsletter settimanale e ricevi le ultime notizie ogni giovedì. Puoi anche ricevere formazione on-demand sulla scienza dei dati ovunque ti trovi con la nostra piattaforma di formazione Ai+ . Iscriviti anche alla nostra pubblicazione media in rapida crescita, l' ODSC Journal , e chiedi informazioni su come diventare uno scrittore.