Познакомьтесь со StableVicuna, первым крупномасштабным чат-ботом RLHF с открытым исходным кодом от Stability AI

May 07 2023

Разработка и выпуск чат-ботов были значительными в последние месяцы. Альтернативы с открытым исходным кодом еще больше подогрели интерес к настройке больших языковых моделей для чата. Однако не хватает моделей с открытым исходным кодом, которые применяли бы как точную настройку инструкций, так и обучение с подкреплением посредством обучения обратной связи с человеком (RLHF).

В сообщении в блоге Stability AI представил StableVicuna, первого крупномасштабного чат-бота с открытым исходным кодом, обученного с помощью обучения с подкреплением с помощью обратной связи с человеком или RLHF. Это доработанная и обученная RLHF версия Vicuna v0 13b, которая представляет собой доработанную по инструкциям модель LLaMA 13b. Этот чат-бот был протестирован по сравнению с другими чат-ботами с открытым исходным кодом аналогичного размера и показал высокую производительность.

Для достижения производительности StableVicuna используется трехэтапный конвейер RLHF. Конвейер включает в себя обучение базовой модели Vicuna с контролируемой точной настройкой с использованием смеси трех наборов данных . Затем обучается модель вознаграждения, за которой следует проксимальное обучение оптимизации политики для выполнения обучения RLHF модели SFT.

StableVicuna доступна на HuggingFace Hub в качестве разницы веса по сравнению с оригинальной моделью LLaMA. Пользователи должны иметь доступ к исходной модели LLaMA, что требует от них отдельного применения весов LLaMA . Сценарий, представленный в репозитории GitHub, можно использовать для их объединения и получения StableVicuna-13B.

StableVicuna будет развернута как бот Discord на сервере Stable Foundation. Пользователи могут попробовать модель в пространстве HuggingFace, перейдя по этой ссылке . Из-за характера StableVicuna отзывы поощряются для улучшения взаимодействия с пользователем и повышения производительности бота.

Наряду с чат-ботом на завершающей стадии разработки находится интерфейс чата. Согласно Stability AI, разработка StableVicuna стала возможной благодаря Duy Phung, участникам открытого исходного кода и наборам данных, предоставленным OpenAssistant, Anthropic и Stanford. Они также поблагодарили команду OpenAssistant за ранний доступ к набору данных RLHF.

Первоначально опубликовано на OpenDataScience.com

Читайте другие статьи по науке о данных на OpenDataScience.com , включая учебные пособия и руководства для начинающих и продвинутых! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей учебной платформой Ai+ . Подпишитесь также на нашу быстрорастущую публикацию на Medium, ODSC Journal , и узнайте, как стать писателем.