Temui StableVicuna, Chatbot RLHF Sumber Terbuka Berskala Besar Pertama dari Stability AI
Pengembangan dan pelepasan chatbots telah signifikan dalam beberapa bulan terakhir. Alternatif sumber terbuka semakin memicu minat untuk menyetel model bahasa besar untuk obrolan. Namun, ada kekurangan model sumber terbuka yang telah menerapkan baik pembelajaran finetuning instruksi dan pembelajaran penguatan melalui pelatihan umpan balik manusia (RLHF).
Dalam postingan blog , Stability AI memperkenalkan StableVicuna, chatbot open-source berskala besar pertama yang dilatih melalui pembelajaran penguatan melalui umpan balik manusia atau RLHF. Ini adalah instruksi lebih lanjut versi Vicuna v0 13b yang disempurnakan dan dilatih RLHF, yang merupakan model LLaMA 13b yang disetel dengan halus. Chatbot telah dibandingkan dengan chatbot sumber terbuka berukuran serupa lainnya dan telah menunjukkan kinerja yang kuat.
Untuk mencapai kinerja StableVicuna, jalur pipa RLHF tiga tahap telah digunakan. Pipeline melibatkan pelatihan model Vicuna dasar dengan penyetelan halus yang diawasi menggunakan campuran tiga set data . Model penghargaan kemudian dilatih, diikuti dengan pembelajaran penguatan optimalisasi kebijakan proksimal untuk melakukan pelatihan RLHF dari model SFT.
StableVicuna tersedia di HuggingFace Hub sebagai delta bobot terhadap model LLaMA asli. Pengguna harus memiliki akses ke model LLaMA asli, yang mengharuskan mereka mengajukan bobot LLaMA secara terpisah. Skrip yang disediakan di repo GitHub dapat digunakan untuk menggabungkannya dan mendapatkan StableVicuna-13B.
StableVicuna akan digunakan sebagai bot Discord ke server Stable Foundation. Pengguna dapat mencoba model di ruang HuggingFace dengan mengunjungi link ini . Karena sifat StableVicuna, umpan balik didorong untuk meningkatkan pengalaman pengguna dan memperluas kinerja bot.
Bersamaan dengan chatbot, antarmuka obrolan yang akan datang juga sedang dalam tahap akhir pengembangan. Pengembangan StableVicuna dimungkinkan, menurut Stability AI, oleh Duy Phung, kontributor sumber terbuka, dan kumpulan data yang disediakan oleh OpenAssistant, Anthropic, dan Stanford. Mereka juga berterima kasih kepada tim OpenAssistant karena memberi mereka akses awal ke kumpulan data RLHF.
Awalnya diposting di OpenDataScience.com
Baca lebih banyak artikel ilmu data di OpenDataScience.com , termasuk tutorial dan panduan dari tingkat pemula hingga mahir! Berlangganan buletin mingguan kami di sini dan terima berita terbaru setiap Kamis. Anda juga bisa mendapatkan pelatihan sains data sesuai permintaan di mana pun Anda berada dengan platform Pelatihan Ai+ kami . Berlangganan juga ke Publikasi Medium kami yang berkembang pesat, Jurnal ODSC , dan tanyakan tentang menjadi seorang penulis.