Làm quen với StableVicuna, Chatbot RLHF mã nguồn mở quy mô lớn đầu tiên của Stability AI

Sự phát triển và phát hành chatbot đã có ý nghĩa quan trọng trong những tháng gần đây. Các lựa chọn thay thế nguồn mở đã thúc đẩy thêm sự quan tâm đến việc điều chỉnh các mô hình ngôn ngữ lớn cho một cuộc trò chuyện. Tuy nhiên, còn thiếu các mô hình nguồn mở đã áp dụng cả tinh chỉnh hướng dẫn và học tăng cường thông qua đào tạo phản hồi của con người (RLHF).
Trong một bài đăng trên blog , Stability AI đã giới thiệu StableVicuna, chatbot nguồn mở quy mô lớn đầu tiên được đào tạo thông qua học tăng cường thông qua phản hồi của con người hoặc RLHF. Đây là một phiên bản Vicuna v0 13b được tinh chỉnh thêm và được đào tạo bằng RLHF, là một mô hình LLaMA 13b được tinh chỉnh theo hướng dẫn . Chatbot đã được so sánh với các chatbot nguồn mở có kích thước tương tự khác và đã cho thấy hiệu suất mạnh mẽ.
Để đạt được hiệu suất của StableVicuna, một quy trình RLHF ba giai đoạn đã được sử dụng. Quy trình này liên quan đến việc đào tạo mô hình Vicuna cơ bản với việc tinh chỉnh được giám sát bằng cách sử dụng hỗn hợp ba bộ dữ liệu . Sau đó, một mô hình phần thưởng được đào tạo, tiếp theo là học tăng cường tối ưu hóa chính sách gần nhất để thực hiện đào tạo RLHF của mô hình SFT.
StableVicuna có sẵn trên HuggingFace Hub dưới dạng đồng bằng trọng lượng so với mô hình LLaMA ban đầu. Người dùng phải có quyền truy cập vào mô hình LLaMA ban đầu, mô hình này yêu cầu họ đăng ký riêng các trọng số LLaMA . Tập lệnh được cung cấp trong repo GitHub có thể được sử dụng để kết hợp chúng và lấy StableVicuna-13B.
StableVicuna sẽ được triển khai dưới dạng bot Discord cho máy chủ Stable Foundation. Người dùng có thể thử mô hình trên không gian HuggingFace bằng cách truy cập liên kết này . Do bản chất của StableVicuna, phản hồi được khuyến khích để cải thiện trải nghiệm người dùng và mở rộng hiệu suất của bot.
Bên cạnh chatbot, một giao diện trò chuyện sắp tới cũng đang trong giai đoạn phát triển cuối cùng. Theo Stability AI, sự phát triển của StableVicuna đã được thực hiện bởi Duy Phung, những người đóng góp nguồn mở và bộ dữ liệu do OpenAssistant, Anthropic và Stanford cung cấp. Họ cũng thừa nhận nhóm của OpenAssistant đã cung cấp cho họ quyền truy cập sớm vào bộ dữ liệu RLHF.
Ban đầu được đăng trên OpenDataScience.com
Đọc thêm các bài viết về khoa học dữ liệu trên OpenDataScience.com , bao gồm các bài hướng dẫn và hướng dẫn từ cấp độ sơ cấp đến nâng cao! Đăng ký nhận bản tin hàng tuần của chúng tôi tại đây và nhận tin tức mới nhất vào thứ Năm hàng tuần. Bạn cũng có thể được đào tạo về khoa học dữ liệu theo yêu cầu mọi lúc mọi nơi với nền tảng Đào tạo Ai+ của chúng tôi . Đăng ký Ấn phẩm Phương tiện đang phát triển nhanh chóng của chúng tôi, Tạp chí ODSC và hỏi về việc trở thành nhà văn.