ChatGPT và các hệ thống trò chuyện tương tự hoạt động như thế nào?
May 03 2023
GPT, hay Generative Pretraining Transformer, là một mô hình do OpenAI phát triển để tạo văn bản giống con người. Nó dựa trên kiến trúc biến áp, một loại kiến trúc mạng thần kinh được giới thiệu trong bài báo “Chú ý là tất cả những gì bạn cần” của Vaswani et al.

GPT, hay Generative Pretraining Transformer, là một mô hình do OpenAI phát triển để tạo văn bản giống con người. Nó dựa trên kiến trúc biến áp, một loại kiến trúc mạng thần kinh được giới thiệu trong bài báo “Chú ý là tất cả những gì bạn cần” của Vaswani et al.
Dưới đây là bảng phân tích chi tiết về cách thức hoạt động của GPT:
- Máy biến áp và Cơ chế chú ý : Khối xây dựng cơ bản của GPT là mô hình máy biến áp. Máy biến áp sử dụng một cơ chế có tên là “sự chú ý” để cân nhắc mức độ liên quan của các yếu tố đầu vào (chẳng hạn như các từ trong câu) khi tạo ra một yếu tố đầu ra. Điều này đạt được mà không cần phải xử lý các yếu tố đầu vào theo một thứ tự cụ thể, như mạng thần kinh truyền thống (RNN) hoặc mạng bộ nhớ ngắn hạn dài (LSTM). Thuộc tính này cho phép máy biến áp xử lý các phụ thuộc tầm xa trong dữ liệu một cách hiệu quả và hiệu quả hơn.
- Tự chú ý : GPT đặc biệt sử dụng một biến thể của cơ chế chú ý được gọi là “tự chú ý” hoặc “chú ý sản phẩm theo tỷ lệ”. Tự chú ý cho phép mô hình xem xét các từ khác trong đầu vào khi tạo một từ đầu ra. Đối với mỗi từ, điểm số được tính (sử dụng tích vô hướng của các vectơ đầu vào), biểu thị mức độ chú ý của các từ khác trong câu. Những điểm số này sau đó được sử dụng để cân nhắc sự đóng góp của từng từ vào đầu ra.
- Giải mã ẩn danh : Trong khi đào tạo, GPT sử dụng một kỹ thuật gọi là “giải mã ẩn danh” hoặc “sự chú ý nhân quả”. Điều này có nghĩa là khi dự đoán một từ, mô hình chỉ sử dụng các từ đứng trước từ đó trong câu, bắt chước cách con người tạo văn bản.
- Đào tạo và tinh chỉnh : GPT được đào tạo theo hai bước: đào tạo trước và tinh chỉnh. Trong quá trình đào tạo trước, mô hình được đào tạo trên một khối văn bản lớn để dự đoán từ tiếp theo trong câu. Điều này cho phép nó học hiểu chung về ngôn ngữ, bao gồm ngữ pháp, sự thật về thế giới, khả năng suy luận và một số thành kiến có trong dữ liệu đào tạo. Sau khi đào tạo trước, mô hình được tinh chỉnh trên tập dữ liệu hẹp hơn, thường có sự giám sát của con người, để điều chỉnh mô hình cho các tác vụ cụ thể như dịch thuật, trả lời câu hỏi hoặc tạo văn bản.
- Mã thông báo : Nhập văn bản vào GPT được chia thành các phần gọi là "mã thông báo", có thể tương ứng với các từ hoặc từ phụ. Quá trình mã hóa này cho phép mô hình xử lý nhiều loại từ vựng đầu vào.
- Mã hóa vị trí : Để đảm bảo mô hình biết thứ tự của các từ trong câu (vì kiến trúc biến áp vốn không hiểu trình tự như RNN), GPT thêm mã hóa vị trí cho các phần nhúng đầu vào. Điều này cung cấp cho mô hình thông tin về vị trí tương đối hoặc tuyệt đối của các mã thông báo trong chuỗi.
- Kích thước mô hình : Các mô hình GPT có thể cực kỳ lớn. Ví dụ: GPT-3, một trong những phiên bản trước đó, có 175 tỷ tham số. Các tham số này là các phần của mô hình được học từ dữ liệu huấn luyện. Các mô hình lớn hơn thường có thể nắm bắt các mẫu phức tạp hơn và tạo ra văn bản đa dạng và mạch lạc hơn, nhưng chúng cũng yêu cầu nhiều tài nguyên máy tính hơn để đào tạo và sử dụng.
- Đầu ra : Đầu ra của GPT là phân phối xác suất trên tất cả các từ tiếp theo có thể có. Khi tạo văn bản, bạn có thể lấy mẫu từ bản phân phối này để có từ tiếp theo hợp lý. Bằng cách xâu chuỗi quá trình này, GPT có thể tạo toàn bộ đoạn văn bản có thể khá mạch lạc và phù hợp với ngữ cảnh
Đây là bài báo khởi xướng cuộc cách mạng máy biến áp và dẫn đến ChatGPT và các hệ thống tương tự:
Chú ý là tất cả những gì bạn cần
Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N. Gomez , Lukasz Kaiser , Illia Polosukhin , 2017
Liên kết:https://arxiv.org/abs/1706.03762
Bây giờ bạn biết :)