Как работают ChatGPT и подобные чат-системы?

May 03 2023

GPT, или Generative Pretrained Transformer, — это модель, разработанная OpenAI для создания текста, похожего на человеческий. Он основан на архитектуре трансформатора, которая представляет собой тип архитектуры нейронной сети, представленный в статье Vaswani et al. «Внимание — это все, что вам нужно».

Фото ilgmyzin на Unsplash

Вот подробное описание того, как работает GPT:

Преобразователи и механизм внимания . Основным строительным блоком GPT является модель преобразователя. Преобразователи используют механизм, называемый «внимание», для взвешивания релевантности входных элементов (например, слов в предложении) при создании выходного элемента. Это достигается без необходимости обработки входных элементов в определенном порядке, как в традиционных рекуррентных нейронных сетях (RNN) или сетях с долговременной кратковременной памятью (LSTM). Это свойство позволяет преобразователям более эффективно обрабатывать долгосрочные зависимости в данных.
Самостоятельное внимание : GPT специально использует вариант механизма внимания, известный как «самовнимание» или «внимание с масштабируемым точечным произведением». Самостоятельное внимание позволяет модели учитывать другие слова во входных данных при генерации выходного слова. Для каждого слова вычисляется оценка (используя скалярное произведение входных векторов), показывающая, сколько внимания следует уделить другим словам в предложении. Затем эти баллы используются для взвешивания вклада каждого слова в результат.
Маскированное декодирование : во время обучения GPT использует технику, называемую «маскированное декодирование» или «причинное внимание». Это означает, что при прогнозировании слова модель использует только те слова, которые стоят перед ней в предложении, что имитирует способ, которым люди генерируют текст.
Обучение и тонкая настройка : GPT обучается в два этапа: предварительное обучение и тонкая настройка. Во время предварительной подготовки модель обучается на большом корпусе текста, чтобы предсказать следующее слово в предложении. Это позволяет ему научиться общему пониманию языка, включая грамматику, факты о мире, способности рассуждать и некоторое количество предубеждений, присутствующих в обучающих данных. После предварительной подготовки модель настраивается на более узком наборе данных, часто под наблюдением человека, чтобы адаптировать ее к конкретным задачам, таким как перевод, ответы на вопросы или генерация текста.
Токенизация : текстовые входы в GPT разбиваются на фрагменты, называемые «токенами», которые могут соответствовать словам или подсловам. Этот процесс токенизации позволяет модели обрабатывать широкий спектр входных словарей.
Позиционное кодирование : чтобы убедиться, что модель знает порядок слов в предложении (поскольку архитектура преобразователя по своей сути не понимает последовательность, такую как RNN), GPT добавляет позиционные кодировки к входным вложениям. Это дает модели информацию об относительном или абсолютном положении токенов в последовательности.
Размер модели : модели GPT могут быть очень большими. Например, GPT-3, одна из ранних версий, имеет 175 миллиардов параметров. Эти параметры являются частями модели, которые извлекаются из обучающих данных. Более крупные модели, как правило, могут фиксировать более сложные шаблоны и генерировать более связный и разнообразный текст, но они также требуют больше вычислительных ресурсов для обучения и использования.
Вывод : вывод GPT представляет собой распределение вероятностей по всем возможным следующим словам. При создании текста вы можете использовать выборку из этого распределения, чтобы получить правдоподобное следующее слово. Связав этот процесс в цепочку, GPT может генерировать целые фрагменты текста, которые могут быть вполне связными и контекстуально релевантными.

Это статья, которая положила начало революции трансформеров и привела к ChatGPT и подобным системам:

Внимание — это все, что вам нужно
Ашиш Васвани , Ноам Шазир , Ники Пармар , Якоб Ушкорейт , Ллион Джонс , Эйдан Н. Гомес , Лукаш Кайзер , Илья Полосухин , 2017
Ссылка:https://arxiv.org/abs/1706.03762