Jak działają ChatGPT i podobne systemy czatu?

May 03 2023

GPT, czyli Generative Pretrained Transformer, to model opracowany przez OpenAI do generowania tekstu podobnego do ludzkiego. Opiera się na architekturze transformatora, która jest typem architektury sieci neuronowej, o której mowa w artykule „Attention is All You Need” autorstwa Vaswani i in.

Zdjęcie autorstwa ilgmyzina na Unsplash

Oto szczegółowy opis działania GPT:

Transformatory i mechanizm uwagi : Podstawowym elementem składowym GPT jest model transformatora. Transformatory używają mechanizmu zwanego „uwagą” do ważenia istotności elementów wejściowych (takich jak słowa w zdaniu) podczas tworzenia elementu wyjściowego. Osiąga się to bez konieczności przetwarzania elementów wejściowych w określonej kolejności, jak w przypadku tradycyjnych rekurencyjnych sieci neuronowych (RNN) lub długoterminowych sieci pamięci krótkotrwałej (LSTM). Ta właściwość pozwala transformatorom skuteczniej i wydajniej obsługiwać zależności dalekiego zasięgu w danych.
Samouwaga : GPT w szczególności wykorzystuje wariant mechanizmu uwagi znany jako „samouwaga” lub „skalowana uwaga iloczynu punktowego”. Samouważność pozwala modelowi wziąć pod uwagę inne słowa na wejściu podczas generowania słowa wyjściowego. Dla każdego słowa obliczany jest wynik (za pomocą iloczynu skalarnego wektorów wejściowych), określający, ile uwagi należy poświęcić innym słowom w zdaniu. Wyniki te są następnie wykorzystywane do ważenia wkładu każdego słowa w wynik.
Dekodowanie zamaskowane : Podczas szkolenia GPT wykorzystuje technikę zwaną „dekodowaniem maskowanym” lub „uwagą przyczynową”. Oznacza to, że podczas przewidywania słowa model używa tylko słów, które pojawiły się przed nim w zdaniu, co naśladuje sposób, w jaki ludzie generują tekst.
Trening i dostrajanie : GPT jest szkolony w dwóch etapach: przedtreningowy i dostrajający. Podczas szkolenia wstępnego model jest szkolony na dużym zbiorze tekstu, aby przewidzieć następne słowo w zdaniu. To pozwala mu nauczyć się ogólnego rozumienia języka, w tym gramatyki, faktów o świecie, zdolności rozumowania i pewnej ilości błędów obecnych w danych treningowych. Po wstępnym szkoleniu model jest dostrajany na węższym zbiorze danych, często pod nadzorem człowieka, w celu dostosowania go do określonych zadań, takich jak tłumaczenie, odpowiadanie na pytania lub generowanie tekstu.
Tokenizacja : Tekst wprowadzany do GPT jest dzielony na fragmenty zwane „tokenami”, które mogą odpowiadać słowom lub słowom podrzędnym. Ten proces tokenizacji umożliwia modelowi obsługę szerokiego zakresu słowników wejściowych.
Kodowanie pozycyjne : Aby upewnić się, że model zna kolejność słów w zdaniu (ponieważ architektura transformatora z natury nie rozumie sekwencji, takich jak RNN), GPT dodaje kodowanie pozycyjne do osadzania danych wejściowych. Daje to modelowi informacje o względnej lub bezwzględnej pozycji tokenów w sekwencji.
Rozmiar modelu : modele GPT mogą być bardzo duże. Na przykład GPT-3, jedna z wcześniejszych wersji, ma 175 miliardów parametrów. Te parametry to części modelu, które są wyuczone z danych treningowych. Większe modele mogą generalnie przechwytywać bardziej złożone wzorce i generować bardziej spójny i zróżnicowany tekst, ale ich trenowanie i używanie wymaga również większych zasobów obliczeniowych.
Dane wyjściowe : Wynikiem GPT jest rozkład prawdopodobieństwa dla wszystkich możliwych następnych słów. Podczas generowania tekstu możesz pobierać próbki z tego rozkładu, aby uzyskać wiarygodne następne słowo. Łącząc ten proces, GPT może generować całe fragmenty tekstu, które mogą być dość spójne i odpowiednie kontekstowo

To jest artykuł, który zapoczątkował rewolucję transformatorową i doprowadził do powstania ChatGPT i podobnych systemów:

Uwaga to wszystko, czego potrzebujesz
Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N. Gomez , Łukasz Kaiser , Illia Polosukhin , 2017
Link:https://arxiv.org/abs/1706.03762