ChatGPT 및 유사한 채팅 시스템은 어떻게 작동합니까?

May 03 2023
GPT(Generative Pretrained Transformer)는 인간과 유사한 텍스트를 생성하기 위해 OpenAI에서 개발한 모델입니다. 이는 Vaswani 등의 논문 "Attention is All You Need"에 소개된 일종의 신경망 아키텍처인 변환기 아키텍처를 기반으로 합니다.
Unsplash에 있는 ilgmyzin의 사진

GPT(Generative Pretrained Transformer)는 인간과 유사한 텍스트를 생성하기 위해 OpenAI에서 개발한 모델입니다. 이는 Vaswani 등의 논문 "Attention is All You Need"에 소개된 일종의 신경망 아키텍처인 변환기 아키텍처를 기반으로 합니다.

다음은 GPT 작동 방식에 대한 자세한 분석입니다.

  1. Transformers and Attention Mechanism : GPT의 기본 빌딩 블록은 Transformer 모델입니다. 변환기는 "주의"라는 메커니즘을 사용하여 출력 요소를 생성할 때 입력 요소(예: 문장의 단어)의 관련성을 평가합니다. 이는 기존의 순환 신경망(RNN) 또는 장단기 기억망(LSTM)과 같이 특정 순서로 입력 요소를 처리하지 않고도 달성됩니다. 이 속성을 통해 변환기는 데이터의 장거리 종속성을 보다 효과적이고 효율적으로 처리할 수 있습니다.
  2. Self-Attention : GPT는 특히 "self-attention" 또는 "scaled dot-product Attention"으로 알려진 변형된 Attention 메커니즘을 사용합니다. Self-attention을 사용하면 모델이 출력 단어를 생성할 때 입력의 다른 단어를 고려할 수 있습니다. 각 단어에 대해 점수가 계산되어(입력 벡터의 내적 사용) 문장의 다른 단어에 얼마나 주의를 기울여야 하는지를 나타냅니다. 그런 다음 이 점수를 사용하여 출력에 대한 각 단어의 기여도를 평가합니다.
  3. 마스킹된 디코딩 : 훈련하는 동안 GPT는 "마스킹된 디코딩" 또는 "인과 주의"라는 기술을 사용합니다. 이것은 단어를 예측할 때 모델이 문장에서 그 앞에 오는 단어만 사용한다는 것을 의미하며, 이는 인간이 텍스트를 생성하는 방식을 모방합니다.
  4. 교육 및 미세 조정 : GPT는 사전 교육 및 미세 조정의 두 단계로 교육됩니다. 사전 교육 중에 모델은 문장의 다음 단어를 예측하기 위해 대규모 텍스트 모음에서 교육을 받습니다. 이를 통해 문법, 세계에 대한 사실, 추론 능력 및 훈련 데이터에 존재하는 어느 정도의 편향을 포함하여 언어에 대한 일반적인 이해를 학습할 수 있습니다. 사전 교육 후 모델은 종종 사람의 감독 하에 더 좁은 데이터 세트에서 미세 조정되어 번역, 질문 답변 또는 텍스트 생성과 같은 특정 작업에 맞게 조정됩니다.
  5. 토큰화 : GPT에 대한 텍스트 입력은 단어 또는 하위 단어에 해당할 수 있는 "토큰"이라는 청크로 분류됩니다. 이 토큰화 프로세스를 통해 모델은 광범위한 입력 어휘를 처리할 수 있습니다.
  6. 위치 인코딩 : 모델이 문장의 단어 순서를 알 수 있도록 하기 위해(변압기 아키텍처는 본질적으로 RNN과 같은 시퀀스를 이해하지 못하기 때문에) GPT는 위치 인코딩을 입력 임베딩에 추가합니다. 이는 시퀀스에서 토큰의 상대적 또는 절대 위치에 대한 모델 정보를 제공합니다.
  7. 모델 크기 : GPT 모델은 매우 클 수 있습니다. 예를 들어 이전 버전 중 하나인 GPT-3에는 1750억 개의 매개 변수가 있습니다. 이러한 매개변수는 교육 데이터에서 학습된 모델의 일부입니다. 더 큰 모델은 일반적으로 더 복잡한 패턴을 캡처하고 더 일관되고 다양한 텍스트를 생성할 수 있지만 훈련하고 사용하는 데 더 많은 컴퓨팅 리소스가 필요합니다.
  8. 출력 : GPT의 출력은 가능한 모든 다음 단어에 대한 확률 분포입니다. 텍스트를 생성할 때 이 분포에서 샘플링하여 그럴듯한 다음 단어를 얻을 수 있습니다. 이 프로세스를 연결함으로써 GPT는 매우 일관되고 문맥상 관련이 있는 텍스트의 전체 구절을 생성할 수 있습니다.

이것은 변압기 혁명을 초기화하고 ChatGPT 및 유사한 시스템으로 이어진 문서입니다.

Attention Is All You Need
Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N. Gomez , Lukasz Kaiser , Illia Polosukhin , 2017
링크:https://arxiv.org/abs/1706.03762

이제 아시겠죠 :)