Como funcionam o ChatGPT e sistemas de bate-papo semelhantes?

May 03 2023
GPT, ou Transformador pré-treinado generativo, é um modelo desenvolvido pela OpenAI para gerar texto semelhante ao humano. É baseado na arquitetura do transformador, que é um tipo de arquitetura de rede neural apresentada no artigo “Atenção é tudo o que você precisa” de Vaswani et al.
Foto de ilgmyzin no Unsplash

GPT, ou Transformador pré-treinado generativo, é um modelo desenvolvido pela OpenAI para gerar texto semelhante ao humano. É baseado na arquitetura do transformador, que é um tipo de arquitetura de rede neural apresentada no artigo “Atenção é tudo o que você precisa” de Vaswani et al.

Aqui está uma análise detalhada de como o GPT funciona:

  1. Transformadores e Mecanismo de Atenção : O bloco de construção fundamental do GPT é o modelo do transformador. Os transformadores usam um mecanismo chamado “atenção” para pesar a relevância dos elementos de entrada (como palavras em uma frase) ao produzir um elemento de saída. Isso é obtido sem a necessidade de processar elementos de entrada em uma ordem específica, como redes neurais recorrentes tradicionais (RNNs) ou redes de memória de longo prazo (LSTMs). Essa propriedade permite que os transformadores manipulem dependências de longo alcance nos dados de forma mais eficaz e eficiente.
  2. Auto-atenção : o GPT usa especificamente uma variante do mecanismo de atenção conhecido como "auto-atenção" ou "atenção de produto escalado". A autoatenção permite que o modelo considere outras palavras na entrada ao gerar uma palavra de saída. Para cada palavra, uma pontuação é calculada (usando o produto escalar dos vetores de entrada), representando quanta atenção deve ser dada às outras palavras da frase. Essas pontuações são usadas para pesar a contribuição de cada palavra para a saída.
  3. Decodificação Mascarada : Durante o treinamento, o GPT usa uma técnica chamada “decodificação mascarada” ou “atenção causal”. Isso significa que, ao prever uma palavra, o modelo usa apenas palavras que vieram antes dela na frase, o que imita a maneira como os humanos geram texto.
  4. Treinamento e ajuste fino : o GPT é treinado em duas etapas: pré-treinamento e ajuste fino. Durante o pré-treinamento, o modelo é treinado em um grande corpus de texto para prever a próxima palavra em uma frase. Isso permite que ele aprenda uma compreensão geral da linguagem, incluindo gramática, fatos sobre o mundo, habilidades de raciocínio e alguns vieses presentes nos dados de treinamento. Após o pré-treinamento, o modelo é ajustado em um conjunto de dados mais restrito, geralmente com supervisão humana, para adaptá-lo a tarefas específicas, como tradução, resposta a perguntas ou geração de texto.
  5. Tokenização : as entradas de texto para GPT são divididas em blocos chamados “tokens”, que podem corresponder a palavras ou subpalavras. Esse processo de tokenização permite que o modelo lide com uma ampla gama de vocabulários de entrada.
  6. Codificação posicional : para garantir que o modelo conheça a ordem das palavras em uma frase (uma vez que a arquitetura do transformador não entende inerentemente a sequência como RNNs), o GPT adiciona codificações posicionais às incorporações de entrada. Isso fornece ao modelo informações sobre a posição relativa ou absoluta dos tokens na sequência.
  7. Tamanho do modelo : os modelos GPT podem ser extremamente grandes. Por exemplo, GPT-3, uma das versões anteriores, tem 175 bilhões de parâmetros. Esses parâmetros são as partes do modelo que são aprendidas com os dados de treinamento. Modelos maiores geralmente podem capturar padrões mais complexos e gerar textos mais coerentes e diversificados, mas também requerem mais recursos computacionais para treinar e usar.
  8. Saída : A saída do GPT é uma distribuição de probabilidade sobre todas as próximas palavras possíveis. Ao gerar texto, você pode usar amostras dessa distribuição para obter uma próxima palavra plausível. Ao encadear esse processo, o GPT pode gerar passagens inteiras de texto que podem ser bastante coerentes e contextualmente relevantes

Este é o artigo que inicializou a revolução do transformador e levou ao ChatGPT e sistemas similares:

Atenção é tudo que você precisa
Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N. Gomez , Lukasz Kaiser , Illia Polosukhin , 2017
Link:https://arxiv.org/abs/1706.03762

Agora você sabe :)