¿Cómo funcionan ChatGPT y sistemas de chat similares?
May 03 2023
GPT, o Transformador preentrenado generativo, es un modelo desarrollado por OpenAI para generar texto similar al humano. Se basa en la arquitectura del transformador, que es un tipo de arquitectura de red neuronal presentada en el artículo "La atención es todo lo que necesita" de Vaswani et al.

GPT, o Transformador preentrenado generativo, es un modelo desarrollado por OpenAI para generar texto similar al humano. Se basa en la arquitectura del transformador, que es un tipo de arquitectura de red neuronal presentada en el artículo "La atención es todo lo que necesita" de Vaswani et al.
Aquí hay un desglose detallado de cómo funciona GPT:
- Transformadores y mecanismo de atención : el bloque de construcción fundamental de GPT es el modelo de transformador. Los transformadores usan un mecanismo llamado "atención" para sopesar la relevancia de los elementos de entrada (como las palabras en una oración) al producir un elemento de salida. Esto se logra sin tener que procesar los elementos de entrada en un orden específico, como las redes neuronales recurrentes tradicionales (RNN) o las redes de memoria a corto plazo (LSTM). Esta propiedad permite que los transformadores manejen dependencias de largo alcance en los datos de manera más eficaz y eficiente.
- Autoatención : GPT utiliza específicamente una variante del mecanismo de atención conocida como "autoatención" o "atención de producto escalar". La autoatención permite que el modelo considere otras palabras en la entrada al generar una palabra de salida. Para cada palabra, se calcula una puntuación (usando el producto escalar de los vectores de entrada), que representa cuánta atención se debe prestar a otras palabras en la oración. Estos puntajes se usan luego para sopesar la contribución de cada palabra al resultado.
- Decodificación enmascarada : mientras se entrena, GPT utiliza una técnica llamada "descodificación enmascarada" o "atención causal". Esto significa que al predecir una palabra, el modelo solo usa las palabras que le han precedido en la oración, lo que imita la forma en que los humanos generan texto.
- Entrenamiento y puesta a punto : GPT se entrena en dos pasos: preentrenamiento y puesta a punto. Durante el entrenamiento previo, el modelo se entrena en un gran corpus de texto para predecir la siguiente palabra en una oración. Esto le permite aprender una comprensión general del lenguaje, incluida la gramática, hechos sobre el mundo, habilidades de razonamiento y cierta cantidad de sesgos presentes en los datos de entrenamiento. Después del entrenamiento previo, el modelo se ajusta en un conjunto de datos más estrecho, a menudo con supervisión humana, para adaptarlo a tareas específicas como traducción, respuesta a preguntas o generación de texto.
- Tokenización : las entradas de texto a GPT se dividen en fragmentos llamados "tokens", que podrían corresponder a palabras o subpalabras. Este proceso de tokenización permite que el modelo maneje una amplia gama de vocabularios de entrada.
- Codificación posicional : para asegurarse de que el modelo conozca el orden de las palabras en una oración (dado que la arquitectura del transformador no comprende inherentemente la secuencia como RNN), GPT agrega codificaciones posicionales a las incrustaciones de entrada. Esto le da al modelo información sobre la posición relativa o absoluta de las fichas en la secuencia.
- Tamaño del modelo : los modelos GPT pueden ser extremadamente grandes. Por ejemplo, GPT-3, una de las versiones anteriores, tiene 175 mil millones de parámetros. Estos parámetros son las partes del modelo que se aprenden de los datos de entrenamiento. Los modelos más grandes generalmente pueden capturar patrones más complejos y generar texto más coherente y diverso, pero también requieren más recursos computacionales para entrenar y usar.
- Salida : la salida de GPT es una distribución de probabilidad sobre todas las siguientes palabras posibles. Al generar texto, puede tomar muestras de esta distribución para obtener una siguiente palabra plausible. Al encadenar este proceso, GPT puede generar pasajes completos de texto que pueden ser bastante coherentes y contextualmente relevantes.
Este es el documento que inició la revolución de los transformadores y condujo a ChatGPT y sistemas similares:
Todo lo que necesitas es atención
Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N. Gomez , Lukasz Kaiser , Illia Polosukhin , 2017
Enlace:https://arxiv.org/abs/1706.03762
Ahora ya sabes :)