ChatGPT

Dec 09 2022
¡ChatGPT de OpenAI ha incendiado Internet! Nunca había visto tantas publicaciones sobre IA: mis feeds de Twitter y LinkedIn están completamente inundados. De hecho, acabo de leer que 1 millón de personas lo han usado en solo 5 días.
Imagen de Volodymyr Hryshchenko

¡ChatGPT de OpenAI ha incendiado Internet! Nunca había visto tantas publicaciones sobre IA: mis feeds de Twitter y LinkedIn están completamente inundados. De hecho, acabo de leer que 1 millón de personas lo han usado en solo 5 días.

Para ser justos, ChatGPT es probablemente el primer chatbot de IA de propósito general bueno del mundo con el que cualquiera puede jugar. Las reacciones han sido predecibles: "wow", "el principio del fin", "los humanos están condenados" son solo algunas de las reacciones espontáneas que he recibido de mis amigos.

Pero he estado aquí antes. Fui el CTO europeo de IBM Watson en los primeros días, cuando intentábamos comercializar Jeopardy! tecnología. Entonces, con esa experiencia, ¿qué pienso?

Debo señalar que cuando hablo de Watson en esta publicación, me refiero a la tecnología desarrollada específicamente para Jeopardy! mostrar. Posteriormente, IBM ha desarrollado una serie de productos de la marca Watson no relacionados, explotando con sensatez su experiencia y marca efectiva, en lugar de la tecnología original en sí. ¡Mis referencias a Watson son específicamente sobre el Jeopardy original! tecnología y no los productos de la marca Watson que IBM ofrece hoy.

Técnicamente, ChatGPT y Watson son muy diferentes. ChatGPT es un modelo de lenguaje grande (LLM), creado con el modelo davinvi-003 de OpenAI que forma parte de su serie de modelos GPT3.5. Los modelos GPT3.5 son algunos de los LLM más grandes y sofisticados disponibles actualmente. Por el contrario, el Watson ganador del programa de juegos original fue una tubería de diferentes algoritmos, ninguno de los cuales podría describirse como un LLM. Watson ganó Jeopardy en 2011, hace más de una década y en un momento en que la frase "modelos de lenguaje extenso" ni siquiera se había acuñado. Por lo tanto, no sorprende que Watson y ChatGPT difieran tecnológicamente: una década es mucho tiempo en tecnología.

Además de las diferencias tecnológicas, como ex-Watsoner veo tres cosas significativas sobre ChatGPT.

Disponibilidad abierta

En primer lugar, que OpenAI haya lanzado ChatGPT libremente para que cualquiera pueda jugar, demuestra confianza en sus capacidades. Solo eche un vistazo a las conversaciones salvajes que la gente está teniendo con él en este sitio web de mashup. La variedad es extraordinaria, nunca había visto algo así. Y está funcionando bastante bien: la gente está emocionada porque a menudo supera sus expectativas, lo cual es bastante.

Hacer que ChatGPT esté disponible gratuitamente para todos fue valiente y solo iba a funcionar si era realmente impresionante. Compare la recepción con la de Meta's Galactica . Galactica fue duramente criticada y la demostración solo sobrevivió tres días antes de que fuera eliminada.

La propensión de Galáctica a inventar información científica planteó serias preocupaciones y, independientemente de sus méritos, su recepción fue casi universalmente negativa. Por el contrario, es obvio que OpenAI ha hecho grandes avances con ChatGPT. No es completamente perfecto, pero tengo la sensación de que se ha pensado mucho en él.

Volviendo a Watson, Jeopardy! máquina nunca se hizo pública en parte porque fue diseñada muy específicamente para las extrañas preguntas planteadas en Jeopardy! mostrar. Sabíamos que el público en general haría preguntas muy diferentes y rápidamente encontraría fallas. Estas IA ganadoras de juegos rara vez se lanzan al público. Ya sea DeepMind con Go, Meta con el ganador de la Diplomacia Cicero, Watson, DeepBlue at Chess, ninguno de estos sistemas ha sido lanzado para revisión o crítica pública. Eso hace que ChatGPT sea diferente a cualquiera de estos otros supuestos avances.

Escalabilidad

Que suficientes personas estén jugando con ChatGPT para inundar mis líneas de tiempo de Twitter y LinkedIn nos dice que debe escalar bien. Está recibiendo un montón de solicitudes.

En su mayoría, los avances de la IA no se pueden escalar a muchos usuarios. Logran sus avances en parte aplicando grandes cantidades de poder de cómputo a un solo usuario. Si alguien le da un centro de datos completo de máquinas para construir un sistema, eso es increíble. Pero si se necesita todo un centro de datos para responder una pregunta o decidir un movimiento en un tablero de juego, eso no es solo un problema grave de escalabilidad, también es un obstáculo importante para la comercialización. Construir una máquina para vencer a un humano en un juego no es lo mismo que construir una máquina que pueda vencer a un millón de humanos.

Que literalmente millones de personas en todo el mundo estén jugando con ChatGPT demuestra que no se requiere un centro de datos completo para responder una sola pregunta. Dado esto, la tecnología se puede comercializar absolutamente: la gran barrera de la escalabilidad y la viabilidad económica ya debe haberse resuelto.

Flexibilidad

El Watson original fue construido para hacer una cosa y solo una cosa: ¡jugar Jeopardy! Lo mismo ocurre con la máquina ganadora de Go de Deep Mind y la miríada de otros sistemas de juego de IA que han aparecido en los titulares a lo largo de los años.

Estos sistemas alcanzan la grandeza al resolver un problema muy específico y, por lo general, no se pueden aplicar fácilmente, o en absoluto, a otros dominios. Confía en mí, ¡aquellos de nosotros que teníamos la tarea de conseguir el Watson Jeopardy! tecnología para hacer otras cosas tiene las cicatrices de la batalla que demuestran lo difícil que puede ser.

En comparación, las personas usan ChatGPT para responder preguntas de conocimiento general, escribir poemas, crear solicitudes de empleo, contar chistes, escribir y explicar el código de programación y una miríada de otras cosas al azar . Y está haciendo todas estas cosas impresionantemente bien y sin ningún esfuerzo de entrenamiento adicional. A diferencia de los intentos anteriores de IA, ChatGPT parece ser bueno en muchas cosas desde el primer momento. Por supuesto, en el momento en que digo eso, alguien me mostrará algo en lo que es malo. Pero, en general, me mantendré firme: es impresionantemente bueno en muchas cosas.

Entonces, tres razones por las que ChatGPT es un esfuerzo impresionante: apertura, escalabilidad y flexibilidad. Pero también me gustaría comentar algunos otros aspectos importantes de lo que veo con ChatGPT.

inventando cosas

A pesar de sus impresionantes habilidades, ChatGPT todavía tiene una tendencia, a veces, a inventar cosas. La mayor parte del tiempo parece evitar eso, pero a veces se desvía e inventa su propia realidad. Digamos que es poco probable que pase una prueba de polígrafo.

Para su crédito, OpenAI admite libremente este desafío.

"ChatGPT a veces escribe respuestas que suenan plausibles pero incorrectas o sin sentido... ChatGPT es sensible a los ajustes en la frase de entrada o intenta el mismo aviso varias veces. Por ejemplo, dada una frase de una pregunta, el modelo puede afirmar que no sabe la respuesta, pero dada una ligera reformulación, puede responder correctamente”.https://openai.com/blog/chatgpt/

Cuando jugué por primera vez con GPT-3 (en el que se basa ChatGPT), descubrí que la propensión del modelo a inventar cosas era una barrera importante. Conozco muy pocos escenarios comerciales reales en los que "inventar cosas" no se considere un riesgo importante para la marca. ChatGPT parece mucho mejor, quizás en parte porque está basado en el modelo davinci-003, una actualización del davinci-002 original. Pero no es impecable y si la precisión completa de los hechos es importante, este problema será una barrera para la adopción.

Parcialidad

Un desafío importante con los modelos de lenguaje grandes son los sesgos inherentes que existen en el conjunto de entrenamiento. Esto es difícil de evitar, dado que los LLM se capacitan a partir de datos masivos de Internet, que prácticamente siempre incluirán ejemplos de todos los vicios y prejuicios humanos conocidos.

Una vez más, OpenAI está gestionando nuestras expectativas.

“Si bien nos hemos esforzado para que el modelo rechace solicitudes inapropiadas, a veces responderá a instrucciones dañinas o exhibirá un comportamiento sesgado. Estamos utilizando la API de moderación para advertir o bloquear ciertos tipos de contenido no seguro, pero esperamos que tenga algunos falsos negativos y positivos por ahora. Estamos ansiosos por recopilar comentarios de los usuarios para ayudar en nuestro trabajo continuo para mejorar este sistema”.https://openai.com/blog/chatgpt/

En mi experiencia personal, ChatGPT hace un trabajo decente al evitar el sesgo y, con frecuencia, se niega a responder preguntas que tienen como objetivo incitar al mal comportamiento. Pero dado un usuario determinado, es posible que diga algunas cosas bastante estúpidas. Es bueno, pero no 100% perfecto.

Solo echa un vistazo a este video:

Sí, los prejuicios raciales y de género se muestran para que todos los vean, dada una provocación creativa (en este caso, disfrazar la intención racista/sexista como un desafío de programación y luego hacer la misma pregunta repetidamente).

Mi propia experiencia ha sido pedirle que me cuente un cuento para dormir. En respuesta, recibí una historia sobre una princesa de cabello rubio y ojos azules. Un poco de un cliché, así que lo desafié.

De hecho, esto esta muy bien. Es difícil persuadir a los LLM para que siempre digan lo correcto, pero OpenAI parece estar intentándolo. Pero el problema persiste: aunque la mayoría de las personas no experimentarán respuestas dudosas, es posible provocarlas si estás decidido.

Resolver el sesgo y mantener un LLM en línea recta y estrecha sigue siendo un trabajo en progreso. Pero encuentro que ChatGPT en general es mucho mejor que los esfuerzos anteriores. Pero aún así, la construcción de un chatbot para una empresa que usa ChatGPT tiene algunos riesgos de repetición de marca asociados, digamos.

¿Para qué sirve ChatGPT?

Una vez que superé mi entusiasmo inicial con ChatGPT, comencé a preguntarme qué uso podría tener un sistema como este. Después de todo, el conocimiento general es impresionante, pero aparte de Siri-v2, no es inmediatamente obvio cómo podría usarse.

Una computadora de conocimiento general que no está dispuesta a ofrecer una opinión sobre nada, pero está dispuesta a conversar sobre todo. Mmm…

Tal vez la película de ciencia ficción THX 1138 tenga un papel, donde los habitantes de un mundo subterráneo, cuando están estresados, se retirarían a "cabinas de confesión" e iniciarían una conversación con una computadora con cara de Jesús que decía ser "OMM". Podría hacer eso.

Lo siento, eso fue un poco frívolo. ¿Para qué más podría servir?

Charlar con un generalista es divertido, pero la mayoría de las cosas realmente útiles requieren conocimientos especializados. Si está chateando con un banco, necesita que el chatbot sepa todo sobre su cuenta, los productos del banco, las reglas de finanzas, etc., cosas de las que ChatGPT sabe poco o nada. Lo mismo es cierto en la mayoría, si no en todos, los dominios. Eso significa que para una verdadera utilidad necesitamos poder enseñar a ChatGPT sobre cosas nuevas. Y posiblemente incluso evitar que hable sobre cosas fuera de tema. Después de todo, es un poco raro si el chatbot de tu banco habla sobre el significado de la vida, ¿no es así?

¿Cómo podremos entrenar ChatGPT?

Con los LLM en general, normalmente hay dos tipos de capacitación: a lo que me referiré como capacitación "básica" y luego "ajuste fino".

OpenAI ya ha realizado la capacitación básica de ChatGPT y creo que han hecho un muy buen trabajo al respecto. Pero es casi seguro que no podremos cambiar ese entrenamiento central; hacerlo es un proceso computacionalmente costoso que probablemente consuma cientos de miles de libras de recursos informáticos. Incluso si pudiéramos, muy, muy pocos de nosotros podríamos permitirnos hacerlo.

Así que eso nos deja con el ajuste fino. Pero, ¿qué tan efectivo será esto en nuevos dominios? ¿Qué tan fácil será realizarlo? ¿Qué costará? ¿Qué herramientas proporcionará OpenAI? Solo podemos adivinar las respuestas hoy. Tengo esperanzas, pero no hay certeza acerca de cómo o si se puede capacitar a ChatGPT para que se desempeñe de manera efectiva como especialista en diferentes dominios.

El poder de una comunidad abierta

ChatGPT es excelente, pero actualmente está bloqueado detrás de una interfaz basada en web OpenAI patentada. Solo puedo imaginar lo que la gente hará con él una vez que esté abierto, con API conectables.

O, tal vez, ya podamos echar un vistazo. Inspirado por el zumbido viral, @mmabrouk_ ha creado un envoltorio de Python , seguido rápidamente por @_wheels, que construyó una interfaz basada en voz Whisper . Entonces, ya podemos chatear (es decir, hablar en voz alta) con ChatGPT.

El enfoque de OpenAI también es un poco diferente de gran parte de la industria del aprendizaje automático, donde el lanzamiento abierto de los propios modelos es común. OpenAI normalmente no publica sus modelos GPT, sino que elige alojarlos y proporcionar acceso a través de una API.

Para aquellos que disfrutan jugando con hiperparámetros y entendiendo el código subyacente, esto es un problema. Personalmente, lo veo como un enfoque diferente, con pros y contras. Modelos abiertos/código o API alojadas: ambos pueden funcionar. Pero lo importante es que se abra el acceso, porque de ahí vendrá la innovación. Los locos con ideas locas necesitan algo sobre lo que puedan construir.

¿Cómo se compara cualquier otra cosa?

He estado dando vueltas a los chatbots durante aproximadamente una década. Eso es suficiente para saber que todos quieren lo que no se puede lograr con la tecnología actual, algo que es como hablar con un robot de ciencia ficción.

El problema que plantea ChatGPT es que en realidad se acerca bastante a esa visión en muchos sentidos. Ciertamente, como herramienta para jugar con las palabras, no tiene comparación. Y es difícil no sentir vértigo cuando chateo con él, me impresiona de nuevas maneras cada vez que lo uso. ¿Pero es solo el niño pequeño que hay en mí que está saliendo? Ese mismo niño que quedó asombrado por Eliza en su Commodore 64 en los años 80. La IA tiene una larga historia de falsos amaneceres y, aunque Eliza me impresionó en ese momento, no es la base de la IA actual.

Con ChatGPT, todos hemos restablecido nuestras expectativas sobre lo que puede ser un chatbot. Los resultados de esto van a ser interesantes. Cualquiera que intente competir en el mismo "tenemos un gran terreno de IA" probablemente se enfrentará a una lucha.

¿Esto es realmente IA?

Un último punto que me gustaría terminar es cómo se compara ChatGPT con nuestros propios cerebros. Después de todo, si nos esforzamos por construir Inteligencia Artificial, no es un mal comparador.

Ian Bogost sostiene que ChatGPT es un juguete y que en realidad no entiende nada de la forma en que lo hacemos nosotros. Se queja de que solo está regurgitando palabras y no comprende lo que significan esas palabras. Inteligentemente, la primera parte de su artículo de Atlantic resulta, en sí misma, haber sido generada por ChatGPT.

Por supuesto que Ian tiene razón: cualquier persona que comprenda los LLM sabe que no "entiende". Y sin embargo… ¿cómo “ entendemos ”? ¿No son nuestros cerebros, al menos en parte, máquinas gigantescas de emparejar patrones? ¿Podría "comprender" simplemente ser una mejor combinación de patrones? Cuando “aprendemos algo”, ¿no estamos simplemente estableciendo patrones para que nuestros cerebros los igualen más adelante?

Tal vez deberíamos pensar menos en nosotros mismos como humanos y más en un animal con un cerebro más simple: un insecto, un lagarto, un ratón. La combinación de patrones parece una buena descripción de cómo se comportan estos animales. A menudo me río de mis gatos porque están tan enamorados de la rutina: sentarse en un lugar para dormir un día y, si funciona bien, se sentarán allí todos los días hasta la eternidad. Eso me parece un patrón coincidente.

Pero también parece que, con animales de orden superior como los humanos, sucede algo más. Simon Sinek es famoso por su analogía del "círculo dorado" . Compara su modelo con las estructuras del cerebro: la neocorteza que controla el pensamiento racional y el cerebro límbico que es responsable de reacciones más instintivas. Me pregunto si tal vez estamos llegando a un punto en el que tengamos cierta aproximación a un cerebro límbico con cosas como ChatGPT, pero aún no hemos aumentado eso con una neocorteza artificial, algo que aumenta la coincidencia de patrones con el pensamiento racional. O, tal vez, nuestros cerebros dependen más de la coincidencia de patrones de lo que hemos estado dispuestos a reconocer. Si ese fuera el caso, ¿quizás solo necesitamos modelos de lenguaje aún más grandes (ELLM)?