Modelos procesables de lenguaje grande

Dec 08 2022
El lanzamiento de ChatGPT (junto con otros modelos como Stability y Cohere) realmente puso a la IA en el centro de atención y ahora es seguro decir que la IA se está consumiendo. Innumerables publicaciones han formulado hipótesis sobre lo que será posible en un futuro muy cercano con estos modelos y parece que el límite superior aumenta constantemente.

El lanzamiento de ChatGPT (junto con otros modelos como Stability y Cohere ) realmente puso a la IA en el centro de atención y ahora es seguro decir que la IA se está consumiendo. Innumerables publicaciones han formulado hipótesis sobre lo que será posible en un futuro muy cercano con estos modelos y parece que el límite superior aumenta constantemente.

La IA puede generar contenido, pero ¿y si la IA pudiera generar acciones? En Balderton, vemos un futuro en el que la IA no solo genera instrucciones para un problema, sino que también lo resuelve (¡y no creemos que esté muy lejos!).

La tecnología que sustenta todos los grandes LLM como ChatGPT, T5 y RoBERTa se conoce como el transformador. Es una iteración de la red neuronal recurrente (RNN), que produjo avances en problemas de análisis secuencial , como el procesamiento del lenguaje natural y el análisis de series temporales (es decir, cualquier cosa que pueda modelarse como una secuencia). Los LLM han demostrado cómo los transformadores han nivelado la PNL y ahora hay evidencia que muestra que los transformadores son igual de efectivos en otros problemas de series temporales, como el comercio . También hemos visto ejemplos de transformadores que se utilizan más allá de los problemas de análisis secuencial , como la visión por computadora .Mediante el uso de técnicas inteligentes para convertir la imagen en una secuencia, el documento se llama acertadamente "Una imagen vale 16x16 palabras" y da como resultado un rendimiento SOTA con recursos computacionales sustancialmente más bajos.

Arquitectura de Vision Transformers: conversión de imágenes en secuencias

Esta publicación explora un caso de uso de transformadores y LLM que nos entusiasma especialmente.

LLM procesables

Está claro que los transformadores y otros avances en IA son excelentes para generar contenido (como texto , código , imágenes y videos ), pero ¿qué pasaría si la IA pudiera generar decisiones y tomar medidas, en función de algunas indicaciones simples en lenguaje sencillo?

La IA ha aparecido anteriormente en los titulares por ser muy buena en la toma de decisiones (principalmente por cortesía de DeepMind ) y convertirse en campeona mundial en juegos complejos como Go. La tecnología que sustenta estos avances se conoce como aprendizaje reforzado (RL), que es un marco para crear agentes de toma de decisiones y aprender un comportamiento óptimo al interactuar con el entorno a través de prueba y error y recibir recompensas como retroalimentación única. RL condujo a grandes avances en una amplia gama de casos de uso basados ​​en decisiones de la vida real, como la automatización industrial, la atención médica, el marketing y los automóviles autónomos.

Marco de aprendizaje por refuerzo

Decision Transformers fue presentado por Facebook AI Research y Google Brain el año pasado mediante la aplicación de transformadores a un marco RL. De la misma manera que "Una imagen vale 16x16 palabras" abstrajo una imagen en una secuencia, Decision Transformers abstrae RL en un problema de modelado de secuencias. Una excelente publicación del blog Hugging Face explora esto, si desea profundizar más, aquí .

ChatGPT nos ha demostrado que la próxima era de la informática estará definida por interfaces de lenguaje natural, que nos permiten decirle a las computadoras lo que queremos directamente. La verdadera belleza es que pueden interpretar la intención . Adept está llevando esto al siguiente nivel al desarrollar Action Transformer (ACT-1), que es un modelo para actuar dentro del espacio de acción de los elementos de la interfaz de usuario en una página web, es decir, puede decirle al modelo que haga cualquier cosa dentro de un navegador o aplicación empresarial. Si aún no está emocionado con solo leer esto, vale la pena ver algunas demostraciones aquí para apreciar realmente lo que esto podría significar.

Captura de pantalla de ACT-1 en el trabajo

Adept opta por el enfoque OpenAI y construye un modelo de base amplio con un "espacio de acción" increíblemente grande: esto define los límites dentro de los cuales se supone que se deben realizar las acciones. Si bien el concepto de Decision Transformers es genial, no son triviales de construir y aún no está claro cómo se utilizarán. Sin embargo, ahora existe una oportunidad inmediata de aprovechar los LLM para desarrollar la lógica y actuar dentro de espacios de acción verticalizados, al mismo tiempo que se enfoca en una gran UX .

Ya hay señales de que esto sucederá; por ejemplo, Glyphic está creando un producto para realizar acciones dentro del espacio de acción de las ventas B2B, ShiftLab está creando un producto para realizar acciones dentro del espacio de acción del comercio electrónico y Harvey está creando para el espacio de acción . de un abogado

Vale la pena señalar que hay muchos espacios de acción que no se perciben ampliamente como espacios de acción, por ejemplo, Jasper.ai tomó el espacio de acción de un anuncio en blanco y Copilot tomó el espacio de acción de VSCode. Cualquier herramienta sin código es esencialmente un espacio de acción , por lo que es solo cuestión de tiempo antes de que todas estas herramientas comiencen a crear funciones de IA para que los usuarios interactúen con sus plataformas a través del lenguaje natural: Glide , Fillout y Qatalog ya están explorando esto.

Es probable que haya casos de uso de IA en el espacio de acción final, el mundo físico, y ya estamos viendo avances en robótica a través del aprendizaje no supervisado.

Conclusiones

Creemos que los modelos más útiles serán "modelos que actúan" en lugar de solo generar y nos estamos moviendo hacia un mundo de versiones específicas de dominio de Copilot para alcanzar nuevos niveles de productividad.

En los últimos 12 meses, hemos respaldado a muchas empresas nativas de IA, como Levity y Photoroom. Si está construyendo en el espacio, nos encantaría hablar con usted, no dude en comunicarse con [email protected]