Por qué UX es el campo de batalla para el futuro de la IA

Nov 25 2022
Para aquellos nuevos en este espacio, estamos experimentando uno de los mayores cambios tecnológicos desde la computación en la nube. No dedicaré demasiado tiempo a este cambio, ya que se están publicando muchos resúmenes y mapas de mercado excelentes, pero aquí hay una diapositiva que hice para resumir lo que ha estado sucediendo.

Para aquellos nuevos en este espacio, estamos experimentando uno de los mayores cambios tecnológicos desde la computación en la nube. No dedicaré demasiado tiempo a este cambio, ya que se están publicando muchos resúmenes y mapas de mercado excelentes, pero aquí hay una diapositiva que hice para resumir lo que ha estado sucediendo.

Una pregunta que surge a menudo al explorar la reciente explosión cámbrica de las aplicaciones impulsadas por IA es la defensa . Esto se debe a que los inversores y fundadores son muy conscientes de que los modelos de IA se están mercantilizando, por lo que el valor de la red neuronal en una aplicación de IA está disminuyendo rápidamente.

Estos modelos han sido lanzados al aire libre por compañías como OpenAI y Stability.ai . Si aún no ha jugado con GPT-3 (un modelo alojado por OpenAI), le recomiendo que lo haga, para que pueda apreciar el poder casi mágico de los modelos listos para usar. Vale la pena señalar que incluso si quisiera construir sus propios modelos, ahora se está volviendo cada vez más difícil, ya que la investigación de IA se está convirtiendo en una función de la solidez del balance.

La PNL ha avanzado mucho en la última década: las redes LSTM aumentaron enormemente el rendimiento de las RNN, debido a su capacidad para recordar u olvidar selectivamente diferentes partes de una secuencia. Los transformadores y el "mecanismo de atención" (junto con las leyes de escala) produjeron un cambio radical en lo que era posible cuando estos modelos comenzaron a comprender realmente el lenguaje. Ahora, los modelos de difusión están remodelando la forma en que podemos generar contenido de todas las formas. Solía ​​ser el caso que los avances en el aprendizaje profundo se usaran para construir una ventaja competitiva, sin embargo, ha habido un cambio cultural y tecnológico ( Hugging Face tuvo un papel importante) en la puesta a disposición de estos modelos pre-entrenados. Los desarrolladores ahora pueden integrar IA de última generación en sus productos con unas pocas líneas de código.

Pero, ¿cómo construye una ventaja competitiva cuando todos usan los mismos modelos?

Sea dueño de la experiencia de usuario

Apenas estamos comenzando a comprender los poderes ocultos dentro del espacio latente de estos grandes modelos. Cuanto más contexto pueda proporcionar a estos modelos, mejor se vuelven y pueden volverse muy buenos rápidamente en tareas que anteriormente requerían una gran cantidad de ingeniería robusta. Una pregunta que se debe hacer es: “ ¿Será para siempre la única interfaz para estos poderosos modelos un simple cuadro de texto estático? ”.

La mayoría de los consumidores no son muy conscientes de la IA, por lo que simplemente ponerlos frente a un modelo rara vez los ayudará a resolver su problema. El diseño de UX es un gran ( y tal vez incluso el mayor ) problema en los productos de IA en la actualidad.

Debe haber un enfoque en flujos de trabajo integrales para ayudar a recopilar el contexto requerido de los usuarios para obtener indicaciones óptimas. También debe haber flujos de trabajo intuitivos para recopilar datos de retroalimentación para el ajuste fino de los modelos para construir aún más un foso.

Hay una gran brecha entre el momento “wow” de un modelo generativo y lograr que alguien se convierta en un usuario que paga; la mayor parte de esta brecha se llena con una gran experiencia de usuario. Jasper.ai es un gran ejemplo de una empresa que ha ejecutado esto y ahora se rumorea que se acerca a los $ 80 millones ARR, ya que se lanzó el año pasado.

Aproveche la ingeniería rápida

Ahora hay un lienzo en blanco al observar cómo interactuamos con la IA, lo que ha llevado a un cambio de enfoque hacia la ingeniería rápida en lugar de los modelos estadísticos. En términos generales, esto significa diseñar su entrada a un modelo, optimizando la facilidad, la precisión y el costo . Algunos ejemplos son:

  • Zero-Shot : un mensaje de lenguaje natural como si le estuvieras pidiendo a un niño pequeño (que ha leído la mayor parte de Wikipedia) que haga algo, por ejemplo, la entrada sería "descripción de la tarea": ​​{texto objetivo}. Esta es claramente la forma más sencilla de interactuar con la IA.
  • Pocas tomas : agregar algunos ejemplos y algo de contexto en el resultado esperado (ver imagen a continuación). Esto requiere más "ingeniería", pero puede tener una gran mejora en la precisión . Sin embargo, la adición de contexto en cada mensaje significa que puede costar mucho más (más sobre esto a continuación).
  • Ajuste fino: tomar muchos (cientos o miles) ejemplos y volver a entrenar un modelo previamente entrenado para cambiar los parámetros de modo que ya no necesite incluir ejemplos en cada solicitud. Este proceso puede ser muy costoso y puede costar millones de dólares, pero una vez que se hace, se hace.
Fuente: OpenAI: los modelos de lenguaje son aprendices de pocas oportunidades

Centrarse en el caso de uso

AI se está convirtiendo en una plataforma, similar a Cloud o Mobile. Hay muchas empresas que se enfocan en construir esa plataforma y no hay duda de que obtendrán una gran cantidad de valor, como lo demuestra la valoración de $ 20 mil millones de OpenAI. Sin embargo, hay una razón por la que AWS no se centra en la creación de soluciones SaaS verticales: es extremadamente difícil centrarse tanto en la creación de una plataforma como en la creación de casos de uso en esa plataforma, como lo demuestran las aplicaciones mediocres de Apple. Creemos que hay una gran cantidad de valor que desbloquear al centrarse en aplicaciones y casos de uso específicos de IA, de forma similar a cómo el modelo de negocio de Uber fue desbloqueado por los dispositivos móviles.

Sin embargo, este caso de negocios debe tomarse con pinzas. Hay muchos casos de uso de IA que se encuentran en gran medida dentro del cubo de "características", en lugar de un producto completo. PhotoRoom , con el que nos asociamos recientemente, fue una de las primeras empresas en aprovechar Stable Diffusion para crear una función de IA muy práctica y ahora ha acelerado su crecimiento. Muchas corporaciones más grandes, como Notion y Microsoft , ahora están aprovechando modelos listos para usar para mejorar sus productos, lo que demuestra aún más que la estrategia de poseer la interfaz de usuario y la ingeniería rápida en lugar de construir sus propios modelos parece estar ganando.

También debo advertir que, en algunas circunstancias, puede tener sentido poseer el modelo y construir la IA desde cero. Un área particularmente emocionante es Decision Transformers y el aprovechamiento de la innovadora arquitectura del modelo para generar acciones en lugar de solo contenido. Adept.ai es una empresa increíble que hace precisamente esto. Voy a explorar esto más a fondo en otra publicación...

Comprender la economía de modelos

OpenAI cobra $0,02 por cada 1000 tokens (aproximadamente 750 palabras) y se redujo de $0,06 este verano. Cuando se utiliza el aprendizaje de pocos disparos, hasta el 90 % de la indicación puede ser de "contexto", lo que significa que los costos pueden ser aproximadamente 10 veces mayores que los de cero disparos. Las empresas inteligentes pueden generar ventajas optimizando la proporción de "contexto" frente a "texto de destino" y haciendo cosas inteligentes, como eliminar cualquier palabra del "texto de destino" que no afecte el resultado.

Está claro que las empresas basadas en modelos de terceros tienen un riesgo potencial de fijación de precios de la misma manera que las empresas basadas en la nube corren un riesgo de fijación de precios para los proveedores de la nube. Creemos que la IA encontrará el mismo equilibrio que tiene la Nube, en el sentido de que el valor generado justifica pagar por la agilidad y potencia que brindan empresas de terceros como OpenAI. Muchas empresas de inteligencia artificial en etapa inicial que hemos conocido pueden operar con un margen bruto del 70% al 80% y creemos que esto aumentará a medida que puedan aumentar su propuesta de valor en el futuro.

Además, vale la pena señalar que la mayoría de la computación en la nube ya es para casos de uso de aprendizaje profundo. Esto indica que el estado estable de los precios de las plataformas de IA puede estar en la misma región que la computación en la nube hoy en día, con lo que la mayoría de las empresas parecen estar de acuerdo.

Existe una probabilidad realista de que la potencia de cómputo se ponga al día con la expansión del modelo para que los modelos de vanguardia (o al menos casi de última generación) puedan ejecutarse en el dispositivo; esto significaría que el costo marginal de la IA tiende a cero. Stability.ai ya puede ejecutar algunos de sus modelos en el dispositivo , lo que eventualmente podría reducir el costo marginal a cero para algunas tareas. También hay un número cada vez mayor de plataformas de IA ( Cohere , AI21 , etc.), muchas de las cuales eligen abrir sus modelos de código abierto. También vale la pena mencionar que existen algunas formas inteligentes de minimizar los costos , como la destilación modelo.

Esto limita su poder general de fijación de precios y es posible que tengan que idear modelos comerciales más creativos, además de las llamadas API, para monetizar su investigación.

Conclusión

Si el mercado es lo suficientemente grande, creemos que existe un gran potencial para la interrupción de la puesta en marcha mediante la creación de aplicaciones desde cero, con modelos listos para usar en su núcleo. Por ejemplo, Gong y Otter son dos grandes empresas que han creado productos sobre modelos de transcripción patentados.

Ahora que los modelos de transcripción de vanguardia están a la vista y el costo de la IA tiende a cero, es un campo de juego nivelado. Esto ha abierto una gran oportunidad para que las empresas emergentes capturen valor en el mercado de productividad masiva al poseer la capa de UX e ingeniería rápida. Si es un fundador que aprovecha la IA, nos encantaría hablar con usted; no dude en comunicarse conmigo en [email protected]

¿Qué es una publicación de blog de IA sin una imagen generada por IA solicitada por el título (DALL.E 2)?