Por que UX é o campo de batalha para o futuro da IA
Para os novos neste espaço, estamos passando por uma das maiores mudanças tecnológicas desde a computação em nuvem. Não vou gastar muito tempo com essa mudança, pois há muitos resumos e mapas de mercado excelentes sendo publicados, mas aqui está um slide que fiz para resumir o que está acontecendo.
Uma questão que sempre surge ao explorar a recente explosão cambriana de aplicativos baseados em IA é a defensibilidade . Isso ocorre porque os investidores e fundadores estão muito cientes de que os modelos de IA estão se tornando comoditizados, de modo que o valor da rede neural em um aplicativo de IA está diminuindo rapidamente.
Esses modelos foram lançados abertamente por empresas como OpenAI e Stability.ai . Se você ainda não brincou com o GPT-3 (um modelo hospedado pela OpenAI), recomendo fortemente que o faça, para que possa apreciar o poder quase mágico dos modelos de prateleira. Vale a pena notar que, mesmo que você queira construir seus próprios modelos, agora está se tornando cada vez mais difícil, pois a pesquisa de IA está se tornando uma função da solidez do balanço.
A NLP avançou muito na última década - as redes LSTM aumentaram muito o desempenho das RNNs, devido à sua capacidade de lembrar ou esquecer seletivamente diferentes partes de uma sequência. Os transformadores e o “mecanismo de atenção” (ao lado das leis de escala) produziram uma mudança radical no que era possível, pois esses modelos começaram a realmente entender a linguagem. Agora, os Modelos de Difusão estão remodelando a forma como podemos gerar conteúdo de todas as formas. Costumava ser o caso de inovações em aprendizado profundo serem usadas para construir vantagem competitiva, no entanto, houve uma mudança cultural e tecnológica (o Hugging Face teve um grande papel a desempenhar) ao colocar esses modelos pré-treinados em aberto. Os desenvolvedores agora podem incorporar IA de última geração em seus produtos com algumas linhas de código.
Mas como construir uma vantagem competitiva quando todos usam os mesmos modelos?
Possua o UX
Estamos apenas começando a entender os poderes ocultos no espaço latente desses grandes modelos. Quanto mais contexto você puder fornecer a esses modelos, melhor eles ficarão e poderão rapidamente se tornar muito bons em tarefas que anteriormente exigiam uma enorme quantidade de engenharia robusta. Uma pergunta a ser feita é “ A única interface para esses modelos poderosos será para sempre uma caixa de texto simples e estática? ”.
A maioria dos consumidores não tem conhecimento de IA, portanto, apenas colocá-los na frente de um modelo raramente os ajudará a resolver o problema. O design UX é um grande ( e talvez até o maior ) problema nos produtos de IA hoje.
Deve haver um foco em fluxos de trabalho abrangentes para ajudar a reunir o contexto necessário dos usuários para prompts ideais. Também deve haver fluxos de trabalho intuitivos para coletar dados de feedback para ajuste fino de modelos para construir ainda mais um fosso.
Há uma grande lacuna entre o momento “uau” de um modelo generativo e conseguir que alguém se torne um usuário pagante — a maior parte dessa lacuna é preenchida com um ótimo UX. A Jasper.ai é um ótimo exemplo de empresa que executou isso e agora está se aproximando de $ 80 milhões ARR, tendo sido lançada apenas no ano passado.
Aproveitar a engenharia imediata
Agora há uma tela em branco ao observar como interagimos com a IA, o que levou a uma mudança de foco para a Engenharia de Prompt em vez de modelos estatísticos. Isso significa projetar sua entrada para um modelo, otimizando para facilidade, precisão e custo . Alguns exemplos são:
- Zero-Shot — um prompt de linguagem natural como se você estivesse pedindo a uma criança (que leu quase toda a Wikipedia) para fazer algo, por exemplo, a entrada seria “descrição da tarefa”:{target text}. Esta é claramente a maneira mais simples de interagir com a IA.
- Few-Shot — adicionando alguns exemplos e algum contexto sobre a saída esperada (veja a imagem abaixo). Isso requer mais “engenharia”, mas pode ter uma grande melhoria na precisão . No entanto, a adição de contexto em cada prompt significa que pode custar muito mais (mais sobre isso abaixo).
- Ajuste fino — pegar muitos (centenas ou milhares) exemplos e treinar novamente um modelo pré-treinado para alterar os parâmetros de forma que você não precise mais incluir exemplos em cada prompt. Este processo pode ser muito caro e pode custar $ milhões, mas uma vez feito, está feito.
Foco no caso de uso
AI está se tornando uma plataforma, semelhante à nuvem ou móvel. Existem muitas empresas focadas na construção dessa plataforma e não há dúvida de que elas capturarão uma grande quantidade de valor, evidenciado pela avaliação de US$ 20 bilhões da OpenAI. No entanto, há uma razão pela qual a AWS não se concentra na criação de soluções SaaS verticais - é extremamente difícil se concentrar na criação de uma plataforma e na criação de casos de uso nessa plataforma, evidenciado ainda mais pelos aplicativos medíocres da Apple. Acreditamos que há muito valor a ser desbloqueado ao focar em casos de uso e aplicativos específicos de IA, semelhante a como o modelo de negócios do Uber foi desbloqueado pelo celular.
No entanto, este caso de negócios deve ser visto com uma pitada de sal. Existem muitos casos de uso de IA que ficam dentro do balde de “recursos”, em vez de um produto completo. A PhotoRoom , com a qual fizemos parceria recentemente, foi uma das primeiras empresas a alavancar a Stable Diffusion na construção de um recurso de IA muito prático e agora acelerou o crescimento. Muitas corporações maiores, como a Notion e a Microsoft , estão agora alavancando modelos de prateleira para aprimorar seus produtos, evidenciando ainda mais que a estratégia de possuir UI e engenharia imediata, em vez de construir seus próprios modelos, parece estar ganhando.
Também devo alertar que, em algumas circunstâncias, pode fazer sentido possuir o modelo e construir a IA desde o início. Uma área particularmente empolgante está nos Transformadores de Decisão e no aproveitamento da arquitetura do modelo inovador para gerar ações em vez de apenas conteúdo. Adept.ai é uma empresa incrível fazendo exatamente isso. Vou explorar isso melhor em outro post…
Entender Model-nomics
A OpenAI cobra US$ 0,02 por 1.000 tokens (aproximadamente 750 palavras) e caiu de US$ 0,06 neste verão. Ao usar o aprendizado de poucos tiros, até 90% do prompt pode ser "contexto", o que significa que os custos podem ser aproximadamente 10 vezes maiores que os do tiro zero. Empresas inteligentes podem obter vantagens otimizando a relação “contexto” versus “texto de destino” e fazendo coisas inteligentes, como remover quaisquer palavras do “texto de destino” que não afetem a saída.
Está claro que as empresas construídas em modelos de terceiros correm risco de precificação da mesma forma que as empresas criadas na nuvem correm risco de precificação para provedores de nuvem. Acreditamos que a IA encontrará o mesmo equilíbrio que a Cloud tem, pois o valor gerado justifica pagar pela agilidade e poder fornecidos por empresas terceirizadas como a OpenAI. Muitas empresas de IA em estágio inicial que conhecemos são capazes de operar com uma margem bruta de 70 a 80% e acreditamos que isso aumentará à medida que forem capazes de aumentar sua proposta de valor daqui para frente.
Além disso, vale a pena notar que a maioria da computação em nuvem já é para casos de uso de aprendizado profundo. Isso sinaliza que o estado estável de preços para plataformas de IA pode estar na mesma região que a computação em nuvem está hoje, com a qual a maioria das empresas parece bem.
Há uma probabilidade realista de o poder de computação alcançar a expansão do modelo, de modo que os modelos de última geração (ou pelo menos próximos do estado da arte) possam ser executados no dispositivo - isso significaria que o custo marginal da IA tende a zero. O Stability.ai já é capaz de executar alguns de seus modelos no dispositivo , o que pode eventualmente reduzir o custo marginal a zero para algumas tarefas. Há também um número crescente de plataformas de IA ( Cohere , AI21 etc…), muitas das quais estão optando por abrir seus modelos de código aberto. Também vale a pena mencionar que existem algumas maneiras inteligentes de minimizar os custos , como a destilação do modelo.
Isso limita seu poder geral de precificação e eles podem ter que criar modelos de negócios mais criativos, além de chamadas de API, para monetizar suas pesquisas.
Conclusão
Se o mercado for grande o suficiente, acreditamos que há um enorme potencial para disrupção de startups ao criar aplicativos do zero, com modelos prontos para uso em seu núcleo. Por exemplo, Gong e Otter são duas grandes empresas que criaram produtos com base em modelos de transcrição proprietários.
Agora que os modelos de transcrição de última geração estão disponíveis e o custo da IA está tendendo a zero, é um campo de jogo nivelado. Isso abriu uma grande oportunidade para as start-ups capturarem valor no mercado de produtividade massiva, possuindo a camada UX e Prompt Engineering. Se você é um fundador que utiliza IA, adoraríamos falar com você - sinta-se à vontade para entrar em contato comigo em [email protected]
