Pourquoi l'UX est le champ de bataille de l'avenir de l'IA

Nov 25 2022
Pour ceux qui découvrent cet espace, nous subissons l'un des plus grands changements technologiques depuis le cloud computing. Je ne passerai pas trop de temps sur ce changement car de nombreux résumés et cartes du marché sont publiés, mais voici une diapositive que j'ai faite pour résumer ce qui s'est passé.

Pour ceux qui découvrent cet espace, nous subissons l'un des plus grands changements technologiques depuis le cloud computing. Je ne passerai pas trop de temps sur ce changement car de nombreux résumés et cartes du marché sont publiés, mais voici une diapositive que j'ai faite pour résumer ce qui s'est passé.

Une question qui revient souvent lors de l'exploration de la récente explosion cambrienne des applications alimentées par l'IA est la défensibilité . En effet, les investisseurs et les fondateurs sont très conscients que les modèles d'IA deviennent banalisés, de sorte que la valeur du réseau de neurones dans une application d'IA diminue rapidement.

Ces modèles ont été rendus publics par des sociétés telles que OpenAI et Stability.ai . Si vous n'avez pas encore joué avec GPT-3 (un modèle hébergé par OpenAI), je vous conseille fortement de le faire, afin que vous puissiez apprécier la puissance presque magique des modèles prêts à l'emploi. Il convient de noter que même si vous vouliez créer vos propres modèles, cela devient de plus en plus difficile, car la recherche sur l'IA devient une fonction de la solidité du bilan.

Le NLP a beaucoup progressé au cours de la dernière décennie - les réseaux LSTM ont considérablement augmenté les performances des RNN, en raison de leur capacité à mémoriser ou à oublier de manière sélective différentes parties d'une séquence. Les transformateurs et le « mécanisme de l'attention » (aux côtés des lois d'échelle) ont alors produit un changement radical dans ce qui était possible lorsque ces modèles ont commencé à vraiment comprendre le langage. Maintenant, les modèles de diffusion remodèlent la façon dont nous pouvons générer du contenu de toutes les formes. Auparavant, les percées dans l'apprentissage en profondeur étaient utilisées pour créer un avantage concurrentiel, mais il y a eu un changement culturel et technologique ( Hugging Face a eu un grand rôle à jouer) dans la mise en place de ces modèles pré-formés. Les développeurs peuvent désormais intégrer une IA de pointe dans leurs produits avec quelques lignes de code.

Mais comment construire un avantage concurrentiel quand tout le monde utilise les mêmes modèles ?

Posséder l'UX

Nous commençons à peine à comprendre les pouvoirs cachés dans l'espace latent de ces grands modèles. Plus vous pouvez fournir de contexte à ces modèles, mieux ils s'améliorent et ils peuvent rapidement devenir très bons pour des tâches qui nécessitaient auparavant une énorme quantité d'ingénierie robuste. Une question à se poser est la suivante : « La seule interface avec ces puissants modèles sera-t-elle à jamais une simple zone de texte statique ? ”.

La plupart des consommateurs ne sont pas très conscients de l'IA, donc le simple fait de les mettre devant un modèle les aidera très rarement à résoudre leur problème. La conception UX est un gros problème ( et peut-être même le plus gros ) dans les produits d'IA aujourd'hui.

L'accent doit être mis sur des flux de travail complets pour aider à recueillir le contexte requis auprès des utilisateurs pour des invites optimales. Il doit également y avoir des flux de travail intuitifs pour recueillir des données de rétroaction pour affiner les modèles afin de construire davantage un fossé.

Il y a un grand écart entre le moment "wow" d'un modèle génératif et amener quelqu'un à devenir un utilisateur payant - la majorité de cet écart est comblée par une excellente UX. Jasper.ai est un excellent exemple d'une entreprise qui a exécuté cela et dont on dit maintenant qu'elle approche les 80 millions de dollars ARR, n'ayant été lancée que l'année dernière.

Tirez parti de l'ingénierie rapide

Il y a maintenant une toile vierge lorsque nous examinons comment nous interagissons avec l'IA, ce qui a conduit à un changement d'orientation vers l'ingénierie rapide plutôt que vers les modèles statistiques. Cela signifie globalement concevoir votre entrée dans un modèle, en optimisant la facilité, la précision et le coût . Voici quelques exemples :

  • Zero-Shot - une invite en langage naturel comme si vous demandiez à un tout-petit (qui a lu la majeure partie de Wikipédia) de faire quelque chose, par exemple l'entrée serait "description de la tâche": {texte cible}. C'est clairement la manière la plus simple d'interagir avec l'IA.
  • Few-Shot - en ajoutant quelques exemples et un peu de contexte sur la sortie attendue (voir l'image ci-dessous). Cela nécessite plus d'"ingénierie" mais peut avoir une grande amélioration de la précision . Cependant, l'ajout de contexte dans chaque invite signifie que cela peut coûter beaucoup plus cher (plus à ce sujet ci-dessous).
  • Réglage fin - en prenant de nombreux exemples (des centaines ou des milliers) et en réentraînant un modèle pré-entraîné pour modifier les paramètres de sorte que vous n'ayez plus besoin d'inclure des exemples dans chaque invite. Ce processus peut être très coûteux et peut coûter des millions de dollars, mais une fois que c'est fait, c'est fait.
Source : OpenAI — Les modèles linguistiques sont des apprenants peu nombreux

Focus sur le cas d'utilisation

L'IA devient une plateforme, similaire au Cloud ou au Mobile. De nombreuses entreprises se concentrent sur la construction de cette plate-forme et il ne fait aucun doute qu'elles capteront une énorme valeur, comme en témoigne la valorisation de 20 milliards de dollars d'OpenAI. Cependant, il y a une raison pour laquelle AWS ne se concentre pas sur la création de solutions SaaS verticales - il est extrêmement difficile de se concentrer à la fois sur la création d'une plate-forme et sur la création de cas d'utilisation sur cette plate-forme, comme en témoignent les applications médiocres d'Apple. Nous pensons qu'il y a une énorme valeur à débloquer en se concentrant sur des cas d'utilisation et des applications spécifiques de l'IA, de la même manière que le modèle commercial d'Uber a été débloqué par le mobile.

Cependant, cette analyse de rentabilisation doit être prise avec des pincettes. Il existe de nombreux cas d'utilisation de l'IA qui se situent dans la catégorie des "fonctionnalités", plutôt que dans un produit complet. PhotoRoom , avec laquelle nous nous sommes récemment associés, a été l'une des premières entreprises à tirer parti de Stable Diffusion pour créer une fonctionnalité d'IA très pratique et a maintenant accéléré sa croissance. De nombreuses grandes entreprises, telles que Notion et Microsoft , exploitent désormais des modèles prêts à l'emploi pour améliorer leurs produits, ce qui prouve encore plus que la stratégie consistant à posséder une interface utilisateur et une ingénierie rapide plutôt que de créer vos propres modèles semble être gagnante.

Je dois également mettre en garde que dans certaines circonstances, il peut être judicieux de posséder le modèle et de créer une IA à partir de zéro. Un domaine particulièrement passionnant concerne les transformateurs de décision et l'utilisation de l'architecture de modèle révolutionnaire pour générer des actions plutôt que du contenu. Adept.ai est une entreprise formidable qui fait exactement cela. J'approfondirai cela dans un autre post…

Comprendre la Model-nomics

OpenAI facture 0,02 $ pour 1 000 jetons (environ 750 mots) et cela est passé de 0,06 $ cet été. Lors de l'utilisation de l'apprentissage en quelques prises de vue, jusqu'à 90 % de l'invite peut être "contextuelle", ce qui signifie que les coûts peuvent être d'environ 10 fois supérieurs à ceux d'une prise de vue nulle. Les entreprises intelligentes peuvent créer un avantage en optimisant le rapport « contexte » par rapport au « texte cible » et en faisant des choses intelligentes telles que la suppression de tous les mots du « texte cible » qui n'affectent pas la sortie.

Il est clair que les entreprises construites sur des modèles tiers sont potentiellement exposées à un risque de tarification de la même manière que les entreprises construites sur le Cloud sont exposées à un risque de tarification pour les fournisseurs de cloud. Nous pensons que l'IA trouvera le même équilibre que le Cloud, dans la mesure où la valeur générée justifie de payer pour l'agilité et la puissance fournies par des sociétés tierces telles que OpenAI. De nombreuses entreprises d'IA en démarrage que nous avons rencontrées sont capables de fonctionner avec une marge brute de 70 à 80 % et nous pensons que cela augmentera à mesure qu'elles seront en mesure d'augmenter leur proposition de valeur à l'avenir.

De plus, il convient de noter que la majorité du cloud computing est déjà destinée à des cas d'utilisation d'apprentissage en profondeur. Cela indique que l'état stable des prix des plates-formes d'IA peut se situer dans la même région que le cloud computing aujourd'hui, ce que la plupart des entreprises semblent accepter.

Il existe une probabilité réaliste que la puissance de calcul rattrape l'expansion du modèle afin que des modèles de pointe (ou du moins proches de l'état de la technique) puissent être exécutés sur l'appareil - cela signifierait que le coût marginal de l'IA tend vers zéro. Stability.ai est déjà capable d' exécuter certains de ses modèles sur l'appareil , ce qui pourrait éventuellement ramener le coût marginal à zéro pour certaines tâches. Il existe également un nombre croissant de plateformes d'IA ( Cohere , AI21 etc…), dont beaucoup choisissent d'ouvrir leurs modèles. Il convient également de mentionner qu'il existe des moyens astucieux de minimiser les coûts , tels que la distillation modèle.

Cela limite leur pouvoir de tarification global et ils devront peut-être proposer des modèles commerciaux plus créatifs, en plus des appels d'API, afin de monétiser leurs recherches.

Conclusion

Si le marché est suffisamment grand, nous pensons qu'il existe un énorme potentiel de perturbation des démarrages en créant des applications à partir de zéro, avec des modèles prêts à l'emploi en leur cœur. Par exemple, Gong et Otter sont deux grandes entreprises qui ont construit des produits sur des modèles de transcription propriétaires.

Maintenant que les modèles de transcription de pointe sont disponibles et que le coût de l'IA tend vers zéro, les règles du jeu sont équitables. Cela a ouvert une énorme opportunité pour les start-ups de capturer de la valeur sur le marché de la productivité massive en possédant la couche UX et Prompt Engineering. Si vous êtes un fondateur tirant parti de l'IA, nous serions ravis de vous parler - n'hésitez pas à me contacter à [email protected]

Qu'est-ce qu'un article de blog sur l'IA sans une image générée par l'IA invitée par le titre (DALL.E 2)