Perché UX è il campo di battaglia per il futuro dell'AI

Nov 25 2022
Per chi è nuovo in questo spazio, stiamo subendo uno dei più grandi cambiamenti tecnologici dai tempi del cloud computing. Non dedicherò troppo tempo a questo cambiamento poiché vengono pubblicati molti ottimi riepiloghi e mappe di mercato, ma ecco una diapositiva che ho fatto per riassumere cosa sta succedendo.

Per chi è nuovo in questo spazio, stiamo subendo uno dei più grandi cambiamenti tecnologici dai tempi del cloud computing. Non dedicherò troppo tempo a questo cambiamento poiché vengono pubblicati molti ottimi riepiloghi e mappe di mercato , ma ecco una diapositiva che ho fatto per riassumere cosa sta succedendo.

Una domanda che si pone spesso quando si esplora la recente esplosione cambriana di applicazioni basate sull'intelligenza artificiale è la difendibilità . Questo perché investitori e fondatori sono molto consapevoli del fatto che i modelli di intelligenza artificiale stanno diventando mercificati, quindi il valore della rete neurale in un'applicazione di intelligenza artificiale sta rapidamente diminuendo.

Questi modelli sono stati rilasciati allo scoperto da aziende come OpenAI e Stability.ai . Se non hai ancora giocato con GPT-3 (un modello ospitato da OpenAI), ti consiglio vivamente di farlo, così puoi apprezzare il potere quasi magico dei modelli standard. Vale la pena notare che anche se volessi costruire i tuoi modelli ora sta diventando sempre più difficile, poiché la ricerca sull'IA sta diventando una funzione della forza del bilancio.

La PNL è progredita molto nell'ultimo decennio: le reti LSTM hanno notevolmente aumentato le prestazioni degli RNN, grazie alla loro capacità di ricordare o dimenticare selettivamente diverse parti di una sequenza. I trasformatori e il "meccanismo di attenzione" (insieme alle leggi di ridimensionamento) hanno quindi prodotto un cambiamento radicale in ciò che era possibile quando questi modelli hanno iniziato a comprendere veramente il linguaggio. Ora, i modelli di diffusione stanno rimodellando il modo in cui possiamo generare contenuti di tutte le forme. In passato le scoperte nel deep learning venivano utilizzate per creare un vantaggio competitivo, tuttavia, c'è stato un cambiamento culturale e tecnologico ( Hugging Face ha avuto un ruolo importante da svolgere) nel mettere allo scoperto questi modelli pre-addestrati. Gli sviluppatori possono ora incorporare l'intelligenza artificiale all'avanguardia nei loro prodotti con poche righe di codice.

Ma come si crea un vantaggio competitivo quando tutti utilizzano gli stessi modelli?

Possiedi la UX

Stiamo appena iniziando a capire i poteri nascosti nello spazio latente di questi grandi modelli. Maggiore è il contesto che puoi fornire a questi modelli, migliori saranno e potranno diventare rapidamente molto bravi in ​​attività che in precedenza richiedevano un'enorme quantità di ingegneria robusta. Una domanda da porsi è “ L'unica interfaccia per questi potenti modelli sarà per sempre una semplice casella di testo statica? ”.

La maggior parte dei consumatori non è molto consapevole dell'IA, quindi solo metterli di fronte a un modello li aiuterà molto raramente a risolvere il loro problema. Il design UX è un grosso ( e forse anche il più grande ) problema nei prodotti AI oggi.

È necessario concentrarsi su flussi di lavoro completi per aiutare a raccogliere il contesto richiesto dagli utenti per ottenere prompt ottimali. Devono esserci anche flussi di lavoro intuitivi per la raccolta di dati di feedback per la messa a punto dei modelli per costruire ulteriormente un fossato.

C'è un grande divario tra il momento "wow" di un modello generativo e convincere qualcuno a diventare un utente pagante: la maggior parte di questo divario è colmato da una grande UX. Jasper.ai è un ottimo esempio di un'azienda che ha eseguito questo e ora si dice che si avvicini a $ 80 milioni ARR, avendo lanciato solo l'anno scorso.

Sfrutta l'ingegneria rapida

Ora c'è una tela bianca quando si guarda a come interagiamo con l'IA, il che ha portato a uno spostamento dell'attenzione verso l'ingegneria del prompt piuttosto che sui modelli statistici. Ciò significa in generale ingegnerizzare il tuo input su un modello, ottimizzandolo per facilità, precisione e costi . Alcuni esempi sono:

  • Zero-Shot : un prompt in linguaggio naturale come se stessi chiedendo a un bambino (che ha letto la maggior parte dell'intera Wikipedia) di fare qualcosa, ad esempio l'input sarebbe "descrizione dell'attività": {testo di destinazione}. Questo è chiaramente il modo più semplice per interagire con l'IA.
  • Few-Shot — aggiungendo alcuni esempi e un po' di contesto sull'output previsto (vedi immagine sotto). Ciò richiede più "ingegneria" ma può avere un notevole miglioramento della precisione . Tuttavia, l'aggiunta del contesto in ogni prompt significa che può costare molto di più (più su questo sotto).
  • Ottimizzazione fine: prendere molti esempi (centinaia o migliaia) e riaddestrare un modello preaddestrato per modificare i parametri in modo tale da non dover più includere esempi in ogni richiesta. Questo processo può essere molto costoso e può costare milioni di dollari, ma una volta terminato, è fatto.
Fonte: OpenAI — I modelli linguistici sono studenti di pochi colpi

Concentrati sul caso d'uso

L'intelligenza artificiale sta diventando una piattaforma, simile a Cloud o Mobile. Ci sono molte aziende che si concentrano sulla costruzione di quella piattaforma e non c'è dubbio che acquisiranno un enorme valore, come evidenziato dalla valutazione di $ 20 miliardi di OpenAI. Tuttavia, c'è un motivo per cui AWS non si concentra sulla creazione di soluzioni SaaS verticali: è estremamente difficile concentrarsi sia sulla creazione di una piattaforma che sulla creazione di casi d'uso su quella piattaforma, ulteriormente evidenziato dalle mediocri app di Apple. Riteniamo che ci sia un enorme valore da sbloccare concentrandosi su specifici casi d'uso e applicazioni di intelligenza artificiale, in modo simile a come il modello di business di Uber è stato sbloccato dai dispositivi mobili.

Tuttavia, questo business case deve essere preso con le pinze. Ci sono molti casi d'uso dell'intelligenza artificiale che rientrano nel bucket delle "funzionalità", piuttosto che in un prodotto completo. PhotoRoom , con cui abbiamo collaborato di recente, è stata una delle prime aziende a sfruttare Stable Diffusion per creare una funzionalità AI molto pratica e ora ha accelerato la crescita. Molte aziende più grandi, come Notion e Microsoft , stanno ora sfruttando modelli standard per migliorare i loro prodotti, dimostrando ulteriormente che la strategia di possedere l'interfaccia utente e l'ingegneria rapida piuttosto che costruire i propri modelli sembra essere vincente.

Dovrei anche avvertire che in alcune circostanze può avere senso possedere il modello e costruire l'IA da zero. Un'area particolarmente entusiasmante è in Decision Transformers e sfruttando l'innovativa architettura del modello per generare azioni piuttosto che solo contenuto. Adept.ai è un'azienda fantastica che fa proprio questo. Lo esplorerò ulteriormente in un altro post...

Comprendi la nomica dei modelli

OpenAI addebita $ 0,02 per 1000 token (circa 750 parole) e questo è sceso da $ 0,06 questa estate. Quando si utilizza l'apprendimento con pochi colpi, fino al 90% del prompt può essere "contesto", il che significa che i costi possono essere ~ 10 volte superiori a quelli di zero-shot. Le aziende intelligenti possono creare vantaggi ottimizzando il rapporto tra "contesto" e "testo di destinazione" e facendo cose intelligenti come rimuovere qualsiasi parola dal "testo di destinazione" che non influisce sull'output.

È chiaro che le aziende costruite su modelli di terze parti sono potenzialmente a rischio di prezzo nello stesso modo in cui le aziende costruite sul cloud sono a rischio di prezzo per i fornitori di servizi cloud. Riteniamo che l'intelligenza artificiale troverà lo stesso equilibrio che ha il cloud, in quanto il valore generato giustifica il pagamento per l'agilità e la potenza fornite da società terze come OpenAI. Molte aziende AI in fase iniziale che abbiamo incontrato sono in grado di operare con un margine lordo del 70-80% e riteniamo che questo aumenterà man mano che saranno in grado di aumentare la loro proposta di valore in futuro.

Inoltre, vale la pena notare che la maggior parte del cloud computing è già per casi d'uso di deep learning. Ciò indica che lo stato stazionario dei prezzi per le piattaforme di intelligenza artificiale potrebbe trovarsi nella stessa regione in cui si trova oggi il cloud computing, a cui la maggior parte delle aziende sembra a posto.

Esiste una probabilità realistica che la potenza di calcolo raggiunga l'espansione del modello in modo che i modelli all'avanguardia (o almeno vicini allo stato dell'arte) possano essere eseguiti sul dispositivo: ciò significherebbe che il costo marginale dell'IA tende a zero. Stability.ai è già in grado di eseguire alcuni dei suoi modelli sul dispositivo , il che potrebbe portare a zero il costo marginale per alcune attività. Esiste anche un numero crescente di piattaforme AI ( Cohere , AI21 ecc.), molte delle quali scelgono di rendere open source i propri modelli. Vale anche la pena ricordare che esistono alcuni modi intelligenti per ridurre al minimo i costi , come la distillazione del modello.

Ciò limita il loro potere di determinazione dei prezzi complessivo e potrebbero dover elaborare modelli di business più creativi, oltre alle chiamate API, per monetizzare la loro ricerca.

Conclusione

Se il mercato è sufficientemente ampio, riteniamo che esista un enorme potenziale di interruzione delle start-up creando applicazioni da zero, con modelli standard al centro. Ad esempio, Gong e Otter sono due grandi aziende che hanno costruito prodotti sulla base di modelli di trascrizione proprietari.

Ora che i modelli di trascrizione all'avanguardia sono allo scoperto e il costo dell'intelligenza artificiale tende a zero, c'è parità di condizioni. Ciò ha aperto un'enorme opportunità per le start-up di acquisire valore nell'enorme mercato della produttività possedendo il livello UX e Prompt Engineering. Se sei un fondatore che sfrutta l'intelligenza artificiale, ci piacerebbe parlare con te: non esitare a contattarmi all'indirizzo [email protected]

Cos'è un post sul blog AI senza un'immagine generata dall'IA suggerita dal titolo (DALL.E 2)