Impariamo a conoscere l'intelligenza artificiale
Una serie su AI, machine learning, ChatGPT e altro ancora
Sin dal rilascio esplosivo di ChatGPT nel novembre 2022, ho provato la sindrome dell'impostore e l'ansia per l'intelligenza artificiale (AI). Cosa fa, esattamente? Come funziona? Qual è il prossimo? Per il contesto, sono un ingegnere del software e lavoro in Microsoft da quando mi sono laureato nel 2020. Ma non ho mai avuto l'opportunità di "usare veramente l'IA" e ho ignorato la maggior parte delle notizie in merito perché troppo piene di parole d'ordine, hype e gergo.
Impariamo a conoscere l'intelligenza artificiale e i recenti sviluppi nel campo. Questa serie è per chiunque, tecnico e non, che abbia un'esperienza minima con l'IA. Impareremo insieme cosa diavolo sta succedendo con tutti questi strumenti di chatbot: ChatGPT, il nuovo Bing, Bard, Copilot, l'elenco potrebbe continuare. Sono sovrastimati? Di cosa sono capaci? Sono sufficientemente private, sicure ed etiche? Queste sono grandi domande e non è possibile rispondere a tutte in un post. Ma spero di scomporlo senza tutto il gergo che sembra essere in ogni articolo che ho letto finora.
In questo articolo tratteremo la definizione di AI, machine learning, OpenAI e i recenti annunci di prodotti AI.
Questo articolo menziona Microsoft, il mio datore di lavoro. Ho scritto questo articolo nel mio tempo libero e tutte le opinioni sono mie.
Non sono entrato nell'intelligenza artificiale fino all'inizio di febbraio , quando il nostro team si è entusiasmato per un FHL a livello di organizzazione, una settimana di fix-hack-learn in cui praticamente possiamo fare quello che vogliamo. L'argomento che ha dominato le conversazioni è stato ChatGPT e le potenzialità dei relativi strumenti. Ho trascorso quella settimana imparando nervosamente le basi della moderna intelligenza artificiale, i termini che la circondano e le recenti versioni del prodotto. Il mio team ha fornito dati ai modelli e quant'altro, ma ho appena letto gli articoli di Wikipedia e ho chiesto a ChatGPT di spiegarmi come funzionava. Una volta che il mio team ha avuto un proof of concept funzionante, ho chiesto loro come l'hanno realizzato e mi sono offerto volontario per creare il video del pitch. Ero così nervoso che mi sono preso un giorno libero. Ma ho continuato a imparare.
E poi è stato rilasciato "il nuovo Bing", è uscito GPT-4, è stato annunciato Microsoft 365 Copilot e Google ha fatto molti dei suoi annunci. Tutti questi sono sviluppi incredibilmente importanti e mettono in luce il nuovo potenziale degli strumenti di intelligenza artificiale. Inoltre esacerbano i miei sentimenti di incompetenza e di essere sopraffatto. Ma l'unica via d'uscita è attraverso, giusto? Quindi andiamo.
L'intelligenza artificiale è la capacità di fare qualcosa che "sembra intelligente" : giocare bene a un gioco, riconoscere la calligrafia, convertire il discorso in testo, consigliare un video da guardare o generare un paragrafo in risposta a una domanda scritta in un inglese semplice. Questa definizione sembra coprire molto: e lo fa! 100 anni fa tutto veniva fatto manualmente, dall'aritmetica di base alla preparazione dei documenti, alla programmazione, alla pianificazione dei governi internazionali. Gli strumenti disponibili potevano solo trasmettere informazioni esistenti, non potevano riassumerle o "farne" qualcosa. Gli strumenti di intelligenza artificiale determinano la mossa successiva in un gioco da tavolo, la parola successiva in una query di ricerca o se una parola è scritta in modo errato. Qualsiasi strumento in grado di produrre un output diverso da quello che inserisci è, nel senso più elementare, uno strumento di intelligenza artificiale.
Più comunemente, pensiamo all'intelligenza artificiale "di livello superiore" che fa "cose davvero intelligenti": quando ci riferiamo a "l'algoritmo" presente su YouTube, Facebook, TikTok, Amazon e altrove che consiglia i contenuti, ci riferiamo a un algoritmo AI. Ovviamente, ciò che qualcuno considera "davvero intelligente" varierà molto a seconda di chi chiedi e quando glielo chiedi. 50 anni fa, la capacità di un computer di giocare a dama era sorprendente, ora è "solo un calcolo". Questo è l'effetto dell'intelligenza artificiale e ho cercato di contrastarlo con la mia precedente definizione ampia di intelligenza artificiale. ChatGPT e altri nuovi "strumenti chatbot" sono considerati quasi all'unanimità AI "di livello superiore", ma in realtà non c'è alcuna differenza fondamentale tra ChatGPT e un semplice calcolatore. Entrambi accettano input, eseguono alcuni calcoli (OK, ChatGPT fa moltodi calcoli) e fornire un nuovo output basato sull'input. Entrambi sono AI. Quindi cosa li separa?
L'apprendimento automatico è il modo più discusso in cui gli ingegneri creano questi algoritmi di intelligenza artificiale di "livello superiore". E, come l'intelligenza artificiale, l'apprendimento automatico è un campo molto vasto. La caratteristica distintiva di un algoritmo di apprendimento automatico (rispetto a qualche altro algoritmo di intelligenza artificiale) è che gli ingegneri non gli dicono "direttamente" esattamente cosa fare. Invece, a un algoritmo di apprendimento automatico vengono forniti dati di addestramento (input e output di esempio) e ci si aspetta che "apprenda" lo schema tra input e output. Ad esempio, l'algoritmo potrebbe ricevere 10.000 immagini di cani con l'output di esempio "questo è un cane" e quindi 10.000 immagini di qualsiasi altra cosa con l'output di esempio "questo non è un cane". Da lì, qualcuno potrebbe dare all'algoritmo una nuova immagine e l'algoritmo userebbe il suo apprendimento per dire "questo è un cane" o "questo non è un cane".
L'apprendimento automatico non si limita alla classificazione delle immagini, tuttavia: è lo stesso processo di base che alimenta ChatGPT, "l'algoritmo" presente sui social media e sui siti di shopping, algoritmi di scacchi e altro ancora. (Come esercizio, considera quali potrebbero essere i dati di addestramento per questi algoritmi.)
Facciamo un esempio : dama. In un algoritmo tradizionale, gli ingegneri potrebbero dire “OK computer, ecco la scheda attuale. Esamina tutte le possibili mosse successive e segna ogni mossa in base a quanti pezzi ha l'altro giocatore e quanti tuoi pezzi sono vulnerabili. Scegli la mossa con il punteggio più alto. Questo sistema di punteggio è considerato un modello: una funzione matematica che calcola un punteggio per un dato input. Questo algoritmo è AI, ma non è machine learning. Nell'apprendimento automatico, l'algoritmo riceverebbe dati di addestramento: “OK computer, ecco una scacchiera, ecco la mossa successiva migliore. Vi abbiamo dato 100 esempi come questo. Impara a giocare a dama”. L'algoritmo costruisce il proprio modello regolando nuovamente la sua funzione di punteggio mentre passa attraverso i dati di addestramento. Cambia il suo punteggio in base a ciò che ha indovinato e quale fosse l'output previsto. Mentre l'algoritmo sta esaminando i dati di addestramento, si dice che stia imparando o addestrando il suo modello. Quindi utilizza questo modello addestrato per fare previsioni su nuovi input. Potremmo mostrare a un algoritmo addestrato una scacchiera che non ha mai visto prima, e userebbe il suo modello per segnare le possibili mosse successive e fare la sua scelta.
OpenAI è il laboratorio dietro ChatGPT . È stata fondata nel 2015. OpenAI ha coniato il termine trasformatore generativo pre-addestrato (GPT) nel 2018. Generativo significa semplicemente che il modello genererà contenuto, come il testo. Parleremo di più di "pre-addestrato" e "trasformatore" in un prossimo articolo, ma riguardano più come è stato costruito l'algoritmo, non cosa può fare. Ma queste cose GPT-n (GPT-2, GPT-3, ecc.) sono solo modelli, in particolare modelli di linguaggio di grandi dimensioni (LLM). Un LLM prende il testo, assegna un punteggio al potenziale testo di output, quindi restituisce il testo con il punteggio più alto. Non sono direttamente interattivi come ChatGPT.
Ci sono altri LLM realizzati da altre grandi aziende: Google ha LaMDA , per esempio. Questi nuovi "strumenti chatbot" sono fondamentalmente due parti: la parte che porta il tuo prompt (il tuo messaggio al chatbot) e il modello linguistico stesso. Le due parti parlano tra loro proprio come il tuo browser parla con Google quando fai una ricerca sul web.
ChatGPT è un sito Web che parla con un modello GPT dietro le quinte. Altre aziende stanno costruendo i propri strumenti che parlano con GPT-n o il modello ChatGPT. Ad esempio, " il nuovo Bing " parla con GPT-4 , che è stato appena rilasciato pubblicamente il 14 marzo 2023.
(Aggiornamento dell'8 aprile: dovrei chiarire che ChatGPT è anche il nome del modello con cui parla il sito Web ChatGPT. È elencato come "gpt-3.5-turbo" in più documenti OpenAI , quindi potresti sentire la gente dire "ChatGPT parla con GPT -3.5" o "ChatGPT parla con un modello GPT-3.5", entrambi di solito abbastanza simili.)
Leggera tangente: Microsoft è il partner principale di OpenAI . GPT-4 è stato addestrato su un supercomputer costruito da Microsoft . Quel supercomputer è il quinto più grande del mondo. Ed è stato creato appositamente per OpenAI. Microsoft ha investito miliardi di dollari nel laboratorio e, secondo quanto riferito, è azionista del 49% a gennaio 2023. Oh, e GPT-3 è concesso in licenza esclusivamente a Microsoft , questo significa che Microsoft determina chi può e chi non può costruire strumenti futuri come ChatGPT utilizzando quel modello. Non sono ancora sicuro dello stato di GPT-4, ma non sarei troppo sorpreso se tutti i futuri modelli GPT-n fossero solo Microsoft.
Perché le aziende annunciano così tanti strumenti di chatbot? In breve, molte aziende hanno riconosciuto il potenziale degli LLM da tempo e da allora questi strumenti sono in lavorazione. Ma con la popolarità senza precedenti di ChatGPT, gli ingegneri probabilmente hanno ottenuto capacità aggiuntive e da allora è stata una gara ben pubblicizzata.
Gli strumenti sono potenti perché utilizzano un inglese semplice sia per l'input che per l'output . Come un motore di ricerca tradizionale, non abbiamo bisogno di ricordare un modo specifico di parlare al computer: basta digitare ciò che pensiamo e otteniamo risultati. Ancora meglio, anche l'output è in inglese semplice! Invece di un elenco di (annunci e) collegamenti forse utili, otteniamo solo... una risposta! Gli strumenti costruiti attorno ai modelli di OpenAI hanno letteralmente eliminato la ricerca dalla ricerca. Puoi dire che sono eccitato? (Nota a margine: gli esperti si riferiscono a "inglese semplice" come "linguaggio naturale".)
Infine, l'ampiezza e la profondità di questi strumenti sembrano davvero illimitate. Credo che l'annuncio di Microsoft di Microsoft 365 Copilotparla da solo, ma se una demo e una panoramica di 40 minuti sono troppo per te, ti riassumo. Microsoft crede nella potenza degli strumenti in cui inserisci un inglese semplice e genera informazioni utili o anche una modifica utile al tuo documento. Copilot è fondamentalmente "ChatGPT che ha accesso ai tuoi documenti Microsoft 365". Chiedi a Copilot una bozza di discorso di 3 minuti per la laurea di tua figlia, assicurandoti di menzionare i suoi buoni voti, quanto sei orgoglioso di lei e quanto sei eccitato per il suo futuro, e lo otterrai. Immediatamente. Nessuna ricerca, nessun copia-incolla, niente di niente. L'obiettivo del paradigma del "copilota" è fornire bozze e opzioni di correzione rapida senza subentrare e senza che l'utente debba svolgere alcun lavoro impegnativo. Invece di chiedere al tuo "amico di Excel" come scrivere una formula specifica (ti sto guardando, Papà) o cercando di vagliare i risultati di Google, basta chiedere a Copilot. Non ti darà solo una formula, la visualizzerà per te, fornirà un contesto aggiuntivo al riguardo, fornirà suggerimenti alternativi - qualsiasi cosa! OK, sta iniziando a sembrare una pubblicità (non lo è), ma sono davvero entusiasta. Non ho ancora utilizzato Copilot, ma non vedo l'ora di farlo e riferirò quando posso. Se una tecnologia come questa funziona, "solo Google it" sarà sostituito da "basta chiedere a Copilot".
Microsoft non è sola: Google ha annunciato funzionalità simili per Google Workspace ed entrambe le società hanno annunciato una qualche forma di framework per sviluppatori per consentire agli ingegneri di creare le proprie esperienze basate su LLM-AI: Microsoft ha Semantic Kernel e Google ha MakerSuite . Al momento della scrittura, Bard di Google è appena entrato in anteprima pubblica . Non ho ancora sentito molto da Amazon, Apple o altre società Big Tech, ma è solo una questione di tempo.
Inoltre, OpenAI ha pubblicato 6 storie di clienti per GPT-4: Duolingo , Khan Academy , Government of Iceland , Stripe , Morgan Stanley e Be My Eyes . Queste storie evidenziano la diversità delle applicazioni LLM al di là degli "strumenti chatbot" che conosciamo. Aspettatevi che questa tecnologia inizi a essere integrata in modi sempre più unici!
Chiaramente, molti grandi attori del settore credono che questi nuovi strumenti di chatbot saranno rivoluzionari quanto lo è stato lo smartphone. Sono propenso a credergli.
Questo è un riassunto della parte 1! Spero che questo articolo ti abbia aiutato a capire l'attuale panorama dell'IA e cosa potrebbe portare il prossimo futuro. Se non l'hai ancora fatto, puoi utilizzare ChatGPT gratuitamente, provare il nuovo Bing o guardare infinite demo su qualsiasi sito Web di video vicino a te.
Grazie per aver letto. Cosa vuoi imparare dopo? Come posso aiutare? Fatemi sapere nei commenti!
Ecco il secondo articolo di questa serie:
AI è una parola d'ordine. Ecco le vere parole da sapereAggiornato l'8 aprile per chiarire che ChatGPT è sia un modello che un prodotto.
Aggiornato il 16 aprile per aggiungere un sottotitolo.
Aggiornato il 6 maggio per un'immagine in primo piano più coinvolgente (era il cervello, il robot e l'emoji della testa che esplodeva su sfondo blu). Aggiornata anche la conclusione e cambiato "nuovo Bing" in "il nuovo Bing".
Aggiorna il 7 maggio per definire "prompt" e aggiungere il disclaimer "Microsoft indipendente".