L'Infinite Babel Library di LLM
“' Il padrino dell'IA' lascia Google e avverte del pericolo che ci aspetta ”, titola il New York Times. Come possiamo sapere se i LM sono una minaccia per l'umanità se non sono open-source? Cosa sta realmente accadendo? Come il mondo dei modelli linguistici è sull'orlo del Cambiamento.
La chiamata alla crociata open-source
Poco tempo fa GPT-4 è stato rivelato al pubblico, e penso che siamo andati tutti a leggere il rapporto tecnico e siamo rimasti delusi.
Di recente, anche Nature ha affrontato la questione : abbiamo bisogno che i grandi modelli linguistici (LLM) siano open-source.
Molti degli LLM sono proprietari, non rilasciati e non sappiamo su quali dati sono stati addestrati. Ciò non consente loro di essere ispezionati e testati per i limiti, in particolare per quanto riguarda il bias.
Inoltre, la condivisione di informazioni e codice con ChatGPT è a rischio di leak come scoperto da Samsung . Per non parlare del fatto che alcuni stati ritengono che l'archiviazione dei dati da parte di queste società violi il GDPR .
Questo è il motivo per cui abbiamo bisogno che gli LLM siano open source e dovrebbero esserci maggiori investimenti nello sviluppo di nuovi LLM, come il consorzio BLOOM (un LLM con parametro 170 B sviluppato da un consorzio accademico).
Negli ultimi mesi c'è stato spesso del sensazionalismo, sia sulle reali capacità di questi LLM sia sui rischi dell'intelligenza artificiale. Se i ricercatori non possono testare i modelli, non possono realmente valutarne le capacità, e lo stesso vale per l'analisi dei rischi. Inoltre, un modello open source è molto più trasparente e la comunità può anche tentare di identificare l'origine del comportamento problematico.
Inoltre, non è una richiesta del mondo accademico, le istituzioni sono allarmate dall'IA. L'Unione Europea sta discutendo in questi giorni l'EU AI act che può rimodellare il futuro degli LLM. Allo stesso tempo, la Casa Bianca sta spingendo il CEO della tecnologia a limitare il rischio dell'IA. Pertanto, l'open source potrebbe essere effettivamente un requisito futuro per i modelli linguistici.
Perché ChatGPT è così buono?
Abbiamo tutti sentito parlare di ChatGPT e di come sembrava rivoluzionario. Ma come è stato addestrato?
Tutto ma tutto ciò che devi sapere su ChatGPTPartiamo dal fatto che ChatGPT è stato addestrato sulla base di un LLM (GPT 3.5 per la precisione). In genere, questi modelli di linguaggio simili a GPT vengono addestrati utilizzando la previsione del token successivo in una sequenza (da una sequenza di token w, il modello deve prevedere il token successivo w+1).
Il modello è tipicamente un trasformatore: costituito da un codificatore che riceve l'input come sequenza e un decodificatore che genera la sequenza di output. Il cuore di questo sistema è l'autoattenzione multi-head , che consente al modello di apprendere informazioni sul contesto e sulle dipendenze tra le varie parti della sequenza.
GPT-3 è stato addestrato con questo principio (come gli altri modelli della famiglia Generative Pre-training Transformer, GPT,), solo con molti più parametri e molti più dati (570 GB di dati e 176 B di parametri).
GPT3 ha enormi capacità, tuttavia quando si tratta di generare testo spesso ha allucinazioni, manca di utilità, non è interpretabile e spesso contiene pregiudizi. Ciò significa che il modello non è allineato con ciò che ci aspettiamo da un modello che genera testo come un essere umano
Come otteniamo ChatGPT da GPT-3?
Il processo si chiama Reinforcement Learning from Human Feedback (RHLF) ed è stato descritto dagli autori in questo articolo:
Qui lo descriverò in modo molto generale e succinto. Nello specifico si compone di tre fasi:
- Fine tuning supervisionato , è il primo passo in cui il LLM viene messo a punto per apprendere una politica supervisionata (modello di base o modello SFT).
- Simula le preferenze umane , in questo passaggio gli annotatori devono votare una serie di output dal modello di base. Questo set di dati curato viene utilizzato per addestrare un nuovo modello, il modello di ricompensa.
- Proximal Policy Optimization (PPO) , qui il modello di ricompensa viene utilizzato per mettere a punto il modello SFT e ottenere il modello di policy
Gli autori hanno utilizzato come modello GPT-3.5 che era già stato messo a punto sul codice di programmazione, questo spiega anche le capacità del codice di ChatGPT.
Ora questo passaggio, tuttavia, non è esattamente scalabile poiché è un apprendimento supervisionato. In ogni caso, il modello così ottenuto non è ancora allineato.
Gli annotatori hanno notato una serie di risposte dal modello SFT, a seconda di quanto sia desiderabile tale risposta (dalla peggiore alla migliore). Ora disponiamo di un set di dati molto più grande (10 x) e forniamo le risposte del modello SFT al nuovo modello, che devono essere classificate in ordine di preferenza.
Durante questa fase, il modello sta imparando una politica generale sui dati e su come massimizzare la sua ricompensa (quando è in grado di classificare bene gli output).
Quindi abbiamo il modello SFT e usiamo i suoi pesi per inizializzare un nuovo modello PPO. Questo modello è messo a punto utilizzando Proximal Policy Optimization (PPO).
In altre parole, utilizziamo un algoritmo di apprendimento per rinforzo. Il modello PPO riceve un prompt casuale e risponde al prompt, dopodiché riceve una penalità o una ricompensa. Invece del classico Q-learning , qui la policy del modello viene aggiornata ad ogni risposta (il modello apprende direttamente dall'esperienza, sulla policy).
Inoltre, gli autori utilizzano la penalità Kullback-Leibler (KL) per token per rendere la distribuzione della risposta del modello simile a quella del modello SFT. Questo perché vogliamo ottimizzare il modello con la RL (a causa del modello di ricompensa) ma non vogliamo comunque che dimentichi ciò che ha appreso nel passaggio 1, che sono prompt curati dagli umani.
Infine, il modello viene valutato su tre aspetti: disponibilità, veridicità e innocuità. Dopotutto, erano proprio questi gli aspetti che volevamo ottimizzare.
Una nota curiosa è che il modello se valutato su benchmark classici (risposta alle domande, riepilogo, classificazione) ha prestazioni inferiori rispetto a GPT-3. Questo è il costo dell'allineamento.
Alpaca, un animale rivoluzionario
Come accennato c'è una reale necessità di studiare il comportamento di questi modelli e questo è possibile solo se sono open source. D'altra parte, qualsiasi LM può essere allineato utilizzando RHLF.
RHLF è molto meno costoso e computazionalmente intensivo rispetto all'addestramento di un modello da zero. D'altra parte, richiede che ci siano annotatori (in effetti hai bisogno di un set di dati con le istruzioni). Ma questi passaggi non possono essere automatizzati?
Il primo passo è stato l'autoistruzione , in questo articolo del 2022 gli autori propongono un metodo semiautomatico. In effetti, l'idea generale è di iniziare con una serie di istruzioni scritte manualmente. Questa serie di istruzioni serve sia come seme sia per essere sicuri che la maggior parte delle attività di PNL siano coperte.
Iniziando quindi con solo 175 istruzioni, il modello ha richiesto di generare il set di dati (50.000 istruzioni). Il set di dati è stato quindi utilizzato per la messa a punto delle istruzioni.
Avere un metodo richiedeva solo un modello. ChatGPT è basato su OpenAI GPT-3.5, ma non è possibile utilizzare un modello più piccolo? Ha necessariamente bisogno di più di 100 parametri B?
Invece, i ricercatori di Stanford hanno utilizzato LLaMA e in particolare la versione 7B e le istruzioni 52K generate seguendo il metodo dell'autoistruzione (istruzioni generate utilizzando il testo-davinci-003 di OpenAI). Il vero valore di Alpaca è che gli autori hanno semplificato la pipeline e ridotto notevolmente i costi in modo che qualsiasi laboratorio accademico possa replicare il processo (che si trova in questo repository ). Come infatti affermato:
Per la nostra esecuzione iniziale, la messa a punto di un modello LLaMA da 7 miliardi ha richiesto 3 ore su 8 A100 da 80 GB, che costano meno di $ 100 sulla maggior parte dei provider di cloud computing. ( fonte )
La valutazione iniziale del modello ha mostrato che Alpaca è quasi bravo a GPT-3.5 (in alcuni casi addirittura superandolo). Questo può sembrare sorprendente dato che si tratta di un modello 20 volte più piccolo. D'altra parte, il modello si è comportato come GPT in una serie di input (quindi la formazione agisce come una sorta di distillazione della conoscenza). D'altra parte, il modello ha le stesse limitazioni dei tipici modelli linguistici, mostrando allucinazioni, tossicità e stereotipi.
Alpaca dimostra quindi che qualsiasi laboratorio accademico può addestrare la propria versione di ChatGPT (utilizzando LLaMA , disponibile solo per la ricerca). D'altra parte, qualsiasi azienda che utilizza un altro modello può allinearsi e creare la propria versione di ChatGPT. Inoltre, modelli simili potrebbero ancora essere implementati anche su telefoni cellulari o computer Raspberry Pi .
Gli autori hanno rilasciato una demo, ma è stata chiusa dopo poco tempo (per motivi di sicurezza). Inoltre, sebbene fosse necessario richiedere l'utilizzo di LLaMA (e accedere ai pesi del modello), pochi giorni dopo il modello è trapelato online .
Gli LLM sono al confine di una rivoluzione?
Sembra che siano passati anni da quando ChatGPT è stato rilasciato, ma invece sono passati solo pochi mesi. Fino a quel momento si parlava di legge di potenza, di come fosse necessario che un modello avesse più parametri, più dati e più addestramento per consentire l'origine dei comportamenti emergenti.
Queste idee hanno portato all'idea di poter definire una sorta di legge di Moore per i modelli linguistici. In un certo senso, negli ultimi anni abbiamo visto quasi una legge esponenziale (siamo passati da 1,5 B parametri per GPT-2 a 175 B per GPT-3).
Cosa è cambiato?
Il primo colpo a questa dottrina potrebbe essere chiamato l'arrivo di Chinchilla . Il modello di DeepMind ha dimostrato che non è solo una questione di quantità di dati ma anche di qualità dei dati. In secondo luogo, LLaMA di META ha dimostrato che anche i modelli più piccoli che utilizzano un set di dati curato possono ottenere risultati simili se non migliori rispetto ai modelli enormi.
Non è solo una questione di modelli. I dati sono l'altro problema. Gli esseri umani non producono dati sufficienti, probabilmente non dati sufficienti per supportare qualsiasi GPT-5 secondo quando richiesto dalla legge sul potere. In secondo luogo, i dati non saranno accessibili come prima.
Infatti, Reddit (una popolare risorsa di dati) ha annunciato che gli sviluppatori di intelligenza artificiale dovranno pagare per accedere ai suoi contenuti. Anche Wikipedia ha pensato la stessa cosa e ora StackOverflow si sta muovendo allo stesso modo, richiederà alle aziende di pagare.
"Le piattaforme comunitarie che alimentano gli LLM dovrebbero assolutamente essere compensate per i loro contributi in modo che aziende come noi possano reinvestire nelle nostre comunità per continuare a farle prosperare", afferma Chandrasekar di Stack Overflow. "Siamo molto favorevoli all'approccio di Reddit." ( fonte )
E anche se si riesce a ottenere i dati, potrebbe non essere sicuro lo stesso per un'azienda. Getty ha citato in giudizio un generatore di arte artificiale , ma anche gli artisti stessi hanno intentato causa. Per non parlare del fatto che i programmatori hanno fatto lo stesso con GitHub Copilot che è stato addestrato con il codice nei repository. Inoltre, l'industria musicale (notoriamente litigiosa) si è espressa contro la musica generata dall'intelligenza artificiale e ha esortato contro i servizi di streaming. Se anche le aziende di intelligenza artificiale fanno appello al fair use , non è affatto scontato che in futuro avranno lo stesso accesso ai dati.
C'è un altro fattore da considerare, oltre all'estensione dei modelli per modalità etero, l'architettura del trasformatore non è cambiata dal 2017. Tutti i modelli linguistici si basano sul dogma secondo cui è necessaria solo l'auto-attenzione multi-testa e nient'altro. Fino a poco tempo fa Sam Altman era convinto che la scalabilità dell'architettura fosse la chiave di AGI. Ma come ha detto in un recente evento del MIT , la chiave per AGI non è in più livelli e più parametri.
Il trasformatore ha limiti definiti e questo si riflette nei LM: allucinazioni, tossicità e pregiudizi. I moderni LLM non sono in grado di pensare in modo critico. Tecniche come la catena di pensieri e l'ingegneria tempestiva servono come patch per cercare di mitigare il problema.
Inoltre, l'auto-attenzione multi-testa ha dimostrato di essere in grado di risolvere problemi derivati da RNN e consentire l'emergere di comportamenti poiché l'apprendimento nel contesto ha un costo quadratico. Recentemente, si è visto che non è possibile sostituire l'attenzione di sé con varianti di attenzione non quadratiche senza perdere espressività. Tuttavia, lavori come Spike-GPT e Hyena mostrano che esistono alternative meno costose non basate sull'auto-attenzione e consentono risultati comparabili nella costruzione di modelli linguistici.
Inoltre, come mostrato, l'allineamento di un modello utilizzando RHLF ha un costo rispetto alle prestazioni nelle varie attività. Pertanto, i LM non sostituiranno il "modello esperto" ma in futuro saranno forse orchestratori di altri modelli (come suggerito ad esempio da HuggingGPT ).
Non puoi fermare l'Open-source e perché è sempre vincente
è meglio MidJourney o DALL-E? è difficile forse dirlo. Quello che è certo è che la diffusione stabile è la tecnologia vincente. La diffusione stabile per il fatto di essere open-source ha generato così tante applicazioni ed è stata l'ispirazione per così tante ricerche derivate (ControlNet, dati sintetici per l'imaging medico, parallelismi con il cervello).
Grazie al lavoro della community, la diffusione di Stable nelle sue varie versioni è stata migliorata e ne esistono infinite varianti. D'altra parte, non c'è applicazione di DALL-E che non abbia una controparte basata sulla diffusione stabile (ma è vero il contrario).
Perché allora non è successo lo stesso per i modelli linguistici?
Finora il problema principale è che addestrare un modello linguistico era un'impresa proibitiva. BLOOM di BigScience è davvero un enorme consorzio. Ma LLaMA ha dimostrato che modelli molto più piccoli possono competere con mostri di oltre 100 parametri B. Alpaca ha dimostrato che l'allineamento LM può essere effettuato anche a basso costo (meno di $ 1.000 di costo totale). Questi sono gli elementi che hanno permesso a Simon Willson di affermare “ I modelli di linguaggio di grandi dimensioni stanno vivendo il loro momento di diffusione stabile. "
Da Alpaca ai giorni nostri, sono usciti moltissimi modelli open-source . Non solo Stability AI ha rilasciato una serie di modelli competitivi con i giganti e utilizzabili da tutti, ma anche altre società hanno rilasciato chatbot e modelli. In poche settimane abbiamo visto: Dolly , HuggingChat , Koala e molti altri
Ora, alcuni dei modelli menzionati sono sì open-source, ma sono per uso non commerciale. sebbene siano aperti alla ricerca accademica, ciò significa che non possono essere sfruttati dalle aziende interessate.
Questa è solo una parte della storia. Esistono infatti già modelli su HuggingFace che possono essere facilmente addestrati (modelli, set di dati e pipeline) e ad oggi sono disponibili diversi modelli disponibili in commercio (ad oggi più di 10 ):
Modello open source, dati privati e nuove applicazioni
Dario Amodei, CEO di Anthropic, sta cercando miliardi per battere OpenAI sul modello più grande del mondo. Tuttavia, il resto del mondo si sta muovendo in un'altra direzione. Ad esempio, Bloomberg, che non è un attore noto nell'IA, ha rilasciato un LLM per la finanza (addestrato su 363 miliardi di token da fonti finanziarie).
Perché vogliamo un LLM per la finanza? Perché non utilizzare solo ChatGPT?
Google MedPalm ha mostrato che un modello generalista ha scarse prestazioni rispetto a un modello che è messo a punto su un argomento specifico (in questo caso si trattava di set di dati di articoli medici, scientifici e così via).
La messa a punto di un LLM è chiaramente costosa. Soprattutto se parliamo di modelli con centinaia di miliardi di parametri. I modelli più piccoli sono molto meno costosi, ma comunque non indifferenti. LLaMA di META essendo open-source ha in parte risolto questo problema. In effetti, gli autori di LLaMA-Adapter hanno dimostrato che è necessario aggiungere solo 1,2 milioni di parametri per eseguire la messa a punto (l'addestramento ha richiesto meno di un'ora).
Mentre è vero che LLaMA non è disponibile in commercio, ci sono molti altri modelli disponibili (dal piccolo al grande). Ciò che ovviamente consentirà un'applicazione di successo in un determinato campo sono i dati.
Come Samsung ha scoperto spiacevolmente , è un rischio utilizzare ChatGPT all'interno di un'azienda. Anche se ChatGPT ora consente alle persone di disabilitare la cronologia della chat o rifiutare di utilizzare i propri dati per addestrare il modello, le aziende considereranno rischioso concedere i propri dati.
Molte aziende considereranno possibile addestrare il proprio chatbot, un modello che viene messo a punto sui propri dati aziendali e rimarrà interno. Dopotutto, la tecnologia è disponibile e conveniente anche per le aziende con budget limitati. Inoltre, il basso costo consente loro di essere in grado di perfezionare regolarmente quando arrivano nuovi dati o se viene rilasciato un modello open source migliore. Le aziende che ora hanno i dati saranno molto più riluttanti a concederli.
Inoltre, abbiamo visto quanto sia importante disporre di dati di qualità. I dati in medicina e in molti altri campi sono difficili da raccogliere (costosi, regolamentati, scarsi) e le aziende che li possiedono hanno un vantaggio. OpenAI potrebbe spendere miliardi cercando di raccogliere, ad esempio, dati medici, ma al di là del costo, il reclutamento dei pazienti richiede anni e una rete consolidata (cosa che non ha). Le aziende che ora dispongono dei dati saranno più restrittive nella condivisione di questi dati con modelli in grado di archiviare ciò a cui sono esposti.
Inoltre, lavori come HuggingGPT e AudioGPT mostrano che LLM è un'interfaccia che consente all'utente di interagire con modelli esperti (da testo a immagine, modello audio e molto altro). Negli ultimi anni, molte aziende hanno assunto data scientist e hanno sviluppato diversi modelli specializzati per le loro esigenze (modelli di aziende farmaceutiche per la scoperta e la progettazione di farmaci, aziende manifatturiere per la progettazione di componenti e la manutenzione predittiva e così via). Pertanto, ora i data scientist possono istruire gli LLM a connettersi con i loro modelli precedentemente addestrati e consentire agli utenti interni non tecnici di interagire con loro tramite prompt testuali.
C'è anche un altro elemento che punta a uno scenario del genere, le normative sull'IA generativa non sono chiare (ad esempio, Google non ha rilasciato il suo modello di musica generativa per paura di violazione del copyright). Oltre alla questione del diritto d'autore, rimangono aperte questioni sulla responsabilità. Pertanto, molte aziende potrebbero interiorizzare la tecnologia e creare il proprio assistente AI nei prossimi mesi.
Pensieri di separazione
Il dottor Hinton ha detto che quando le persone gli chiedevano come poteva lavorare su una tecnologia potenzialmente pericolosa, parafrasava Robert Oppenheimer, che ha guidato lo sforzo degli Stati Uniti per costruire la bomba atomica: "Quando vedi qualcosa che è tecnicamente dolce, tu vai avanti e fallo.
Non lo dice più. ( fonte )
Hinton ha recentemente affermato che dobbiamo discutere dei rischi dell'intelligenza artificiale. Ma non possiamo studiare i rischi di una bomba che esplode se si trova all'interno di una scatola nera. Ecco perché è sempre più urgente che i modelli siano Open source.
Gli LLM sono comunque in una fase di cambiamento. Creare modelli sempre più grandi è insostenibile e non dà lo stesso vantaggio di una volta. Il futuro dei prossimi LLM risiederà nei dati e probabilmente nelle nuove architetture non più basate sull'auto-attenzione.
Tuttavia, i dati non saranno accessibili come una volta; le aziende stanno iniziando a bloccarne l'accesso. Microsoft afferma di essere disposta a consentire alle aziende di creare la propria versione di ChatGPT. Ma le aziende saranno scettiche.
Alcune aziende temono per il loro business (sembra che ChatGPT abbia già fatto la sua prima vittima ), altre temono la fuga di dati. O semplicemente la tecnologia è finalmente alla portata di quasi tutte le aziende, e ognuna creerà un chatbot su misura per le proprie esigenze.
In conclusione, possiamo vedere diverse tendenze (che in parte stanno già accadendo):
- Una crescente paura dell'intelligenza artificiale sta spingendo per i modelli open source
- Ciò sta portando a una crescente pubblicazione di modelli LLM open source. Il che, a sua volta, sta dimostrando che è possibile utilizzare modelli più piccoli e ridurre il costo del loro allineamento.
- I modelli LLM sono una minaccia per diverse aziende e le aziende temono che questi modelli possano minacciare la loro attività. Pertanto, diverse aziende stanno riducendo l'accesso ai propri dati o chiedendo pagamenti alle società di intelligenza artificiale.
- La riduzione dei costi, la paura della concorrenza, una nuova rilevanza per i dati proprietari e la nuova disponibilità di modelli open source stanno portando le aziende ad addestrare i propri chatbot sui propri dati utilizzando modelli open source.
Se hai trovato questo interessante:
Puoi cercare i miei altri articoli, puoi anche iscriverti per ricevere una notifica quando pubblico articoli, puoi diventare un membro di Medium per accedere a tutte le sue storie (link di affiliazione della piattaforma per cui ottengo piccoli guadagni senza costi per te) e tu può anche connettersi o raggiungermi su LinkedIn .
Ecco il link al mio repository GitHub, dove sto pianificando di raccogliere codice e molte risorse relative all'apprendimento automatico, all'intelligenza artificiale e altro ancora.
oppure potresti essere interessato a uno dei miei ultimi articoli: