AudioGPT: collegare il testo alla musica
Nel 2022 OpenAI DALL-E ha distrutto il mondo dell'arte. StableDiffusion ha praticamente dato il colpo di grazia. Fin dall'inizio, gli appetiti delle grandi aziende di intelligenza artificiale si sono concentrati sulla prossima frontiera: la musica.
Nel gennaio 2023, MusicLM è stato rilasciato da Google Research, che ha consentito alle persone di utilizzare un prompt di testo per ottenere musica. Qualche giorno fa è stato rilasciato un modello che è chatGPT più musica.
AudioGPT, un nuovo direttore sinfonico
Recentemente i ricercatori delle università britanniche e americane hanno presentato un nuovo lavoro chiamato AudioGPT
Come riconoscono gli autori, ChatGPT e i recenti progressi nei modelli di PNL hanno avuto un ampio impatto sulla società. Tuttavia, sono stati limitati al testo e non hanno avuto successo in altre modalità (immagini, video, testo). Ora in parte sulle immagini, abbiamo visto tentativi (e anche GPT-4 dovrebbe essere multimodale, testo e immagini).
In uno scenario del mondo reale, gli umani comunicano usando la voce e usano anche un assistente vocale. Inoltre, una parte significativa del cervello e dell'intelligenza è dedicata all'elaborazione delle informazioni dall'audio. Infatti, anche gran parte della nostra società non si limita a comunicare ma ascolta musica, e ha un monologo interiore. Quindi un modello in grado di comprendere testo e musica non è affatto banale.
Ora, elaborare la musica non è affatto facile per diversi motivi:
- I dati, infatti, ottenere dati vocali con etichetta umana è un'attività molto più costosa rispetto allo scraping di testo web (e richiede anche più tempo). Inoltre, c'è molto meno materiale e quindi meno dati.
- è computazionalmente molto più costoso.
L'idea è di avere un LLM come interfaccia, questo LLM dialoga quindi con modelli di base dedicati al parlato e un'interfaccia al dialogo vocale (interfaccia di input/output (ASR, TTS))
Come affermano gli autori, il processo può essere suddiviso in quattro fasi:
- Modality Transformation , un'interfaccia di input/output per collegare testo e audio.
- Analisi del testo , per consentire a ChatGPT di comprendere le intenzioni dell'utente.
- Assegnazione del modello , ChatGPT assegna i modelli di base audio per la comprensione e la generazione.
- Response Generation , viene generata una risposta per l'utente.
Prima di entrare nei dettagli, possiamo dire che AudioGPT è un chatbot, che funziona come ChatGPT. Tuttavia, a differenza di questo, può anche gestire input come parlato e audio ed eseguire la manipolazione di questi input.
Il modello accetta quindi input sia testuali che vocali. Se è input testuale lo elabora direttamente, altrimenti se è parlato lo trascrive in testo.
Fatto ciò, ChatGPT analizza la query dell'utente (il modello deve capire cosa sta richiedendo l'utente e quale attività vorrebbe che l'utente eseguisse). Ad esempio, l'utente potrebbe dire "Trascrivi questo audio" o "produci il suono di una motocicletta sotto la pioggia". Come abbiamo visto in HugginGPT, una volta che ChatGPT comprende la richiesta, deve mapparla a un'attività che può quindi essere eseguita da un altro modello.
Una volta che la richiesta è stata trasformata in un compito, seleziona tra i vari modelli disponibili (i 17 modelli disponibili sono descritti nella tabella sopra). Ovviamente, ogni modello ha le sue specifiche e può svolgere compiti diversi, AudioGPT sostanzialmente decide qual è il modello migliore per un compito. Inoltre, gli LLM svolgono il compito di inviare la richiesta in modo che il modello possa elaborarli.
Il modello scelto esegue il compito (viene utilizzato in inferenza senza essere riaddestrato) e invia i risultati a ChatGPT. ChatGPT genera una risposta e aggiunge anche il risultato del modello. Gli LLM trasformano quindi l'output del modello in un formato comprensibile per l'utente, in forma di testo o con un file audio allegato.
Il vantaggio è che il processo è interattivo e ChatGPT ha memoria della conversazione. Quindi puoi vederlo come un'estensione di ChatGPT ai file audio.
Gli autori hanno valutato il modello con diverse attività, set di dati e metriche:
Gli autori hanno deciso di valutare il modello anche per la robustezza, prestando attenzione anche ai casi particolari che il modello potrebbe incontrare:
- Lunghe catene di valutazione , il modello deve considerare lunghe dipendenze dal contesto per questo compito (come la gestione di una sequenza di modelli, modelli diversi).
- Attività non supportate , il modello deve fornire un feedback adeguato.
- Gestione degli errori dei modelli multimodali , in questo caso, possiamo avere input e formati diversi che possono portare a errori e guasti del modello.
- Interruzioni nel contesto , le query inviate dall'utente non sono necessariamente in una sequenza logica ma potrebbero essere in ordine casuale.
Qui possiamo vedere alcuni esempi, ad esempio AudioGPT è in grado di generare suoni basati su immagini. In questo esempio, gli autori chiedono al modello di generare immagini per un gatto. In altre parole, viene generata una didascalia per l'immagine e questa viene utilizzata per guidare la generazione del suono. Chiaramente, questo può essere utilizzato dai musicisti che vogliono arricchire di suoni le loro canzoni senza dover acquistare librerie di suoni. Inoltre, è possibile utilizzare modelli di testo in video per generare immagini e video e AudioGPT per aggiungere suoni.
D'altra parte, AudioGPT non solo genera suoni ma anche parole umane. La cosa sorprendente è che si possono specificare le informazioni sulla nota e la durata della sequenza. Il modello quindi genera il canto. In altre parole, si può generare una canzone.
Inoltre, dato un audio può generare un video. Quindi potremmo potenzialmente creare una canzone e quindi generare il video musicale (tutto utilizzando un modello)
Inoltre, può essere utilizzato per classificare ciò che accade nell'audio. Poiché il modello mantiene quindi la conoscenza della storia, potremmo immaginare operazioni sequenziali. Tutti usano solo AudioGPT e il suo esercito di modelli.
Il modello non si limita alla capacità di generare suoni. Ad esempio, può estrarre suoni, quindi eliminare il rumore di fondo o estrarre un suono da utilizzare in un altro contesto
Può anche separare le sorgenti sonore, rimuovere anche il rumore
e può anche tradurre da una lingua all'altra:
Sembra quindi incredibile quello che può fare questo modello. Tutto questo semplicemente facendo da conduttore di diversi modelli. L'utente deve solo scrivere il prompt e il modello si occupa del resto.
Ma non ha limiti?
- Ingegneria rapida. Ovviamente, la prima limitazione è che il modello utilizza fondamentalmente ChatGPT e l'utente deve essere in grado di scrivere nel prompt e potrebbe richiedere molto tempo.
- Limitazione della lunghezza. Come con altri modelli simili (HuggingGPT), la lunghezza massima del prompt è il limite che blocca il dialogo e il numero massimo di istruzioni che l'utente può dare.
- Limitazione della capacità. la limitazione dei modelli utilizzati è limitata alle capacità di AudioGPT stesso.
Oppure, se non vuoi farlo, puoi utilizzare la demo (è necessaria anche una chiave API OpenAI). Ricorda che paghi per usarlo:
Pensieri di separazione
Questo modello mostra come con un semplice prompt, un LM può essere collegato con diversi modelli in grado di manipolare l'audio. Il modello può generare musica e suoni o modificarli. Ovviamente, le sue capacità aumenteranno legando altri modelli o migliorando l'accuratezza dei modelli utilizzati. In questo modo, AudioGPT acquisirà nuovi possibili compiti e ne migliorerà l'efficienza.
D'altra parte, ci sono modelli molto performanti per testo e immagini, ma solo di recente abbiamo visto modelli in grado di sfruttare la complessità audio.
Ovviamente non si tratta di un modello definitivo, ma di un dimostratore delle capacità del sistema. Infatti, il modello non include sempre l'attività o il prompt e l'output è quindi di utilità. In futuro, modelli simili saranno in grado di svolgere compiti dal video alla musica, dalle immagini al testo, e collegarli insieme.
Inoltre, un tale sistema non è limitato all'audio; si possono pensare a modelli che leghino insieme diverse modalità. Tali sistemi potrebbero quindi essere integrati in software che modificano il suono (ad esempio, Ableton). In futuro, un utente potrebbe generare audio con AI e quindi utilizzarlo come punto di partenza per ulteriori modifiche con un software adatto. Oppure aggiungi suoni e altro a una canzone registrata. Inoltre, non necessariamente utilizzando un prompt di testo ma anche comandi vocali
Abbiamo visto l'impatto di una diffusione stabile sull'industria grafica. L'industria musicale è la prossima a vedere gli effetti dell'intelligenza artificiale. Questo apre nuovi scenari, problemi di copyright e molto altro. Che cosa ne pensate?
Se hai trovato questo interessante:
Puoi cercare i miei altri articoli, puoi anche iscriverti per ricevere una notifica quando pubblico articoli, puoi diventare un membro di Medium per accedere a tutte le sue storie (link di affiliazione della piattaforma per cui ottengo piccoli guadagni senza costi per te) e tu può anche connettersi o raggiungermi su LinkedIn .
Ecco il link al mio repository GitHub, dove sto pianificando di raccogliere codice e molte risorse relative all'apprendimento automatico, all'intelligenza artificiale e altro ancora.
oppure potresti essere interessato a uno dei miei ultimi articoli:
Tutto ma tutto ciò che devi sapere su ChatGPT