AudioGPT : faire le pont entre le texte et la musique

May 09 2023
Un nouveau modèle d'IA connecte ChatGPT à des modèles audio et musicaux
En 2022, OpenAI DALL-E a détruit le monde de l'art. StableDiffusion a pratiquement porté le coup de grâce.
image par Marcela Laskoski sur Unsplash

En 2022, OpenAI DALL-E a détruit le monde de l'art. StableDiffusion a pratiquement porté le coup de grâce. Dès le début, les appétits des grandes sociétés d'intelligence artificielle se sont concentrés sur la prochaine frontière : la musique.

En janvier 2023, MusicLM a été publié par Google Research, ce qui permettait aux utilisateurs d'utiliser une invite de texte pour obtenir de la musique. Il y a quelques jours, un modèle a été publié qui est chatGPT plus de musique.

AudioGPT, un nouveau directeur symphonique

image de Kazuo ota sur Unsplash

Récemment, des chercheurs d'universités britanniques et américaines ont présenté un nouveau travail appelé AudioGPT

Comme le reconnaissent les auteurs, ChatGPT et les avancées récentes des modèles en PNL ont eu un impact important sur la société. Cependant, ils se sont limités au texte et n'ont pas réussi dans d'autres modalités (images, vidéo, texte). Maintenant en partie sur les images, on a vu des tentatives (et GPT-4 devrait aussi être multimodal, texte et images).

Dans un scénario réel, les humains communiquent en utilisant la parole et utilisent également un assistant parlé. De plus, une partie importante du cerveau et de l'intelligence est consacrée au traitement des informations provenant de l'audio. En fait, même une grande partie de notre société ne se contente pas de communiquer mais écoute de la musique et a un monologue intérieur. Ainsi, un modèle capable de comprendre du texte et de la musique n'est pas du tout anodin.

Or, traiter la musique n'est pas du tout facile pour plusieurs raisons :

  • Les données, en fait, obtenir des données vocales étiquetées par l'homme est une tâche beaucoup plus coûteuse que le grattage de texte Web (et prend également plus de temps). Aussi, il y a beaucoup moins de matière et donc moins de données.
  • est beaucoup plus coûteux en calcul.

L'idée est d'avoir un LLM comme interface, ce LLM dialogue alors avec des modèles de fondation dédiés à la parole et une interface au dialogue de la parole (interface d'entrée/sortie (ASR, TTS))

source de l'image : ici

Comme l'indiquent les auteurs, le processus peut être divisé en quatre étapes :

  • Modality Transformation , une interface d'entrée/sortie pour connecter le texte et l'audio.
  • Analyse de texte , pour permettre à ChatGPT de comprendre les intentions de l'utilisateur.
  • Attribution de modèle , ChatGPT attribue les modèles de base audio pour la compréhension et la génération.
  • Response Generation , une réponse est générée pour l'utilisateur.

Avant d'entrer dans les détails, on peut dire qu'AudioGPT est un chatbot, qui fonctionne comme ChatGPT. Cependant, contrairement à cela, il peut également gérer des entrées telles que la parole et l'audio et effectuer la manipulation de ces entrées.

source de l'image : ici

Le modèle prend alors à la fois des entrées textuelles et vocales. S'il s'agit d'une entrée textuelle, il la traite directement, sinon s'il s'agit d'un discours, il la transcrit en texte.

Une fois cela fait, ChatGPT analyse la requête de l'utilisateur (le modèle doit comprendre ce que l'utilisateur demande et quelle tâche il aimerait que l'utilisateur effectue). Par exemple, l'utilisateur peut dire "Transcrire cet audio" ou "produire le son d'une moto sous la pluie". Comme nous l'avons vu dans HugginGPT, une fois que ChatGPT comprend la demande, il doit la mapper à une tâche qui peut ensuite être exécutée par un autre modèle.

Une fois la demande transformée en tâche, il sélectionne parmi les différents modèles disponibles (les 17 modèles disponibles sont décrits dans le tableau ci-dessus). Évidemment, chaque modèle a ses propres spécifications et peut accomplir différentes tâches, AudioGPT décide essentiellement quel est le meilleur modèle pour une tâche. De plus, les LLM se chargent d'envoyer la demande afin que le modèle puisse les traiter.

Le modèle choisi exécute la tâche (il est utilisé dans l'inférence sans être ré-entraîné) et envoie les résultats à ChatGPT. ChatGPT génère une réponse et ajoute également le résultat du modèle. Les LLM transforment ensuite la sortie du modèle dans un format compréhensible pour l'utilisateur, soit sous forme de texte, soit avec un fichier audio en pièce jointe.

L'avantage est que le processus est interactif et ChatGPT a une mémoire de la conversation. Vous pouvez donc le voir comme une extension de ChatGPT aux fichiers audio.

un exemple de tâche réalisée. source de l'image : ici

Les auteurs ont évalué le modèle avec différentes tâches, ensembles de données et métriques :

source de l'image : ici

Les auteurs ont décidé d'évaluer également la robustesse du modèle, tout en prêtant attention aux cas particuliers que le modèle pourrait rencontrer :

  • Longues chaînes d'évaluation , le modèle doit tenir compte de longues dépendances de contexte pour cette tâche (comme la gestion d'une séquence de modèles, de modèles différents).
  • Tâches non prises en charge , le modèle doit fournir une rétroaction adéquate.
  • Gestion des erreurs des modèles multimodaux , dans ce cas, nous pouvons avoir différentes entrées et formats qui peuvent entraîner des erreurs et l'échec du modèle.
  • Cassures de contexte , les requêtes soumises par l'utilisateur ne sont pas nécessairement dans un ordre logique mais peuvent être dans un ordre aléatoire.

Ici, nous pouvons voir quelques exemples, par exemple, AudioGPT est capable de générer des sons basés sur des images. Dans cet exemple, les auteurs demandent au modèle de générer des images pour un chat. En d'autres termes, une légende est générée pour l'image et celle-ci est utilisée pour piloter la génération du son. Clairement, cela peut être utilisé par les musiciens qui souhaitent enrichir leurs chansons avec des sons sans avoir à acheter des bibliothèques de sons. De plus, des modèles de texte en vidéo peuvent être utilisés pour générer des images et des vidéos et AudioGPT pour ajouter des sons.

source de l'image : ici

D'autre part, AudioGPT ne génère pas seulement des sons mais aussi de la parole humaine. Ce qui est étonnant, c'est que l'on peut spécifier les informations de note et la durée de la séquence. Le modèle génère ensuite le chant. En d'autres termes, on peut générer une chanson.

source de l'image : ici

De plus, étant donné un audio, il peut générer une vidéo. Nous pourrions donc potentiellement créer une chanson, puis générer le clip vidéo (le tout en utilisant un seul modèle)

source de l'image : ici

En outre, il peut être utilisé pour classer ce qui se passe dans l'audio. Le modèle conservant alors une connaissance de l'histoire, on pourrait imaginer des opérations séquentielles. Tous utilisent uniquement AudioGPT et son armée de modèles.

source de l'image : ici

Le modèle ne se limite pas à la capacité de générer des sons. Par exemple, il peut extraire des sons, puis éliminer un bruit de fond ou extraire un son pour l'utiliser dans un autre contexte

source de l'image : ici

Il peut également séparer les sources sonores, supprimer également le bruit

source de l'image : ici

et peut également traduire d'une langue à l'autre :

source de l'image : ici

Il semble donc incroyable ce que ce modèle peut faire. Tout cela simplement en jouant le rôle de chef d'orchestre de différents modèles. L'utilisateur n'a qu'à écrire l'invite et le modèle s'occupe du reste.

Mais n'a-t-il pas de limites ?

  • Ingénierie rapide. De toute évidence, la première limitation est que le modèle utilise essentiellement ChatGPT et que l'utilisateur doit pouvoir écrire dans l'invite, ce qui peut prendre du temps.
  • Limite de longueur. Comme avec d'autres modèles similaires (HuggingGPT), la longueur maximale de l'invite est la limite qui bloque le dialogue et le nombre maximal d'instructions que l'utilisateur peut donner.
  • Limitation de capacité. la limitation des modèles utilisés est limitée aux capacités d'AudioGPT lui-même.

Ou si vous ne voulez pas faire cela, vous pouvez utiliser la démo (vous avez également besoin d'une clé API OpenAI). N'oubliez pas que vous payez pour l'utiliser :

source de l'image : ici

Pensées d'adieu

image par Andrea Zanenga sur Unsplash

Ce modèle montre comment, avec une simple invite, un LM peut être connecté à plusieurs modèles capables de manipuler l'audio. Le modèle peut générer de la musique, des sons ou les modifier. Évidemment, ses capacités augmenteront en liant d'autres modèles ou en améliorant la précision des modèles utilisés. De cette façon, AudioGPT gagnera de nouvelles tâches possibles et en améliorera l'efficacité.

D'autre part, il existe des modèles très performants pour le texte et les images, mais ce n'est que récemment que nous avons vu des modèles capables d'exploiter la complexité audio.

Évidemment, ce n'est pas un modèle final, mais un démonstrateur des capacités du système. En fait, le modèle n'inclut pas toujours la tâche ou l'invite et la sortie est donc utile. À l'avenir, des modèles similaires pourront accomplir des tâches allant de la vidéo à la musique, des images au texte, et les lier ensemble.

De plus, un tel système n'est pas limité à l'audio ; on peut penser à des modèles qui lient différentes modalités. De tels systèmes pourraient ensuite être intégrés dans des logiciels qui modifient le son (par exemple, Ableton). À l'avenir, un utilisateur pourrait générer de l'audio avec l'IA, puis l'utiliser comme point de départ pour d'autres modifications avec un logiciel approprié. Ou ajoutez des sons et plus encore à une chanson enregistrée. De plus, pas nécessairement en utilisant une invite de texte, mais même des commandes vocales

Nous avons vu l'impact de la diffusion stable sur l'industrie graphique. L'industrie de la musique est la prochaine à voir les effets de l'intelligence artificielle. Cela ouvre de nouveaux scénarios, des problèmes de droits d'auteur et bien plus encore. Qu'en pensez-vous?

Si vous avez trouvé cela intéressant :

Vous pouvez rechercher mes autres articles, vous pouvez également vous abonner pour être averti lorsque je publie des articles, vous pouvez devenir membre Medium pour accéder à toutes ses histoires (liens affiliés de la plateforme pour lesquels je reçois de petits revenus sans frais pour vous) et vous pouvez également me connecter ou me joindre sur LinkedIn .

Voici le lien vers mon référentiel GitHub, où je prévois de collecter du code et de nombreuses ressources liées à l'apprentissage automatique, à l'intelligence artificielle, etc.

ou vous pourriez être intéressé par un de mes articles récents :

Tout sauf tout ce que vous devez savoir sur ChatGPT