AudioGPT: ligando texto à música

May 09 2023
Um novo modelo AI conecta ChatGPT com modelos de áudio e música
Em 2022, o OpenAI DALL-E destruiu o mundo da arte. StableDiffusion praticamente deu o golpe de misericórdia.
imagem de Marcela Laskoski no Unsplash

Em 2022, o OpenAI DALL-E destruiu o mundo da arte. StableDiffusion praticamente deu o golpe de misericórdia. Desde o início, o apetite das grandes empresas de inteligência artificial se concentrou na próxima fronteira: a música.

Em janeiro de 2023, o MusicLM foi lançado pelo Google Research, que permitia que as pessoas usassem um prompt de texto para obter música. Há alguns dias foi lançado um modelo que é chatGPT mais música.

AudioGPT, um novo diretor sinfônico

imagem de Kazuo ota no Unsplash

Recentemente pesquisadores de universidades britânicas e americanas apresentaram um novo trabalho chamado AudioGPT

Como os autores reconhecem, o ChatGPT e os recentes avanços em modelos de PNL tiveram um grande impacto na sociedade. No entanto, limitaram-se ao texto e não obtiveram sucesso em outras modalidades (imagens, vídeo, texto). Agora parcialmente em imagens, vimos tentativas (e GPT-4 também deve ser multimodal, texto e imagens).

Em um cenário do mundo real, os humanos se comunicam usando a fala e também usam um assistente falado. Além disso, uma parte significativa do cérebro e da inteligência é dedicada ao processamento de informações de áudio. Na verdade, até mesmo uma grande parte da nossa sociedade não apenas se comunica, mas também ouve música e tem um monólogo interior. Portanto, um modelo que pode entender texto e música não é nada trivial.

Agora, processar música não é nada fácil por vários motivos:

  • Dados, na verdade, obter dados de fala rotulados por humanos é uma tarefa muito mais cara do que extrair texto da web (e também mais demorado). Além disso, há muito menos material e, portanto, menos dados.
  • é computacionalmente muito mais caro.

A ideia é ter um LLM como interface, este LLM então dialoga com modelos de fundação dedicados à fala e uma interface para diálogo de fala (interface de entrada/saída (ASR, TTS))

fonte da imagem: aqui

Conforme afirmam os autores, o processo pode ser dividido em quatro etapas:

  • Modality Transformation , uma interface de entrada/saída para conectar texto e áudio.
  • Análise de texto , para permitir que o ChatGPT entenda as intenções do usuário.
  • Atribuição de modelo , ChatGPT atribui os modelos de base de áudio para compreensão e geração.
  • Geração de resposta , uma resposta é gerada para o usuário.

Antes de entrar em detalhes, podemos dizer que o AudioGPT é um chatbot, que funciona como o ChatGPT. No entanto, ao contrário disso, ele também pode lidar com entradas como fala e áudio e realizar a manipulação dessas entradas.

fonte da imagem: aqui

O modelo, então, recebe entradas textuais e de fala. Se for entrada textual, ele a processa diretamente, se não for fala, ele a transcreve em texto.

Feito isso, o ChatGPT analisa a consulta do usuário (o modelo precisa entender o que o usuário está solicitando e qual tarefa ele gostaria que o usuário realizasse). Por exemplo, o usuário pode dizer “Transcreva este áudio” ou “produza o som de uma motocicleta sob a chuva”. Como vimos no HugginGPT, uma vez que o ChatGPT entende a solicitação, ele deve mapeá-la para uma tarefa que pode ser executada por outro modelo.

Depois de ter o pedido transformado em tarefa, seleciona entre os vários modelos disponíveis (os 17 modelos disponíveis estão descritos na tabela acima). Obviamente, cada modelo tem suas próprias especificações e pode realizar diferentes tarefas, o AudioGPT basicamente decide qual é o melhor modelo para uma tarefa. Além disso, os LLMs fazem a tarefa de enviar a requisição para que o modelo possa processá-los.

O modelo escolhido executa a tarefa (é usado na inferência sem ser retreinado) e envia os resultados para o ChatGPT. O ChatGPT gera uma resposta e também adiciona o resultado do modelo. Os LLMs então transformam a saída do modelo em um formato compreensível para o usuário, seja em forma de texto ou com um arquivo de áudio anexado.

A vantagem é que o processo é interativo e o ChatGPT tem memória da conversa. Então você pode vê-lo como uma extensão do ChatGPT para arquivos de áudio.

um exemplo de uma tarefa executada. fonte da imagem: aqui

Os autores avaliaram o modelo com diferentes tarefas, conjuntos de dados e métricas:

fonte da imagem: aqui

Os autores decidiram avaliar o modelo também quanto à robustez, ao mesmo tempo em que prestavam atenção aos casos especiais que o modelo poderia encontrar:

  • Longas cadeias de avaliação , o modelo deve considerar longas dependências de contexto para esta tarefa (como gerenciar uma sequência de modelos, diferentes modelos).
  • Tarefas sem suporte , o modelo deve fornecer feedback adequado.
  • Tratamento de erros de modelos multimodais , neste caso, podemos ter diferentes entradas e formatos que podem levar a erros e falha do modelo.
  • Quebras de contexto , as consultas enviadas pelo usuário não estão necessariamente em uma sequência lógica, mas podem estar em ordem aleatória.

Aqui podemos ver alguns exemplos, por exemplo, AudioGPT é capaz de gerar sons a partir de imagens. Neste exemplo, os autores pedem ao modelo para gerar imagens para um gato. Ou seja, uma legenda é gerada para a imagem e esta é utilizada para conduzir a geração do som. Claramente, isso pode ser usado por músicos que desejam enriquecer suas músicas com sons sem precisar comprar bibliotecas de som. Além disso, modelos de texto para vídeo podem ser usados ​​para gerar imagens e vídeos e AudioGPT para adicionar sons.

fonte da imagem: aqui

Por outro lado, AudioGPT não apenas gera sons, mas também fala humana. O que é surpreendente é que se pode especificar informações de notas e a duração da sequência. O modelo então gera o canto. Em outras palavras, pode-se gerar uma música.

fonte da imagem: aqui

Além disso, dado um áudio pode gerar um vídeo. Assim, poderíamos criar uma música e, em seguida, gerar o videoclipe (tudo usando um modelo)

fonte da imagem: aqui

Além disso, pode ser usado para classificar o que acontece no áudio. Como o modelo mantém o conhecimento da história, podemos imaginar operações sequenciais. Todos usam apenas AudioGPT e seu exército de modelos.

fonte da imagem: aqui

O modelo não se limita à capacidade de gerar sons. Por exemplo, ele pode extrair sons, eliminar o ruído de fundo ou extrair um som para uso em outro contexto

fonte da imagem: aqui

Ele também pode separar fontes de som, remover ruídos também

fonte da imagem: aqui

e também pode traduzir de um idioma para outro:

fonte da imagem: aqui

Parece, portanto, incrível o que este modelo pode fazer. Tudo isso simplesmente atuando como um condutor de diferentes modelos. O usuário só precisa escrever o prompt e o modelo cuida do resto.

Mas não tem limitações?

  • Engenharia Pronta. Obviamente, a primeira limitação é que o modelo usa basicamente o ChatGPT e o usuário precisa ser capaz de escrever no prompt, o que pode ser demorado.
  • Limitação de Comprimento. Como em outros modelos semelhantes (HuggingGPT), o comprimento máximo do prompt é o limite que bloqueia o diálogo e o número máximo de instruções que o usuário pode dar.
  • Limitação de Capacidade. a limitação de modelos usados ​​é limitada aos recursos do próprio AudioGPT.

Ou se você não quiser fazer isso, pode usar a demonstração (você também precisa de uma chave de API OpenAI). Lembre-se de que você paga para usá-lo:

fonte da imagem: aqui

Pensamentos de despedida

imagem de Andrea Zanenga no Unsplash

Este modelo mostra como, com um simples prompt, um LM pode ser conectado a vários modelos capazes de manipular áudio. O modelo pode gerar música e sons, ou modificá-los. Obviamente, suas capacidades aumentarão vinculando outros modelos ou melhorando a precisão dos modelos usados. Desta forma, o AudioGPT ganhará novas tarefas possíveis e melhorará a eficiência delas.

Por outro lado, existem modelos de alto desempenho para texto e imagens, mas só recentemente vimos modelos capazes de aproveitar a complexidade do áudio.

Obviamente, este não é um modelo final, mas um demonstrador das capacidades do sistema. De fato, o modelo nem sempre inclui a tarefa ou prompt e, portanto, a saída é útil. No futuro, modelos semelhantes serão capazes de realizar tarefas de vídeo a música, de imagens a texto e vinculá-los.

Além disso, esse sistema não se limita ao áudio; pode-se pensar em modelos que unem diferentes modalidades. Esses sistemas poderiam então ser integrados a um software que modifica o som (por exemplo, Ableton). No futuro, um usuário pode gerar áudio com IA e usá-lo como ponto de partida para modificações adicionais com software adequado. Ou adicione sons e muito mais a uma música gravada. Além disso, não necessariamente usando um prompt de texto, mas até mesmo comandos de voz

Vimos o impacto da difusão estável na indústria gráfica. A indústria da música é a próxima a ver os efeitos da inteligência artificial. Isso abre novos cenários, questões de direitos autorais e muito mais. O que é que vocês acham?

Se você achou isso interessante:

Você pode procurar meus outros artigos, também pode se inscrever para ser notificado quando eu publicar artigos, pode se tornar um membro do Medium para acessar todas as suas histórias (links afiliados da plataforma pela qual recebo pequenas receitas sem custo para você) e você também pode se conectar ou entrar em contato comigo no LinkedIn .

Aqui está o link para meu repositório GitHub, onde pretendo coletar código e muitos recursos relacionados a aprendizado de máquina, inteligência artificial e muito mais.

ou você pode estar interessado em um dos meus artigos recentes:

Tudo, mas tudo o que você precisa saber sobre o ChatGPT