AudioGPT: ligando texto à música
Em 2022, o OpenAI DALL-E destruiu o mundo da arte. StableDiffusion praticamente deu o golpe de misericórdia. Desde o início, o apetite das grandes empresas de inteligência artificial se concentrou na próxima fronteira: a música.
Em janeiro de 2023, o MusicLM foi lançado pelo Google Research, que permitia que as pessoas usassem um prompt de texto para obter música. Há alguns dias foi lançado um modelo que é chatGPT mais música.
AudioGPT, um novo diretor sinfônico
Recentemente pesquisadores de universidades britânicas e americanas apresentaram um novo trabalho chamado AudioGPT
Como os autores reconhecem, o ChatGPT e os recentes avanços em modelos de PNL tiveram um grande impacto na sociedade. No entanto, limitaram-se ao texto e não obtiveram sucesso em outras modalidades (imagens, vídeo, texto). Agora parcialmente em imagens, vimos tentativas (e GPT-4 também deve ser multimodal, texto e imagens).
Em um cenário do mundo real, os humanos se comunicam usando a fala e também usam um assistente falado. Além disso, uma parte significativa do cérebro e da inteligência é dedicada ao processamento de informações de áudio. Na verdade, até mesmo uma grande parte da nossa sociedade não apenas se comunica, mas também ouve música e tem um monólogo interior. Portanto, um modelo que pode entender texto e música não é nada trivial.
Agora, processar música não é nada fácil por vários motivos:
- Dados, na verdade, obter dados de fala rotulados por humanos é uma tarefa muito mais cara do que extrair texto da web (e também mais demorado). Além disso, há muito menos material e, portanto, menos dados.
- é computacionalmente muito mais caro.
A ideia é ter um LLM como interface, este LLM então dialoga com modelos de fundação dedicados à fala e uma interface para diálogo de fala (interface de entrada/saída (ASR, TTS))
Conforme afirmam os autores, o processo pode ser dividido em quatro etapas:
- Modality Transformation , uma interface de entrada/saída para conectar texto e áudio.
- Análise de texto , para permitir que o ChatGPT entenda as intenções do usuário.
- Atribuição de modelo , ChatGPT atribui os modelos de base de áudio para compreensão e geração.
- Geração de resposta , uma resposta é gerada para o usuário.
Antes de entrar em detalhes, podemos dizer que o AudioGPT é um chatbot, que funciona como o ChatGPT. No entanto, ao contrário disso, ele também pode lidar com entradas como fala e áudio e realizar a manipulação dessas entradas.
O modelo, então, recebe entradas textuais e de fala. Se for entrada textual, ele a processa diretamente, se não for fala, ele a transcreve em texto.
Feito isso, o ChatGPT analisa a consulta do usuário (o modelo precisa entender o que o usuário está solicitando e qual tarefa ele gostaria que o usuário realizasse). Por exemplo, o usuário pode dizer “Transcreva este áudio” ou “produza o som de uma motocicleta sob a chuva”. Como vimos no HugginGPT, uma vez que o ChatGPT entende a solicitação, ele deve mapeá-la para uma tarefa que pode ser executada por outro modelo.
Depois de ter o pedido transformado em tarefa, seleciona entre os vários modelos disponíveis (os 17 modelos disponíveis estão descritos na tabela acima). Obviamente, cada modelo tem suas próprias especificações e pode realizar diferentes tarefas, o AudioGPT basicamente decide qual é o melhor modelo para uma tarefa. Além disso, os LLMs fazem a tarefa de enviar a requisição para que o modelo possa processá-los.
O modelo escolhido executa a tarefa (é usado na inferência sem ser retreinado) e envia os resultados para o ChatGPT. O ChatGPT gera uma resposta e também adiciona o resultado do modelo. Os LLMs então transformam a saída do modelo em um formato compreensível para o usuário, seja em forma de texto ou com um arquivo de áudio anexado.
A vantagem é que o processo é interativo e o ChatGPT tem memória da conversa. Então você pode vê-lo como uma extensão do ChatGPT para arquivos de áudio.
Os autores avaliaram o modelo com diferentes tarefas, conjuntos de dados e métricas:
Os autores decidiram avaliar o modelo também quanto à robustez, ao mesmo tempo em que prestavam atenção aos casos especiais que o modelo poderia encontrar:
- Longas cadeias de avaliação , o modelo deve considerar longas dependências de contexto para esta tarefa (como gerenciar uma sequência de modelos, diferentes modelos).
- Tarefas sem suporte , o modelo deve fornecer feedback adequado.
- Tratamento de erros de modelos multimodais , neste caso, podemos ter diferentes entradas e formatos que podem levar a erros e falha do modelo.
- Quebras de contexto , as consultas enviadas pelo usuário não estão necessariamente em uma sequência lógica, mas podem estar em ordem aleatória.
Aqui podemos ver alguns exemplos, por exemplo, AudioGPT é capaz de gerar sons a partir de imagens. Neste exemplo, os autores pedem ao modelo para gerar imagens para um gato. Ou seja, uma legenda é gerada para a imagem e esta é utilizada para conduzir a geração do som. Claramente, isso pode ser usado por músicos que desejam enriquecer suas músicas com sons sem precisar comprar bibliotecas de som. Além disso, modelos de texto para vídeo podem ser usados para gerar imagens e vídeos e AudioGPT para adicionar sons.
Por outro lado, AudioGPT não apenas gera sons, mas também fala humana. O que é surpreendente é que se pode especificar informações de notas e a duração da sequência. O modelo então gera o canto. Em outras palavras, pode-se gerar uma música.
Além disso, dado um áudio pode gerar um vídeo. Assim, poderíamos criar uma música e, em seguida, gerar o videoclipe (tudo usando um modelo)
Além disso, pode ser usado para classificar o que acontece no áudio. Como o modelo mantém o conhecimento da história, podemos imaginar operações sequenciais. Todos usam apenas AudioGPT e seu exército de modelos.
O modelo não se limita à capacidade de gerar sons. Por exemplo, ele pode extrair sons, eliminar o ruído de fundo ou extrair um som para uso em outro contexto
Ele também pode separar fontes de som, remover ruídos também
e também pode traduzir de um idioma para outro:
Parece, portanto, incrível o que este modelo pode fazer. Tudo isso simplesmente atuando como um condutor de diferentes modelos. O usuário só precisa escrever o prompt e o modelo cuida do resto.
Mas não tem limitações?
- Engenharia Pronta. Obviamente, a primeira limitação é que o modelo usa basicamente o ChatGPT e o usuário precisa ser capaz de escrever no prompt, o que pode ser demorado.
- Limitação de Comprimento. Como em outros modelos semelhantes (HuggingGPT), o comprimento máximo do prompt é o limite que bloqueia o diálogo e o número máximo de instruções que o usuário pode dar.
- Limitação de Capacidade. a limitação de modelos usados é limitada aos recursos do próprio AudioGPT.
Ou se você não quiser fazer isso, pode usar a demonstração (você também precisa de uma chave de API OpenAI). Lembre-se de que você paga para usá-lo:
Pensamentos de despedida
Este modelo mostra como, com um simples prompt, um LM pode ser conectado a vários modelos capazes de manipular áudio. O modelo pode gerar música e sons, ou modificá-los. Obviamente, suas capacidades aumentarão vinculando outros modelos ou melhorando a precisão dos modelos usados. Desta forma, o AudioGPT ganhará novas tarefas possíveis e melhorará a eficiência delas.
Por outro lado, existem modelos de alto desempenho para texto e imagens, mas só recentemente vimos modelos capazes de aproveitar a complexidade do áudio.
Obviamente, este não é um modelo final, mas um demonstrador das capacidades do sistema. De fato, o modelo nem sempre inclui a tarefa ou prompt e, portanto, a saída é útil. No futuro, modelos semelhantes serão capazes de realizar tarefas de vídeo a música, de imagens a texto e vinculá-los.
Além disso, esse sistema não se limita ao áudio; pode-se pensar em modelos que unem diferentes modalidades. Esses sistemas poderiam então ser integrados a um software que modifica o som (por exemplo, Ableton). No futuro, um usuário pode gerar áudio com IA e usá-lo como ponto de partida para modificações adicionais com software adequado. Ou adicione sons e muito mais a uma música gravada. Além disso, não necessariamente usando um prompt de texto, mas até mesmo comandos de voz
Vimos o impacto da difusão estável na indústria gráfica. A indústria da música é a próxima a ver os efeitos da inteligência artificial. Isso abre novos cenários, questões de direitos autorais e muito mais. O que é que vocês acham?
Se você achou isso interessante:
Você pode procurar meus outros artigos, também pode se inscrever para ser notificado quando eu publicar artigos, pode se tornar um membro do Medium para acessar todas as suas histórias (links afiliados da plataforma pela qual recebo pequenas receitas sem custo para você) e você também pode se conectar ou entrar em contato comigo no LinkedIn .
Aqui está o link para meu repositório GitHub, onde pretendo coletar código e muitos recursos relacionados a aprendizado de máquina, inteligência artificial e muito mais.
ou você pode estar interessado em um dos meus artigos recentes:
Tudo, mas tudo o que você precisa saber sobre o ChatGPT