História peculiar de um mecanismo neural de música

Nov 30 2022

Por que a Inteligência Artificial de Kena é o mecanismo neural musical mais poderoso e preciso? A resposta está em ignorar os padrões da indústria e começar com uma nova perspectiva. Quando comecei o Kena, as pessoas diziam: “Se você não entender a teoria musical, não conseguirá resolver o problema.

Por que a Inteligência Artificial de Kena é o mecanismo neural musical mais poderoso e preciso? A resposta está em ignorar os padrões da indústria e começar com uma nova perspectiva.

Quando comecei o Kena, as pessoas diziam: “Se você não entender a teoria musical, não conseguirá resolver o problema”. Além disso, muitos membros da comunidade de aprendizado de máquina existente “fizeram cocô” da ideia de que a simplificação e a precisão da composição do feedback musical construído usando redes neurais não podem ser maiores do que HMM + costura manual das regras criativas (isso foi em 2019).

Eu ignorei tudo isso. A plataforma de IA da Kena agora tem 96% de precisão. Aqui está uma demonstração.

Como fizemos isso?

Embora eu reconhecesse todos os aspectos do feedback, eu só queria ver por que não podemos emprestar ideias de sistemas auto-supervisionados e sistemas de aprendizado multitarefa do campo da lingüística para a música. E também, por que não podemos emprestar ideias de aprendizagem representacional do campo da computação visual? (Eu estava trabalhando em Visão e Linguística antes de entrar no campo da Acústica).

Se você apertar os olhos um pouco, os aspectos de aprendizado de sequência da música são semelhantes aos modelos de linguagem. E se você virar um pouco a cabeça, a segmentação de instância de melodias em densidades espectrais é semelhante à computação de visão.

O espaço latente era semelhante em minha mente. Eu não sabia por que a turma da “análise de Fourier” estava me perseguindo com tijolos e bastões nos grupos de bate-papo :) Brincadeira, os engenheiros de ML são os mais gentis. Se existe uma comunidade coesa em qualquer setor, é a comunidade de engenharia. O código corre mais grosso que o sangue nessas veias comunais.

Eu era realmente um novato em análise musical e computação acústica. Isso foi uma vantagem! Eu não tinha nada para “desaprender” e só tinha uma possibilidade fantástica de novas ideias para experimentar que estava na minha frente. Bem, isso não é completamente verdade. Tive que aprender muita análise espectral para trazer o som para o domínio da visão. Também tive que aprender muitas técnicas de eliminação de ruído no espectro auditivo. Mas você entendeu.

Ignorei totalmente os Modelos Ocultos de Markov porque isso exigia que eu aprendesse teoria musical para moldar as máquinas de estado. Eu ignorei não porque não queria aprender teoria musical. Ignorei porque acreditava que a teoria musical de modelagem manual era a escolha arquitetônica errada para um projeto de aprendizado de máquina para algo tão complexo quanto a música.

Ignorei a redução de dimensionalidade e costura manual de dimensões de ordem inferior para um aspecto da geração midi. Ignorei as distorções dinâmicas do tempo e as decodificações de Viterbi bem no início dos pipelines. Joguei tudo fora e comecei com um sistema de autoaprendizagem primeiro.

Dado o sucesso da aplicação de aprendizado profundo a problemas existentes no passado, eu estava procurando um mecanismo autossupervisionado para treinar os modelos usando aprendizado profundo. Eu me deparei com este excelente artigo da equipe do Google Brain, que estava tentando trabalhar em um autoencoder Wave 2 midi 2 wave. ( Inícios e quadros: codificador automático de objetivo duplo )

Design de codificador automático de objetivo duplo

Voila, essa arquitetura era linda e foi construída para treinar na perda de início e na perda de quadro. Ainda assim, o midi que ele estava gerando era muito ruidoso, muito específico para piano e não podia ser facilmente usado para traduções de partituras ou diagnósticos de quadros musicais.

No entanto, a ideia arquitetônica foi inspiradora. Eu construí um VQ-VAE (Vector Quantized Variational Autoencoder) baseado no projeto NMT de Onset e Frames com os seguintes detalhes.

(Vou apontar o primeiro segredo de Kena.) Está na compressão VQ do Mel Spectrogram ;)
Ao invés de apenas Piano, treine os modelos também em Guitarra.
Concentre-se em um treinamento “multitarefa” de duas torres para um conjunto de dados menor que treina em um arquivo midi mais limpo de partituras para projetar os erros em relação à especificidade em relação à sensibilidade.
Retreine todo o sistema para eliminar erros do tipo 2 e especificidade em relação à sensibilidade.

Projetar suas funções de perda multitarefa em direção à especificidade e focar em meus conjuntos de validação durante o treinamento é onde a maior parte do molho mágico de Kena existe no Music Neural Engine.

Com isso, consegui o seguinte:

Uma precisão de transcrição de quase 87%!! Isso já estava muito à frente das melhores transcrições baseadas em HMM da categoria.
O midi ficou esparso e quase 100% idêntico ao analógico sem perder a qualidade.
A quantização vetorial reteve fórmulas de compasso e chaves.

A beleza é que o VQ-VAE funciona perfeitamente em 40 instrumentos diferentes e 6 gêneros diferentes.

Gerar este Midi é onde reside 70% da magia. Codifiquei todo o modelo até aqui sem entender nada de teoria musical (As pessoas perguntam se eu ainda codifico ‍♂️ ). Essa era a beleza; Eu não tive que aprender teoria musical. Eu construí um modelo que aprendeu teoria musical para mim!

Os 30% restantes estão em pipelines downstream para polir as transcrições de chaves e fórmulas de compasso. Esses 30% são o verniz da última milha que requer conhecimento de teoria musical e uma compreensão das pegadas estatísticas da música.

Entra Mikey

Felizmente, encontrei um músico de jazz profissional e um engenheiro de aprendizado de máquina apaixonado, Mikey. (Michael Schwartz). Depois de dar a ele uma entrevista de dever de casa, contratei-o imediatamente como engenheiro fundador de aprendizado de máquina. Rapaz, ele entregou desde então? Mãos para baixo.

(Ele também está demonstrando o poder da Inteligência Artificial de Kena no vídeo.)

Mikey começou a construir um pipeline de arquitetura depois que o Music Neural Engine cuspiu um Midi limpo. Especificamente, seus pipelines e modelos fazem o seguinte:

Gere uma saída midi de qualquer partitura carregada pelo criador.
Pegue a saída midi apresentada pelo Music Neural Engine (que tem apenas cerca de 87% de precisão em 40 instrumentos e 6 gêneros) e compare-os para corresponder às notas e linhas melódicas.
Crie modelos que forneçam feedback humano sobre erros.
Crie um arquivo de marcação de erro para marcações visuais em partituras.

Você tem que verificar a velocidade da prática. Aplique distorções de tempo dinâmicas para normalizar a prática e os arquivos de destino.
Realize alinhamentos de subsequência mais longos para comparar onde na partitura o praticante começou a tocar.
Verifique quais seções o praticante pulou e quais seções o praticante improvisou (que não estavam presentes na partitura)
Verifique os ritmos freestyle (Rubato) e o tempo melódico.
Verifique se há trinados, vibratos e dimensões cabeludas de música adicionais.
Verifique as tonalidades e transposições.
E desenvolva um modelo para dar feedback.

Separadamente, Mikey também construiu um fantástico modelo de simplificação de partituras que pega qualquer partitura complexa e a simplifica em vários níveis.

Qualquer engenheiro de aprendizado de máquina que se preze sabe que 80% do esforço é melhorar os modelos de ML de 85% para 95% de precisão. Raspar a cada 1% depois disso é uma tarefa hercúlea.

Estou muito orgulhoso de Mikey por fazer parte da equipe fundadora da Kena. Ele é um cavalo de força. Se há uma coisa em que fui bem-sucedido em toda a minha carreira de liderança, é ter um olho para talentos excepcionais, capacitando-os para alcançar resultados insuperáveis e apenas ficar de prontidão quando necessário.

Juntos, o Music Neural Engine + os pipelines Downstream ML coletivamente são de onde vem o poder de Kena. Na indústria, nada mais chega perto da precisão, especificidade ou poder de feedback que a plataforma de IA da Kena oferece.