La peculiar historia de un motor neuronal musical

Nov 30 2022

¿Por qué la Inteligencia Artificial de Kena es el Motor Neural Musical más potente y preciso? La respuesta está en ignorar los estándares de la industria y comenzar con una nueva perspectiva. Cuando inicié Kena, la gente decía: “Si no entiendes la teoría musical, no podrás resolver el problema.

¿Por qué la Inteligencia Artificial de Kena es el Motor Neural Musical más potente y preciso? La respuesta está en ignorar los estándares de la industria y comenzar con una nueva perspectiva.

Cuando comencé Kena, la gente decía: "Si no entiendes la teoría musical, no podrás resolver el problema". Además, muchos de los miembros de la comunidad de Machine Learning existente "poo-poo" la idea de que la simplificación y la precisión de la composición de la retroalimentación de la música creada con redes neuronales no puede ser mayor que HMM + cosido a mano de las reglas creativas (esto fue en 2019).

Lo ignoré todo. La plataforma de inteligencia artificial de Kena ahora tiene una precisión del 96 %. Aquí hay una demostración.

¿Cómo hicimos esto?

Si bien reconocí todos los aspectos de la retroalimentación, solo quería ver por qué no podemos tomar prestadas ideas de sistemas autosupervisados y sistemas de aprendizaje de tareas múltiples del campo de la lingüística a la música. Y también, ¿por qué no podemos tomar prestadas ideas de aprendizaje representacional del campo de la computación visual? (Estaba trabajando en Visión y Lingüística antes de saltar al campo de la Acústica).

Si entrecierra los ojos un poco, los aspectos de aprendizaje de secuencias de la música son similares a los modelos de lenguaje. Y si giras un poco la cabeza, la segmentación de instancias de melodías en densidades espectrales es similar a la computación visual.

El espacio latente era similar en mi mente. No estaba seguro de por qué la multitud del "análisis de Fourier" me perseguía con ladrillos y bates en los grupos de chat :) Es broma, los ingenieros de ML son los más amables. Si hay una comunidad muy unida en cualquier industria, es la comunidad de ingenieros. El código corre más espeso que la sangre en estas venas comunales.

De hecho, era un novato en el análisis musical y la computación acústica. ¡Esto fue una ventaja! No tenía nada que “desaprender” y solo tenía una posibilidad fantástica de ideas novedosas para probar que estaba frente a mí. Bueno, eso no es completamente cierto. Tuve que aprender mucho sobre análisis espectral para llevar el sonido al dominio de la visión. También tuve que aprender muchas técnicas de eliminación de ruido en el espectro auditivo. Pero usted consigue el punto.

Ignoré completamente los modelos ocultos de Markov porque esto me obligaba a aprender teoría musical para dar forma a las máquinas de estado. Lo ignoré no porque no quisiera aprender teoría musical. Lo ignoré porque creía que la teoría de la música moldeada a mano era la elección arquitectónica incorrecta para un diseño de aprendizaje automático para algo tan complejo como la música.

Ignoré la reducción de dimensionalidad y la unión manual de dimensiones de orden inferior a un aspecto de la generación midi. Ignoré las deformaciones dinámicas del tiempo y las decodificaciones de Viterbi muy temprano en las canalizaciones. Los tiré a la basura y comencé primero con un sistema de autoaprendizaje.

Dado el éxito de aplicar el aprendizaje profundo a problemas existentes en el pasado, buscaba un mecanismo autosupervisado para entrenar los modelos usando el aprendizaje profundo. Me topé con este excelente artículo del equipo de Google Brain, que intentaba trabajar en un codificador automático Wave 2 midi 2 wave. ( Inicios y marcos: Codificador automático de doble objetivo )

Diseño de codificador automático de doble objetivo

Voila, esta arquitectura era hermosa y fue construida para entrenar en pérdida de inicio y pérdida de cuadros. Aún así, el midi que estaba generando era súper ruidoso, muy específico para piano, y no podía usarse fácilmente para traducciones de partituras o diagnósticos de marcos musicales.

Sin embargo, la idea arquitectónica fue inspiradora. Construí un VQ-VAE (Codificador automático variacional cuantificado por vector) basado en el diseño NMT de Onset y Frames con los siguientes detalles.

(Te señalaré el primer secreto de Kena). Está en compresión VQ del espectrograma de Mel;)
En lugar de solo piano, entrene a los modelos en guitarra también.
Concéntrese en un entrenamiento "multitarea" de dos torres para un conjunto de datos menor que se entrena en un archivo midi más limpio a partir de una partitura para diseñar los errores hacia la especificidad en lugar de la sensibilidad.
Vuelva a entrenar todo el sistema para eliminar los errores de tipo 2 y la especificidad frente a la sensibilidad.

Diseñar sus funciones de pérdida multitarea hacia la especificidad y centrarse en mis conjuntos de validación durante el entrenamiento es donde existe la mayor parte de la salsa mágica de Kena en Music Neural Engine.

Con esto pude lograr lo siguiente:

¡¡Una precisión de transcripción de casi el 87%!! Esto ya estaba muy por delante de las mejores transcripciones basadas en HMM de su clase.
El midi era escaso y casi 100% idéntico al analógico sin perder calidad.
La cuantización de vectores retuvo las firmas de tiempo y las claves.

La belleza es que el VQ-VAE funciona limpiamente en 40 instrumentos diferentes y 6 géneros diferentes.

Generar este Midi es donde reside el 70% de la magia. Codifiqué todo el modelo hasta aquí sin entender nada de teoría musical (la gente pregunta si todavía codifico ‍♂️). Esa era la belleza; No tuve que aprender teoría musical. ¡Construí un modelo que aprendió teoría musical en mi nombre!

El 30% restante se encuentra en canalizaciones posteriores para pulir las transcripciones de claves y firmas de tiempo. Este 30% es el barniz de última milla que requiere conocimientos de teoría musical y una comprensión de las huellas estadísticas de la música.

Entra mikey

Afortunadamente, encontré un músico de jazz profesional y un ingeniero apasionado por el aprendizaje automático, Mikey. (Michael Schwartz). Después de darle una entrevista de tarea, lo contraté de inmediato como ingeniero fundador de Machine Learning. Chico, ¿ha dado a luz desde entonces? Manos abajo.

(También está demostrando el poder de la Inteligencia Artificial de Kena en el video).

Mikey comenzó a construir una tubería de arquitectura después de que Music Neural Engine arrojara un Midi limpio. Específicamente, sus canalizaciones y modelos hacen lo siguiente:

Genere una salida midi de cualquier partitura cargada por el creador.
Tome la salida midi presentada por Music Neural Engine (que tiene solo un 87 % de precisión en 40 instrumentos y 6 géneros) y compárelos para que coincidan con las notas y las líneas melódicas.
Cree plantillas que proporcionen comentarios similares a los humanos sobre los errores.
Cree un archivo de marcado de errores para Visual Markups en partituras.

Tienes que comprobar la velocidad de la práctica. Aplique distorsiones de tiempo dinámicas para normalizar la práctica y los archivos de destino.
Realice alineaciones de subsecuencias más largas para comparar en qué parte de la partitura el practicante comenzó a tocar.
Verifique qué secciones se saltó el practicante y qué secciones improvisó el practicante (eso no estaba presente en la partitura)
Compruebe los ritmos de estilo libre (Rubato) y el tiempo melódico.
Compruebe si hay trinos, vibratos y dimensiones peludas adicionales de la música.
Compruebe las claves y las transposiciones.
Y desarrolle una plantilla para dar retroalimentación.

Por separado, Mikey también creó un fantástico modelo de simplificación de partituras que toma cualquier partitura compleja y la simplifica a varios niveles.

Cualquier ingeniero de Machine Learning que se precie sabe que el 80 % del esfuerzo consiste en mejorar los modelos de ML del 85 % al 95 % de precisión. Afeitarse cada 1% después de eso es una tarea hercúlea.

Estoy muy orgulloso de Mikey por ser parte del equipo fundador de Kena. Él es un caballo de fuerza. Si hay algo en lo que he tenido éxito en toda mi carrera de liderazgo, es tener buen ojo para los talentos excepcionales, empoderarlos para que logren resultados insuperables y simplemente esperar en el sofá cuando sea necesario.

Juntos, Music Neural Engine + las canalizaciones de Downstream ML son de donde proviene el poder de Kena. En la industria, nada más se acerca a la precisión, la especificidad o el poder de retroalimentación que ofrece la plataforma de IA de Kena.