Histoire particulière d'un moteur neuronal musical

Nov 30 2022

Pourquoi l'intelligence artificielle de Kena est-elle le moteur neuronal musical le plus puissant et le plus précis ? La réponse consiste à ignorer les normes de l'industrie et à commencer avec une nouvelle perspective. Quand j'ai commencé Kena, les gens disaient : « Si vous ne comprenez pas la théorie musicale, vous ne parviendrez pas à résoudre le problème.

Quand j'ai commencé Kena, les gens disaient : « Si vous ne comprenez pas la théorie musicale, vous ne parviendrez pas à résoudre le problème. En outre, de nombreux membres de la communauté d'apprentissage automatique existante ont "caca" l'idée que la simplification et la précision de la composition des commentaires musicaux construits à l'aide des réseaux de neurones ne peuvent pas être supérieures à HMM + couture à la main des règles de création (c'était en 2019).

J'ai tout ignoré. La plateforme d'IA de Kena est maintenant précise à 96 %. Voici une démo.

Comment avons-nous fait cela?

Alors que j'ai reconnu tous les aspects de la rétroaction, je voulais juste voir pourquoi ne pouvons-nous pas emprunter des idées de systèmes auto-supervisés et de systèmes d'apprentissage multitâches du domaine de la linguistique à la musique. Et aussi, pourquoi ne pouvons-nous pas emprunter des idées d'apprentissage représentationnel au domaine de l'informatique visuelle ? (Je travaillais en Vision et en Linguistique avant de sauter dans le domaine de l'Acoustique).

Si vous louchez un peu, les aspects d'apprentissage de la séquence de la musique sont similaires aux modèles de langage. Et si vous tournez un peu la tête, la segmentation d'instance des mélodies en densités spectrales s'apparente à du vision computing.

L'espace latent était similaire dans mon esprit. Je ne savais pas pourquoi la foule de "l'analyse de Fourier" me poursuivait avec des briques et des chauves-souris dans les groupes de discussion :) Je plaisante, les ingénieurs ML sont les plus gentils. S'il existe une communauté soudée dans une industrie, c'est bien la communauté des ingénieurs. Le code coule plus épais que le sang dans ces veines communes.

J'étais en effet novice en matière d'analyse musicale et d'informatique acoustique. C'était un avantage ! Je n'avais rien à "désapprendre" et je n'avais qu'une fantastique possibilité d'idées nouvelles à essayer qui était devant moi. Eh bien, ce n'est pas tout à fait vrai. J'ai dû apprendre beaucoup d'analyse spectrale pour amener le son dans le domaine de la vision. J'ai aussi dû apprendre beaucoup de techniques d'élimination du bruit dans le spectre auditif. Mais vous obtenez le point.

J'ai complètement ignoré les modèles de Markov cachés, car cela m'a obligé à apprendre la théorie musicale pour façonner les machines à états. Je l'ai ignoré non pas parce que je ne voulais pas apprendre le solfège. Je l'ai ignoré parce que je croyais que la théorie de la musique façonnant la main était le mauvais choix architectural pour une conception d'apprentissage automatique pour quelque chose d'aussi complexe que la musique.

J'ai ignoré la réduction de la dimensionnalité et la couture à la main des dimensions d'ordre inférieur à un aspect de la génération midi. J'ai ignoré les déformations temporelles dynamiques et les décodages de Viterbi très tôt dans les pipelines. Je les ai tous jetés et j'ai commencé par un système d'auto-apprentissage.

Étant donné le succès de l'application de l'apprentissage en profondeur aux problèmes existants dans le passé, je cherchais un mécanisme auto-supervisé pour former les modèles à l'aide de l'apprentissage en profondeur. Je suis tombé sur cet excellent article de l'équipe Google Brain, qui tentait de travailler sur un auto-encodeur Wave 2 midi 2 wave. ( Débuts et images : encodeur automatique à double objectif )

Conception d'encodeur automatique à double objectif

Voila, cette architecture était magnifique et a été construite pour s'entraîner sur la perte d'apparition et la perte de trame. Pourtant, le midi qu'il générait était super bruyant, très spécifique au piano et ne pouvait pas être facilement utilisé pour des traductions de partitions ou des diagnostics de trames musicales.

Néanmoins, l'idée architecturale était inspirante. J'ai construit un VQ-VAE (Vector Quantized Variational Autoencoder) basé sur la conception NMT de Onset et Frames avec les détails suivants.

(Je vais vous indiquer le premier secret de Kena.) Il est en compression VQ du Mel Spectrogram ;)
Au lieu de jouer uniquement au piano, entraînez également les modèles à la guitare.
Concentrez-vous sur une formation «multitâche» à deux tours pour un ensemble de données mineur qui s'entraîne sur un fichier midi plus propre à partir de partitions pour concevoir les erreurs vers la spécificité par rapport à la sensibilité.
Réentraîner l'ensemble du système pour éliminer les erreurs de type 2 et la spécificité par rapport à la sensibilité.

Concevoir vos fonctions de perte multi-tâches vers la spécificité et se concentrer sur mes ensembles de validation pendant la formation est l'endroit où la sauce magique de Kena existe dans le Music Neural Engine.

Avec cela, j'ai pu réaliser ce qui suit:

Une précision de transcription de près de 87% !! C'était déjà à des kilomètres d'avance sur les meilleures transcriptions basées sur HMM.
Le midi était clairsemé et quasi 100% identique à l'analogique sans perte de qualité.
La quantification vectorielle a conservé les signatures temporelles et les clés.

La beauté est que le VQ-VAE fonctionne proprement sur 40 instruments différents et 6 genres différents.

C'est dans la génération de ce Midi que réside 70% de la magie. J'ai codé tout le modèle jusqu'ici sans rien comprendre au solfège (Les gens me demandent si je code encore ‍♂️ ). C'était la beauté; Je n'ai pas eu à apprendre le solfège. J'ai construit un modèle qui a appris le solfège à ma place !

Les 30 % restants se trouvent dans des pipelines en aval pour peaufiner les transcriptions des clés et des signatures temporelles. Ces 30% sont le placage du dernier kilomètre qui nécessite des connaissances en théorie musicale et une compréhension des empreintes statistiques de la musique.

Entrez Mikey

Heureusement, j'ai trouvé un musicien de jazz professionnel et un ingénieur passionné d'apprentissage automatique, Mikey. (Michael Schwartz). Après lui avoir accordé un entretien de devoirs, je l'ai immédiatement embauché en tant qu'ingénieur fondateur en Machine Learning. Garçon, a-t-il accouché depuis? Les doigts dans le nez.

(Il fait également la démonstration de la puissance de l'intelligence artificielle de Kena dans la vidéo.)

Mikey a commencé à construire un pipeline d'architecture après que le Music Neural Engine ait craché un Midi propre. Plus précisément, ses pipelines et modèles effectuent les opérations suivantes :

Générez une sortie midi de toute partition téléchargée par le créateur.
Prenez la sortie midi présentée par le Music Neural Engine (qui n'est précis qu'à environ 87% sur 40 instruments et 6 genres) et comparez-les pour faire correspondre les notes et les lignes mélodiques.
Créez des modèles qui fournissent des commentaires humains sur les erreurs.
Créez un fichier de balisage d'erreur pour les balisages visuels dans les partitions.

Vous devez vérifier la vitesse de la pratique. Appliquez des déformations temporelles dynamiques pour normaliser la pratique et les fichiers cibles.
Effectuez les alignements de sous-séquences les plus longs pour comparer où dans la partition le praticien a commencé à jouer.
Vérifiez quelles sections le praticien a sautées et quelles sections le praticien a improvisées (qui n'étaient pas présentes dans les partitions)
Vérifiez les rythmes de style libre (Rubato) et le temps mélodique.
Vérifiez les trilles supplémentaires, les vibratos et les dimensions poilues de la musique.
Vérifiez les clés et les transpositions.
Et développez un modèle pour donner votre avis.

Par ailleurs, Mikey a également construit un fantastique modèle de simplification de partitions qui prend n'importe quelle partition complexe et la simplifie à plusieurs niveaux.

Tout ingénieur en Machine Learning qui se respecte sait que 80 % de l'effort consiste à améliorer les modèles ML de 85 % de précision à 95 % de précision. Se raser tous les 1% après cela est une tâche herculéenne.

Je suis tellement fier de Mikey de faire partie de l'équipe fondatrice de Kena. C'est un cheval de pouvoir. S'il y a une chose que j'ai réussi dans toute ma carrière de leader, c'est d'avoir un œil sur les talents exceptionnels, de leur donner les moyens d'atteindre des résultats insurmontables, et de rester à l'écoute en cas de besoin.

Ensemble, le Music Neural Engine + les pipelines Downstream ML sont l'origine de la puissance de Kena. Dans l'industrie, rien d'autre ne se rapproche de la précision, de la spécificité ou de la puissance de rétroaction qu'offre la plate-forme d'IA de Kena.