Eigenartige Geschichte einer Musik-Neural-Engine

Nov 30 2022

Warum ist die künstliche Intelligenz von Kena die leistungsfähigste und genaueste Music Neural Engine? Die Antwort liegt darin, Industriestandards zu ignorieren und mit einer neuen Perspektive zu beginnen. Als ich mit Kena anfing, sagten die Leute: „Wenn du die Musiktheorie nicht verstehst, wirst du das Problem nicht lösen können.

Als ich mit Kena anfing, sagten die Leute: „Wenn du die Musiktheorie nicht verstehst, wirst du das Problem nicht lösen können.“ Außerdem haben viele der bestehenden Machine-Learning-Community die Idee „kaputt gemacht“, dass die Vereinfachung und kompositorische Genauigkeit von Musik-Feedback, das mit neuronalen Netzwerken erstellt wurde, nicht größer sein kann als HMM + handgenähte kreative Regeln (Dies war im Jahr 2019).

Ich habe das alles ignoriert. Die KI-Plattform von Kena ist jetzt zu 96 % genau. Hier ist eine Demo.

Wie haben wir das gemacht?

Obwohl ich jeden Aspekt des Feedbacks anerkannt habe, wollte ich nur sehen, warum wir nicht Ideen von selbstüberwachten Systemen und Multitasking-Lernsystemen aus dem Bereich der Linguistik in die Musik übernehmen können. Und warum können wir uns nicht Ideen des repräsentationalen Lernens aus dem Bereich des Vision Computing leihen? (Ich habe in Vision und Linguistik gearbeitet, bevor ich in den Bereich Akustik eingestiegen bin).

Wenn Sie ein wenig die Augen zusammenkneifen, ähneln die Aspekte des Sequenzlernens in der Musik den Sprachmodellen. Und wenn man den Kopf ein wenig dreht, ähnelt die Instanzsegmentierung von Melodien in spektralen Dichten dem Vision Computing.

Der latente Raum war in meiner Vorstellung ähnlich. Ich war mir nicht sicher, warum die „Fourier-Analyse“-Crowd mich mit Ziegeln und Fledermäusen in den Chat-Gruppen verfolgte :) Nur ein Scherz, ML-Ingenieure sind die nettesten. Wenn es in irgendeiner Branche eine engmaschige Community gibt, dann ist es die Engineering-Community. Der Code fließt dicker als Blut in diesen kommunalen Adern.

Ich war in der Tat ein Neuling in Sachen Musikanalyse und Acoustic Computing. Das war ein Vorteil! Ich musste nichts „verlernen“ und hatte nur eine fantastische Möglichkeit, neue Ideen auszuprobieren, die vor mir lag. Nun, das ist nicht ganz richtig. Ich musste viel Spektralanalyse lernen, um Ton in den Sehbereich zu bringen. Ich musste auch viele Rauschunterdrückungstechniken im Hörspektrum lernen. Aber Sie verstehen, worauf es ankommt.

Ich habe Hidden-Markov-Modelle komplett ignoriert, weil ich dazu Musiktheorie lernen musste, um die Zustandsmaschinen zu formen. Ich ignorierte es nicht, weil ich keine Musiktheorie lernen wollte. Ich habe es ignoriert, weil ich glaubte, dass die handgeformte Musiktheorie die falsche architektonische Wahl für ein maschinelles Lerndesign für etwas so Komplexes wie Musik war.

Ich habe die Dimensionalitätsreduzierung und das manuelle Zusammenfügen von Dimensionen niedrigerer Ordnung zu einem Aspekt der Midi-Generierung ignoriert. Ich habe dynamische Zeitverzerrungen und Viterbi-Decodierungen schon früh in den Pipelines ignoriert. Ich habe sie alle rausgeschmissen und erstmal mit einem selbstlernenden System angefangen.

Angesichts des Erfolgs, Deep Learning in der Vergangenheit auf bestehende Probleme anzuwenden, suchte ich nach einem selbstüberwachten Mechanismus, um die Modelle mit Deep Learning zu trainieren. Ich bin auf dieses ausgezeichnete Papier des Google Brain-Teams gestoßen, das versuchte, an einem Wave-2-Midi-2-Wave-Autoencoder zu arbeiten. ( Onsets und Frames: Dual Objective Auto Encoder )

Dual-Objective-Auto-Encoder-Design

Voila, diese Architektur war wunderschön und wurde gebaut, um Onset-Loss und Frame-Loss zu trainieren. Dennoch war das von ihm erzeugte Midi super laut, sehr klavierspezifisch und konnte nicht einfach für Notenübersetzungen oder die Diagnose von musikalischen Rahmen verwendet werden.

Dennoch war die architektonische Idee inspirierend. Ich habe einen VQ-VAE (Vector Quantized Variational Autoencoder) basierend auf dem NMT-Design von Onset und Frames mit den folgenden Details gebaut.

(Ich werde Sie auf Kenas erstes Geheimnis hinweisen.) Es ist in der VQ-Komprimierung des Mel-Spektrogramms;)
Trainieren Sie die Modelle nicht nur auf Klavier, sondern auch auf Gitarre.
Konzentrieren Sie sich auf ein „Multitask“-Training mit zwei Türmen für einen kleinen Datensatz, der mit einer saubereren Midi-Datei aus Noten trainiert, um die Fehler in Richtung Spezifität statt Sensitivität zu gestalten.
Trainieren Sie das gesamte System neu, um Typ-2-Fehler und Spezifität im Vergleich zur Sensitivität zu eliminieren.

Das Entwerfen Ihrer Multitasking-Verlustfunktionen in Richtung Spezifität und das Konzentrieren auf meine Validierungssätze während des Trainings ist der größte Teil von Kenas magischer Sauce in der Music Neural Engine.

Damit konnte ich folgendes erreichen:

Eine Transkriptionsgenauigkeit von fast 87 %!! Dies war den erstklassigen HMM-basierten Transkriptionen bereits meilenweit voraus.
Das Midi war spärlich und fast 100% identisch mit dem analogen ohne an Qualität zu verlieren.
Bei der Vektorquantisierung wurden Taktarten und Tonarten beibehalten.

Das Schöne ist, dass der VQ-VAE über 40 verschiedene Instrumente und 6 verschiedene Genres sauber funktioniert.

In der Erzeugung dieses Midi liegt 70 % der Magie. Ich habe das gesamte Modell bis hierher codiert, ohne irgendetwas in Musiktheorie zu verstehen (die Leute fragen, ob ich noch codiere ‍♂️ ). Das war das Schöne; Ich musste keine Musiktheorie lernen. Ich habe ein Modell gebaut, das für mich Musiktheorie gelernt hat!

Die restlichen 30 % liegen in nachgelagerten Pipelines, um die Transkripte für Tonarten und Taktarten zu polieren. Diese 30 % sind das Furnier der letzten Meile, das musiktheoretische Kenntnisse und ein Verständnis der statistischen Fußabdrücke der Musik erfordert.

Geben Sie Mikey ein

Glücklicherweise fand ich einen professionellen Jazzmusiker und einen leidenschaftlichen Ingenieur für maschinelles Lernen, Mikey. (Michael Schwarz). Nachdem ich ihm ein Hausaufgaben-Interview gegeben hatte, stellte ich ihn sofort als Gründungsingenieur für maschinelles Lernen ein. Junge, hat er seitdem geliefert? Hände runter.

(Er demonstriert in dem Video auch die Leistungsfähigkeit von Kenas künstlicher Intelligenz.)

Mikey begann mit dem Aufbau einer Architektur-Pipeline, nachdem die Music Neural Engine ein sauberes Midi ausspuckte. Insbesondere machen seine Pipelines und Modelle Folgendes:

Generieren Sie eine Midi-Ausgabe aller Noten, die vom Ersteller hochgeladen wurden.
Nehmen Sie die von der Music Neural Engine präsentierte Midi-Ausgabe (die bei 40 Instrumenten und 6 Genres nur zu etwa 87 % genau ist) und vergleichen Sie sie, um sie mit den Noten und Melodielinien abzugleichen.
Erstellen Sie Vorlagen, die menschenähnliches Feedback zu Fehlern geben.
Erstellen Sie eine Fehlermarkierungsdatei für visuelle Markierungen in Noten.

Sie müssen die Geschwindigkeit der Übung überprüfen. Wenden Sie dynamische Zeitverzerrungen an, um die Übung und die Zieldateien zu normalisieren.
Führen Sie die längsten Subsequenz-Alignments durch, um zu vergleichen, wo in den Noten der Praktizierende zu spielen begonnen hat.
Überprüfen Sie, welche Abschnitte der Praktizierende übersprungen hat und welche Abschnitte der Praktiker improvisiert hat (das war in den Noten nicht vorhanden)
Achten Sie auf Freestyle (Rubato)-Rhythmen und melodische Taktung.
Suchen Sie nach zusätzlichen Trillern, Vibratos und haarigen Dimensionen der Musik.
Prüfen Sie auf Tonarten und Transpositionen.
Und entwickeln Sie eine Vorlage, um Feedback zu geben.

Unabhängig davon hat Mikey auch ein fantastisches Modell zur Vereinfachung von Noten erstellt, das alle komplexen Noten nimmt und sie auf mehreren Ebenen vereinfacht.

Jeder Machine-Learning-Ingenieur mit Selbstachtung weiß, dass 80 % der Bemühungen darin bestehen, ML-Modelle von einer Genauigkeit von 85 % auf eine Genauigkeit von 95 % zu verbessern. Danach alle 1% zu rasieren ist eine Herkulesaufgabe.

Ich bin so stolz auf Mikey, dass er Teil des Gründungsteams von Kena ist. Er ist ein Powerpferd. Wenn es eine Sache gibt, die ich in meiner gesamten Führungskarriere erfolgreich war, dann ist es, ein Auge für außergewöhnliche Talente zu haben, sie zu befähigen, unüberwindbare Ergebnisse zu erzielen, und bei Bedarf einfach auf der Couch zu stehen.

Zusammen sind die Music Neural Engine und die Downstream ML-Pipelines, woher Kenas Leistung kommt. In der Branche kommt nichts an die Genauigkeit, Spezifität oder Feedback-Leistung heran, die die KI-Plattform von Kena bietet.