Osobliwa historia muzycznego silnika neuronowego

Nov 30 2022

Dlaczego sztuczna inteligencja Keny jest najpotężniejszym i najdokładniejszym muzycznym silnikiem neuronowym? Odpowiedź leży w ignorowaniu standardów branżowych i zaczynaniu od świeżej perspektywy. Kiedy zaczynałem Kenę, ludzie mówili: „Jeśli nie rozumiesz teorii muzyki, nie rozwiążesz problemu.

Kiedy zaczynałem Kenę, ludzie mówili: „Jeśli nie rozumiesz teorii muzyki, nie rozwiążesz problemu”. Ponadto wielu z istniejącej społeczności uczenia maszynowego „poop” odrzuciło pomysł, że uproszczenie i dokładność kompozycyjna sprzężenia zwrotnego muzyki zbudowanego za pomocą sieci neuronowych nie może być większe niż HMM + ręczne zszywanie reguł kreatywnych (to było w 2019 r.).

Wszystko to zignorowałem. Platforma sztucznej inteligencji Keny jest teraz dokładna w 96%. Oto wersja demonstracyjna.

Jak to zrobiliśmy?

Uznałem każdy aspekt informacji zwrotnej, ale chciałem tylko zobaczyć, dlaczego nie możemy zapożyczyć idei samonadzorowanych systemów i wielozadaniowych systemów uczenia się z dziedziny lingwistyki do muzyki. A także, dlaczego nie możemy zapożyczyć idei reprezentacyjnego uczenia się z dziedziny przetwarzania wizyjnego? (Pracowałem w Vision and Linguistics, zanim wskoczyłem na dziedzinę akustyki).

Jeśli trochę zmrużysz oczy, aspekty uczenia się sekwencji muzyki są podobne do modeli językowych. A jeśli trochę odwrócisz głowę, segmentacja instancji melodii w gęstościach widmowych jest podobna do przetwarzania wizyjnego.

Ukryta przestrzeń była w moim umyśle podobna. Nie byłem pewien, dlaczego tłum „analizy Fouriera” gonił mnie cegłami i kijami na czatach :) Żartuję, inżynierowie ML są najmilsi. Jeśli w jakiejkolwiek branży istnieje jedna zwarta społeczność, jest to społeczność inżynierów. W tych wspólnych żyłach kod jest grubszy niż krew.

Rzeczywiście byłem nowicjuszem w analizie muzyki i obliczeniach akustycznych. To była zaleta! Nie miałem niczego do „oduczenia się” i miałem tylko fantastyczną możliwość wypróbowania nowych pomysłów, które były przede mną. Cóż, to nie do końca prawda. Musiałem nauczyć się wielu analiz spektralnych, aby wprowadzić dźwięk do domeny widzenia. Musiałem też nauczyć się wielu technik eliminacji szumów w spektrum słuchowym. Ale rozumiesz, o co chodzi.

Całkowicie zignorowałem ukryte modele Markowa, ponieważ wymagało to ode mnie nauczenia się teorii muzyki, aby kształtować maszyny stanowe. Zignorowałem to nie dlatego, że nie chciałem uczyć się teorii muzyki. Zignorowałem to, ponieważ wierzyłem, że teoria muzyki kształtująca ręce była złym wyborem architektonicznym dla projektu uczenia maszynowego dla czegoś tak złożonego jak muzyka.

Zignorowałem redukcję wymiarowości i ręczne łączenie wymiarów niższego rzędu z aspektem generowania midi. Zignorowałem dynamiczne zakrzywienia czasu i dekodowanie Viterbiego na wczesnym etapie potoków. Wyrzuciłem je wszystkie i zacząłem od systemu samouczącego się.

Biorąc pod uwagę sukces zastosowania głębokiego uczenia się do istniejących problemów w przeszłości, szukałem samonadzorującego mechanizmu do trenowania modeli przy użyciu głębokiego uczenia się. Natknąłem się na ten doskonały artykuł zespołu Google Brain, który próbował pracować nad autoenkoderem fali Wave 2 midi 2. ( Początki i ramki: automatyczny koder podwójnego celu )

Konstrukcja automatycznego enkodera z podwójnym celem

Voila, ta architektura była piękna i została zbudowana do trenowania utraty początku i utraty klatek. Mimo to midi, które generował, było bardzo hałaśliwe, bardzo specyficzne dla fortepianu i nie nadawało się do łatwego wykorzystania do tłumaczenia nut lub diagnostyki ram muzycznych.

Mimo to pomysł architektoniczny był inspirujący. Zbudowałem VQ-VAE (Vector Quantized Variational Autoencoder) w oparciu o projekt NMT Onset i Frames z następującymi szczegółami.

(Wskażę ci pierwszy sekret Keny.) Jest w kompresji VQ spektrogramu Mela ;)
Zamiast tylko na pianinie, trenuj także modele na gitarze.
Skoncentruj się na dwuwieżowym „wielozadaniowym” szkoleniu dla mniejszego zestawu danych, który trenuje na czystszym pliku midi z nut, aby zaprojektować błędy w kierunku specyficzności , a nie wrażliwości.
Przeszkol cały system, aby wyeliminować błędy typu 2 i specyficzność w stosunku do czułości.

Projektowanie wielozadaniowych funkcji utraty w kierunku specyficzności i skupianie się na moich zestawach walidacyjnych podczas treningu to miejsce, w którym większość magicznego sosu Keny istnieje w Music Neural Engine.

Dzięki temu mogłem osiągnąć następujące rzeczy:

Dokładność transkrypcji prawie 87%!! Było to już o wiele więcej niż najlepsze w swojej klasie transkrypcje oparte na HMM.
Midi było rzadkie i prawie w 100% identyczne z analogiem bez utraty jakości.
Kwantyzacja wektorowa zachowała metrum i klucze.

Piękno polega na tym, że VQ-VAE działa czysto na 40 różnych instrumentach i 6 różnych gatunkach.

Generowanie tego Midi to miejsce, w którym leży 70% magii. Do tej pory kodowałem cały model, nie rozumiejąc nic z teorii muzyki (ludzie pytają, czy nadal koduję ‍♂️). To było piękno; Nie musiałem uczyć się teorii muzyki. Zbudowałem model, który uczył się teorii muzyki w moim imieniu!

Pozostałe 30% znajduje się w dalszych potokach w celu dopracowania transkrypcji kluczy i metrum. Te 30% to fornir ostatniej mili, który wymaga znajomości teorii muzyki i zrozumienia statystycznych śladów muzyki.

Wejdź do Mikey'a

Na szczęście znalazłem profesjonalnego muzyka jazzowego i pasjonata uczenia maszynowego, Mikeya. (Michael Szwartz). Po udzieleniu mu wywiadu dotyczącego pracy domowej, od razu zatrudniłem go jako inżyniera-założyciela uczenia maszynowego. Chłopcze, czy od tamtej pory dostarczał? Ręce na dół.

(W filmie demonstruje również moc sztucznej inteligencji Keny.)

Mikey zaczął budować potok architektury po tym, jak Music Neural Engine wypluł czyste Midi. W szczególności jego potoki i modele wykonują następujące czynności:

Wygeneruj wyjście midi z dowolnej nuty przesłanej przez twórcę.
Weźmy wyjście midi prezentowane przez Music Neural Engine (które jest dokładne tylko w około 87% dla 40 instrumentów i 6 gatunków) i porównajmy je, aby dopasować nuty i linie melodyczne.
Twórz szablony, które zapewniają ludzkie informacje zwrotne na temat błędów.
Zbuduj plik znaczników błędów dla znaczników wizualnych w nutach.

Musisz sprawdzić szybkość praktyki. Zastosuj dynamiczne zakrzywienia czasowe, aby znormalizować praktykę i pliki docelowe.
Wykonaj wyrównania najdłuższych podsekwencji, aby porównać, gdzie w zapisie nutowym praktykujący zaczął grać.
Sprawdź, które sekcje praktykujący pominął, a które improwizował (czego nie było w zapisie nutowym)
Sprawdź rytmy freestyle (Rubato) i czas melodyczny.
Sprawdź dodatkowe tryle, wibrata i owłosione wymiary muzyki.
Sprawdź klucze i transpozycje.
I opracuj szablon do przekazywania informacji zwrotnych.

Niezależnie od tego, Mikey zbudował również fantastyczny model upraszczania nut, który upraszcza każdą złożoną nutę na wielu poziomach.

Każdy szanujący się inżynier Machine Learning wie, że 80% wysiłku wkłada się w ulepszanie modeli ML z dokładności 85% do dokładności 95%. Golenie co 1% po tym to herkulesowe zadanie.

Jestem bardzo dumny z Mikey'a, że jest częścią zespołu założycielskiego Kena. Jest koniem mocy. Jeśli jest jedna rzecz, którą odniosłem sukces w całej mojej karierze przywódczej, to zwracanie uwagi na wyjątkowe talenty, umożliwianie im osiągania niemożliwych do pokonania rezultatów i po prostu czuwanie, gdy jest to konieczne.

Moc Keny pochodzi razem z Music Neural Engine i potoków Downstream ML. W branży nic innego nie zbliża się do dokładności, specyficzności ani mocy sprzężenia zwrotnego, które oferuje platforma sztucznej inteligencji Kena.