Kisah Aneh dari Mesin Neural Musik

Nov 30 2022

Mengapa Kecerdasan Buatan Kena adalah Mesin Neural Musik yang paling kuat dan akurat? Jawabannya terletak pada mengabaikan standar industri dan memulai dengan perspektif baru. Ketika saya memulai Kena, orang berkata, “Jika Anda tidak memahami teori musik, Anda akan gagal menyelesaikan masalah.

Mengapa Kecerdasan Buatan Kena adalah Mesin Neural Musik yang paling kuat dan akurat? Jawabannya terletak pada mengabaikan standar industri dan memulai dengan perspektif baru.

Ketika saya memulai Kena, orang-orang berkata, “Jika Anda tidak memahami teori musik, Anda akan gagal menyelesaikan masalah.” Selain itu, banyak dari komunitas Machine Learning yang ada “membuang-buang” gagasan bahwa penyederhanaan dan akurasi komposisi umpan balik musik yang dibangun menggunakan Neural Networks tidak dapat lebih besar dari aturan kreatif HMM + jahitan tangan (Ini terjadi pada 2019).

Saya mengabaikan semua itu. Platform AI Kena sekarang 96% akurat. Ini Demo.

Bagaimana kita melakukan ini?

Meskipun saya mengakui setiap aspek umpan balik, saya hanya ingin melihat mengapa kita tidak dapat meminjam ide sistem pengawasan mandiri dan sistem pembelajaran multitugas dari bidang linguistik ke dalam Musik. Dan juga, mengapa kita tidak bisa meminjam ide pembelajaran representasional dari bidang komputasi visi? (Saya bekerja di Visi dan Linguistik sebelum terjun ke bidang Akustik).

Jika disipitkan sedikit, urutan pembelajaran aspek musik mirip dengan model bahasa. Dan jika Anda menoleh sedikit, contoh segmentasi melodi dalam kepadatan spektral mirip dengan komputasi penglihatan.

Ruang laten serupa di pikiranku. Saya tidak yakin mengapa kerumunan "Analisis Fourier" mengejar saya dengan batu bata dan kelelawar di grup obrolan :) Hanya bercanda, insinyur ML adalah yang paling baik. Jika ada satu komunitas yang erat dalam industri apa pun, itu adalah komunitas teknik. Kode berjalan lebih tebal dari darah di pembuluh darah komunal ini.

Saya memang pemula dalam analisis musik dan komputasi akustik. Ini adalah keuntungan! Saya tidak punya apa-apa untuk "dilupakan" dan saya hanya memiliki kemungkinan ide-ide baru yang fantastis untuk dicoba yang ada di depan saya. Yah, itu tidak sepenuhnya benar. Saya harus belajar banyak tentang analisis spektral untuk menghadirkan suara ke dalam domain penglihatan. Saya juga harus belajar banyak teknik menghilangkan kebisingan dalam spektrum pendengaran. Tapi Anda mengerti maksudnya.

Saya mengabaikan Model Markov Tersembunyi sepenuhnya karena ini mengharuskan saya mempelajari teori musik untuk membentuk mesin negara. Saya mengabaikannya bukan karena saya tidak ingin belajar teori musik. Saya mengabaikannya karena saya percaya bahwa teori musik berbentuk tangan adalah pilihan arsitektural yang salah untuk desain pembelajaran Mesin untuk sesuatu yang serumit Musik.

Saya mengabaikan pengurangan dimensi dan penjahitan tangan dari dimensi urutan rendah ke aspek generasi midi. Saya mengabaikan pembengkokan waktu dinamis dan decoding Viterbi jauh di awal saluran pipa. Saya membuang semuanya dan mulai dengan sistem belajar mandiri terlebih dahulu.

Mengingat keberhasilan penerapan deep learning pada masalah yang ada di masa lalu, saya mencari mekanisme yang diawasi sendiri untuk melatih model menggunakan deep learning. Saya menemukan makalah yang sangat bagus ini oleh tim Google Brain, yang mencoba mengerjakan autoencoder gelombang 2 midi 2 gelombang. ( Onset dan Frame: Encoder Otomatis Tujuan Ganda )

Desain Encoder Otomatis Objektif Ganda

Voila, arsitektur ini indah dan dibangun untuk melatih onset loss dan frame loss. Tetap saja, midi yang dihasilkannya sangat bising, sangat spesifik untuk piano, dan tidak dapat dengan mudah digunakan untuk terjemahan partitur musik atau diagnostik bingkai musik.

Meski demikian, ide arsitekturnya sangat menginspirasi. Saya membuat VQ-VAE (Vector Quantized Variational Autoencoder) berdasarkan desain NMT dari Onset dan Frames dengan detail sebagai berikut.

(Saya akan mengarahkan Anda ke rahasia pertama Kena.) Itu ada dalam kompresi VQ dari Mel Spectogram;)
Alih-alih hanya Piano, latih model dengan Gitar juga.
Berfokuslah pada pelatihan "multitugas" dua menara untuk kumpulan data minor yang melatih file midi yang lebih bersih dari lembaran musik untuk merancang kesalahan ke arah spesifisitas dan bukan sensitivitas.
Latih ulang seluruh sistem untuk menghilangkan kesalahan Tipe-2 dan spesifisitas dibandingkan dengan sensitivitas.

Merancang fungsi kehilangan multi-tugas Anda menuju kekhususan dan berfokus pada set validasi saya selama pelatihan adalah tempat sebagian besar saus ajaib Kena ada di Music Neural Engine.

Dengan ini, saya dapat mencapai yang berikut:

Akurasi transkripsi hampir 87%!! Ini jauh di depan transkripsi berbasis HMM terbaik di kelasnya.
Midi jarang dan hampir 100% identik dengan analog tanpa kehilangan kualitas.
Kuantisasi vektor mempertahankan tanda tangan dan kunci waktu.

Keindahannya adalah VQ-VAE bekerja dengan bersih di 40 instrumen berbeda dan 6 genre berbeda.

Menghasilkan Midi ini adalah tempat 70% keajaiban berada. Saya mengkodekan seluruh model sampai di sini tanpa memahami apa pun dalam teori musik (Orang-orang bertanya apakah saya masih membuat kode ‍♂️ ). Itulah keindahannya; Saya tidak harus belajar teori musik. Saya membuat model yang mempelajari teori musik atas nama saya!

30% sisanya terletak pada pipa hilir untuk memoles transkrip untuk kunci dan tanda tangan waktu. 30% ini adalah lapisan terakhir yang membutuhkan pengetahuan teori musik dan pemahaman tentang jejak statistik musik.

Masukkan Mikey

Untungnya, saya menemukan musisi Jazz Profesional dan insinyur Pembelajaran Mesin yang bersemangat, Mikey. (Michael Schwartz). Setelah memberinya wawancara pekerjaan rumah, saya langsung mempekerjakannya sebagai insinyur pendiri Machine Learning. Wah, apakah dia sudah melahirkan sejak itu? Tangan ke bawah.

(Dia juga mendemonstrasikan kekuatan Kecerdasan Buatan Kena dalam video.)

Mikey mulai membangun saluran arsitektur setelah Music Neural Engine mengeluarkan Midi yang bersih. Secara khusus, pipeline dan modelnya melakukan hal berikut:

Hasilkan output midi dari partitur apa pun yang diunggah oleh pembuatnya.
Ambil output midi yang disajikan oleh Music Neural Engine (Yang hanya sekitar 87% akurat di 40 instrumen dan 6 genre) dan bandingkan untuk mencocokkan nada dan garis melodi.
Buat template yang memberikan umpan balik seperti manusia tentang kesalahan.
Buat file markup kesalahan untuk Markup Visual di lembaran musik.

Anda harus memeriksa kecepatan latihan. Terapkan warps waktu dinamis untuk menormalkan latihan dan file target.
Lakukan penjajaran urutan terpanjang untuk membandingkan bagian mana dalam partitur musik yang mulai dimainkan oleh praktisi.
Periksa bagian mana yang dilewati praktisi dan bagian mana yang diimprovisasi oleh praktisi (yang tidak ada dalam lembaran musik)
Periksa ritme gaya bebas (Rubato) dan waktu melodi.
Periksa getaran tambahan, vibrato, dan dimensi musik yang berbulu.
Periksa Kunci dan transposisi.
Dan kembangkan template untuk memberikan umpan balik.

Secara terpisah, Mikey juga membuat model penyederhanaan Lembaran Musik yang fantastis yang mengambil lembaran musik yang rumit dan menyederhanakannya ke berbagai tingkatan.

Insinyur Machine Learning mana pun yang menghargai diri sendiri tahu bahwa 80% dari upayanya adalah meningkatkan model ML dari akurasi 85% menjadi akurasi 95%. Mencukur setiap 1% setelah itu adalah tugas yang sangat berat.

Saya sangat bangga dengan Mikey karena menjadi bagian dari tim pendiri di Kena. Dia adalah kuda kekuatan. Jika ada satu hal yang membuat saya sukses dalam seluruh karir kepemimpinan saya, itu adalah memperhatikan bakat luar biasa, memberdayakan mereka untuk mencapai hasil yang tak tertandingi, dan hanya berdiri di sofa saat dibutuhkan.

Bersama-sama dengan Music Neural Engine + pipeline ML Downstream secara kolektif merupakan sumber kekuatan Kena. Di industri ini, tidak ada hal lain yang mendekati akurasi, spesifisitas, atau kekuatan umpan balik yang ditawarkan oleh platform AI Kena.