AI & Musik: Menggunakan GPT-3 Sebagai Mesin Drum!
Transfer Pengetahuan Bahasa-Ke-Musik GPT-3: Makalah Baru yang Menyenangkan
Dalam makalah baru yang menarik, Li Zhang & Chris Callison-Burch menunjukkan bagaimana model bahasa seperti OpenAI's GPT-3 dapat disesuaikan menjadi [drumroll ] …
… bertindak sebagai mesin drum.
Dalam posting ini, kita akan mengetahui bagaimana mereka melakukannya, bagaimana menirunya, dan bagaimana percobaan saya dalam mengubah GPT-3 menjadi mesin drum Timur Tengah . Gesper, ini hal baru yang menarik!
Mengajar GPT-3 Menjadi Drummer
Dalam “Language Models Are Drummers” Zhang dan Callison-Burch mempresentasikan hasil awal tentang metode pembuatan musik otomatis menggunakan GPT-3 .
Ya, itu benar: GPT-3 yang sama yang dibicarakan semua orang saat ini karena kemampuannya yang luar biasa untuk menghasilkan teks kini mengambil panggung sebagai alat untuk menghasilkan musik.
Dalam pendekatan mereka, Zhang dan Callison-Burch menyajikan metode untuk mentransfer pengetahuan bahasa GPT ke musik dengan menyempurnakan model GPT-3 reguler hanya dengan beberapa ratus file MIDI.
Kedengarannya menarik, bukan?
Inilah pendekatan langsung mereka:
- Dari Google's Groove MIDI Dataset, koleksi 1.150 file MIDI dan lebih dari 22.000 ukuran permainan drum dari 10 pemain drum profesional, Zhang & Callison-Burch memfilter beberapa ratus alur berdasarkan gaya, panjang, dan tanda waktu (Western Rock/Pop, 16 ukuran , 4/4) untuk kesederhanaan. MIDI (Musical Instrument Digital Interface) adalah standar protokol yang memungkinkan alat musik elektronik terhubung dan berkomunikasi satu sama lain. Musik dalam file MIDI disimpan sebagai catatan, nada, dan jenis instrumen, antara lain, dan datanya dapat dibaca mesin.
3. Akhirnya, GPT-3 disesuaikan dengan data teks, di mana dua ukuran pertama dari setiap alur (2 kolom dari 16 baris teks) mewakili prompt dan empat belas ukuran berikutnya (empat belas kolom dari 16 baris teks) mewakili penyelesaian yang diinginkan .
Dan itu saja.
Model yang disetel halus kemudian dapat mengambil prompt 2-bar yang diberikan (disajikan ke GPT-3 dalam format "drumroll") dan mengubahnya menjadi alur drum 16-bar.
GPT-3 tidak hanya menyalin masukannya, tetapi juga berhasil membuat alur baru dalam gaya musik yang telah disempurnakannya — di mana model DaVinci terbaru menunjukkan kualitas yang jauh lebih baik daripada model Ada yang lebih murah dan lebih cepat. Itu cukup gila!
Tentu saja, masih ada beberapa kesalahan yang tergelincir ke dalam alur drum yang dihasilkan yang tidak akan dibuat oleh drummer manusia profesional, tetapi ini dapat diperbaiki, menurut pendapat Zhang & Callison-Burch, dengan penyempurnaan lebih lanjut dari metode penyetelan halus. Mengevaluasi kekuatan dan kelemahan dari pendekatan mereka, mereka sampai pada kesimpulan bahwa “pembelajaran transfer bahasa ke musik dengan model bahasa yang besar adalah layak dan menjanjikan”.
Eksperimen: GPT-3 Sebagai Mesin Drum Timur Tengah
Layak dan menjanjikan sudah cukup baik bagi ahli etnomusikologi dalam diri saya, jadi saya mencoba menangani kasus tertentu: menyempurnakan GPT-3 untuk menghasilkan alur timur tengah populer yang disebut "Semai Al Thaqil" yang terdengar cukup asing bagi telinga yang tidak terlatih sejak itu. itu dibangun di atas struktur sepuluh ketukan - bukan standar barat 4/4.
Di sini Anda akan menemukan penjelasan tentang ritme:
Saya ingin tahu apakah GPT-3 dapat menangani gaya musik yang tidak ortodoks ini dan… berhasil!
Oke, itu hanya struktur ritmis dasar sampai sekarang, tapi saya akan bekerja pada yang satu ini untuk mengimplementasikan lebih banyak detail ritmis dan mudah-mudahan mesin drum GPT3 Timur Tengah saya yang disetel halus mengenali dan "memainkan" satu set ritme yang berbeda dengan ornamen .
Jika Anda ingin tahu bagaimana saya menyempurnakan mesin drum Timur Tengah saya, ikuti saya di sini di Medium karena saya sedang menyiapkan panduan langkah demi langkah tentang cara melakukan ini.
Inilah pola dasar drum oleh GPT-3:
Satu hal lagi: Jika Anda membaca sampai di sini dan menyukai apa yang Anda dapatkan, silakan bertepuk tangan beberapa kali agar artikel ini terdistribusi lebih baik dan lebih banyak orang mendapat kesempatan untuk melihatnya (saya kira Anda dapat bertepuk tangan hingga 50 kali).
Terima kasih!