AudioGPT: menjembatani teks ke musik
Pada tahun 2022 OpenAI DALL-E menghancurkan dunia seni. StableDiffusion secara praktis menghasilkan kudeta. Sejak awal, selera perusahaan besar kecerdasan buatan berfokus pada perbatasan berikutnya: musik.
Pada Januari 2023, MusicLM dirilis oleh Google Research, yang memungkinkan orang menggunakan perintah teks untuk mendapatkan musik. Beberapa hari yang lalu sebuah model dirilis yaitu chatGPT lebih banyak musik.
AudioGPT, direktur simfoni baru
Baru-baru ini para peneliti dari universitas Inggris dan Amerika mempresentasikan sebuah karya baru bernama AudioGPT
Seperti yang penulis akui, ChatGPT dan kemajuan terbaru dalam model NLP memiliki dampak luas pada masyarakat. Namun, mereka terbatas pada teks dan belum berhasil dalam modalitas lain (gambar, video, teks). Sekarang sebagian pada gambar, kami telah melihat upaya (dan GPT-4 juga harus multimodal, teks dan gambar).
Dalam skenario dunia nyata, manusia berkomunikasi menggunakan ucapan dan juga menggunakan asisten lisan. Selain itu, sebagian besar otak dan kecerdasan dikhususkan untuk memproses informasi dari audio. Faktanya, bahkan sebagian besar masyarakat kita tidak hanya berkomunikasi tetapi mendengarkan musik, dan memiliki monolog batin. Jadi model yang bisa memahami teks dan musik sama sekali tidak sepele.
Sekarang, memproses musik sama sekali tidak mudah karena beberapa alasan:
- Data, sebenarnya mendapatkan data ucapan yang diberi label manusia adalah tugas yang jauh lebih mahal daripada mengorek teks web (dan juga lebih memakan waktu). Juga, ada lebih sedikit materi dan karenanya lebih sedikit data.
- secara komputasi jauh lebih mahal.
Idenya adalah memiliki LLM sebagai antarmuka, LLM ini kemudian berdialog dengan model dasar yang didedikasikan untuk ucapan dan dialog antarmuka ke ucapan (antarmuka input/output (ASR, TTS))
Seperti yang penulis nyatakan, prosesnya dapat dibagi menjadi empat langkah:
- Modality Transformation , antarmuka input/output untuk menghubungkan teks dan audio.
- Analisis teks , untuk memungkinkan ChatGPT memahami niat pengguna.
- Penugasan model , ChatGPT menetapkan model fondasi audio untuk pemahaman dan pembuatan.
- Response Generation , respons dihasilkan untuk pengguna.
Sebelum merinci, kita dapat mengatakan bahwa AudioGPT adalah chatbot, yang berfungsi seperti ChatGPT. Namun, tidak seperti ini, ia juga dapat menangani masukan seperti ucapan dan audio dan melakukan manipulasi terhadap masukan tersebut.
Model kemudian mengambil input tekstual dan ucapan. Jika itu input tekstual, ia memprosesnya secara langsung, jika tidak, jika itu adalah ucapan, ia mentranskripsikannya menjadi teks.
Setelah selesai, ChatGPT menganalisis kueri pengguna (model perlu memahami apa yang diminta pengguna dan tugas apa yang ingin dilakukan pengguna). Misalnya, pengguna mungkin mengatakan "Transkripsikan audio ini" atau "buat suara sepeda motor di bawah hujan". Seperti yang kita lihat di HugginGPT, setelah ChatGPT memahami permintaan, ia harus memetakannya ke tugas yang kemudian dapat dijalankan oleh model lain.
Setelah permintaan berubah menjadi tugas, ia memilih dari berbagai model yang tersedia (17 model yang tersedia dijelaskan dalam tabel di atas). Jelas, setiap model memiliki spesifikasinya sendiri dan dapat menyelesaikan tugas yang berbeda, AudioGPT pada dasarnya memutuskan model mana yang terbaik untuk suatu tugas. Selain itu, LLM melakukan tugas mengirimkan permintaan sehingga model dapat memprosesnya.
Model yang dipilih melakukan tugas (digunakan dalam inferensi tanpa dilatih ulang) dan mengirimkan hasilnya ke ChatGPT. ChatGPT menghasilkan respons dan juga menambahkan hasil model. LLM kemudian mengubah keluaran model menjadi format yang dapat dimengerti oleh pengguna, baik dalam bentuk teks atau dengan lampiran file audio.
Keuntungannya adalah prosesnya interaktif dan ChatGPT memiliki memori percakapan. Jadi Anda bisa melihatnya sebagai perpanjangan dari ChatGPT ke file audio.
Penulis mengevaluasi model dengan tugas, kumpulan data, dan metrik yang berbeda:
Penulis memutuskan untuk mengevaluasi model juga untuk kekokohan, sementara juga memperhatikan kasus-kasus khusus yang mungkin dihadapi model:
- Rantai evaluasi yang panjang , model harus mempertimbangkan ketergantungan konteks yang panjang untuk tugas ini (seperti mengelola urutan model, model yang berbeda).
- Tugas yang tidak didukung , model harus memberikan umpan balik yang memadai.
- Penanganan kesalahan model multi-modal , dalam hal ini, kita dapat memiliki input dan format yang berbeda yang dapat menyebabkan kesalahan dan kegagalan model.
- Jeda dalam konteks , kueri yang diajukan oleh pengguna tidak harus dalam urutan logis tetapi bisa dalam urutan acak.
Di sini kita dapat melihat beberapa contoh, misalnya AudioGPT mampu menghasilkan suara berdasarkan gambar. Dalam contoh ini, penulis meminta model untuk membuat gambar kucing. Dengan kata lain, keterangan dibuat untuk gambar dan ini digunakan untuk menggerakkan pembuatan suara. Jelas, ini bisa digunakan oleh musisi yang ingin memperkaya lagunya dengan suara tanpa harus membeli perpustakaan suara. Selain itu, template text-to-video dapat digunakan untuk menghasilkan gambar dan video dan AudioGPT untuk menambahkan suara.
Di sisi lain, AudioGPT tidak hanya menghasilkan suara tetapi juga ucapan manusia. Yang menakjubkan adalah seseorang dapat menentukan informasi catatan dan durasi urutannya. Model kemudian menghasilkan nyanyian. Dengan kata lain, seseorang dapat menghasilkan sebuah lagu.
Juga, mengingat audio dapat menghasilkan video. Jadi kami berpotensi membuat lagu dan kemudian membuat video musik (semuanya menggunakan satu template)
Juga, dapat digunakan untuk mengklasifikasikan apa yang terjadi dalam audio. Karena model tersebut mempertahankan pengetahuan sejarah, kita dapat membayangkan operasi berurutan. Semua hanya menggunakan AudioGPT dan pasukan modelnya.
Modelnya tidak terbatas pada kemampuan menghasilkan suara. Misalnya, dapat mengekstrak suara, lalu menghilangkan kebisingan latar belakang, atau mengekstrak suara untuk digunakan dalam konteks lain
Itu juga dapat memisahkan sumber suara, menghilangkan kebisingan juga
dan juga dapat menerjemahkan dari satu bahasa ke bahasa lain:
Oleh karena itu, tampaknya luar biasa apa yang dapat dilakukan model ini. Semua ini hanya dengan bertindak sebagai konduktor model yang berbeda. Pengguna hanya perlu menulis prompt dan model akan mengurus sisanya.
Tetapi apakah itu tidak memiliki batasan?
- Rekayasa Cepat. Jelas, batasan pertama adalah bahwa model tersebut pada dasarnya menggunakan ChatGPT dan pengguna harus dapat menulis di prompt dan ini bisa memakan waktu.
- Batasan Panjang. Seperti model serupa lainnya (HuggingGPT), panjang maksimum prompt adalah batas yang memblokir dialog dan jumlah maksimum instruksi yang dapat diberikan pengguna.
- Batasan Kemampuan. batasan template yang digunakan terbatas pada kemampuan AudioGPT itu sendiri.
Atau jika Anda tidak ingin melakukannya, Anda dapat menggunakan demo (Anda juga memerlukan kunci OpenAI API). Ingat, bahwa Anda membayar untuk menggunakannya:
Pemisahan pikiran
Model ini menunjukkan bagaimana dengan perintah sederhana, sebuah LM dapat dihubungkan dengan beberapa model yang mampu memanipulasi audio. Model dapat menghasilkan musik, dan suara, atau memodifikasinya. Jelas, kemampuannya akan meningkat dengan mengikat model lain atau meningkatkan akurasi model yang digunakan. Dengan cara ini, AudioGPT akan mendapatkan kemungkinan tugas baru dan meningkatkan efisiensinya.
Di sisi lain, ada model berperforma sangat tinggi untuk teks dan gambar, tetapi baru belakangan ini kami melihat model yang mampu memanfaatkan kompleksitas audio.
Jelas, ini bukan model final, tetapi demonstrasi kemampuan sistem. Faktanya, model tidak selalu menyertakan tugas atau prompt dan oleh karena itu keluarannya adalah utilitas. Di masa mendatang, model serupa akan dapat menyelesaikan tugas dari video hingga musik, dari gambar hingga teks, dan menyatukannya.
Juga, sistem seperti itu tidak terbatas pada audio; orang dapat memikirkan model yang mengikat berbagai modalitas bersama. Sistem tersebut kemudian dapat diintegrasikan ke dalam perangkat lunak yang memodifikasi suara (misalnya, Ableton). Di masa mendatang, pengguna dapat membuat audio dengan AI dan menggunakannya sebagai titik awal untuk modifikasi lebih lanjut dengan perangkat lunak yang sesuai. Atau tambahkan suara dan lainnya ke rekaman lagu. Juga, tidak harus menggunakan perintah teks tetapi bahkan perintah suara
Kami telah melihat dampak difusi yang stabil pada industri grafis. Industri musik adalah yang berikutnya untuk melihat efek kecerdasan buatan. Ini membuka skenario baru, masalah hak cipta, dan banyak lagi. apa yang kalian pikirkan?
Jika Anda menemukan ini menarik:
Anda dapat mencari artikel saya yang lain, Anda juga dapat berlangganan untuk mendapatkan pemberitahuan ketika saya menerbitkan artikel, Anda dapat menjadi anggota Medium untuk mengakses semua ceritanya (tautan afiliasi platform tempat saya mendapatkan penghasilan kecil tanpa biaya dari Anda) dan Anda juga dapat menghubungkan atau menghubungi saya di LinkedIn .
Ini tautan ke repositori GitHub saya, tempat saya berencana untuk mengumpulkan kode dan banyak sumber daya yang terkait dengan pembelajaran mesin, kecerdasan buatan, dan banyak lagi.
atau Anda mungkin tertarik dengan salah satu artikel terbaru saya:
Semuanya kecuali semua yang perlu Anda ketahui tentang ChatGPT