AudioGPT: metin ile müzik arasında köprü oluşturma
2022'de OpenAI DALL-E sanat dünyasını yok etti. StableDiffusion pratikte darbeyi sağladı. En başından beri, büyük yapay zeka şirketlerinin iştahı bir sonraki sınıra odaklandı: müzik.
Ocak 2023'te MusicLM, insanların müzik almak için bir metin istemi kullanmasına izin veren Google Research tarafından piyasaya sürüldü. Birkaç gün önce chatGPT daha fazla müzik olan bir model piyasaya sürüldü.
AudioGPT, yeni bir senfoni yönetmeni
Son zamanlarda İngiliz ve Amerikan üniversitelerinden araştırmacılar AudioGPT adlı yeni bir çalışma sundular.
Yazarların da kabul ettiği gibi, ChatGPT ve NLP'deki modellerdeki son gelişmelerin toplum üzerinde geniş bir etkisi oldu. Ancak bunlar metinle sınırlı kalmış ve diğer modalitelerde (resim, video, metin) başarılı olamamıştır. Şimdi kısmen görüntüler üzerinde girişimler gördük (ve GPT-4 ayrıca çok modlu, metin ve görüntüler olmalıdır).
Gerçek dünya senaryosunda, insanlar konuşarak iletişim kurar ve ayrıca sözlü bir asistan kullanır. Ek olarak, beynin ve zekanın önemli bir kısmı sesten bilgi işlemeye ayrılmıştır. Hatta toplumumuzun büyük bir bölümü sadece iletişim kurmakla kalmıyor, müzik dinliyor ve bir iç monolog yaşıyor. Yani metin ve müziği anlayabilen bir model hiç de önemsiz değil.
Şimdi, müziği işlemek birkaç nedenden dolayı hiç de kolay değil:
- Veriler, aslında insan tarafından etiketlenmiş konuşma verilerini elde etmek, web metnini kazımaktan çok daha pahalı (ve ayrıca daha fazla zaman alan) bir iştir. Ayrıca, çok daha az malzeme ve dolayısıyla daha az veri vardır.
- hesaplama açısından çok daha pahalıdır.
Buradaki fikir, bir arayüz olarak bir LLM'ye sahip olmaktır, bu LLM daha sonra konuşmaya adanmış temel modellerle diyalog kurar ve konuşma diyalogu için bir arayüz (giriş/çıkış arayüzü (ASR, TTS))
Yazarların belirttiği gibi, süreç dört adıma ayrılabilir:
- Modality Transformation , metin ve sesi bağlamak için bir giriş/çıkış arayüzü.
- ChatGPT'nin kullanıcı niyetlerini anlamasına izin vermek için metin analizi .
- Model atama , ChatGPT, anlama ve oluşturma için ses temel modellerini atar.
- Yanıt Oluşturma , kullanıcı için bir yanıt oluşturulur.
Ayrıntılara girmeden önce AudioGPT'nin ChatGPT gibi çalışan bir chatbot olduğunu söyleyebiliriz. Ancak bunun aksine konuşma ve ses gibi girdileri de işleyebilir ve bu girdilerin manipülasyonunu gerçekleştirebilir.
Model daha sonra hem metinsel hem de konuşma girdisini alır. Metin girdisi ise doğrudan işler, konuşma değilse onu metne dönüştürür.
Bu yapıldıktan sonra, ChatGPT kullanıcının sorgusunu analiz eder (modelin, kullanıcının ne istediğini ve kullanıcının hangi görevi gerçekleştirmesini istediğini anlaması gerekir). Örneğin, kullanıcı "Bu sesi metne dönüştür" veya "yağmur altında motosiklet sesi çıkar" diyebilir. HugginGPT'de gördüğümüz gibi, ChatGPT isteği anladığında, onu başka bir model tarafından yürütülebilecek bir göreve eşlemesi gerekir.
İsteği bir göreve dönüştürdükten sonra, mevcut çeşitli modeller arasından seçim yapar (mevcut 17 model yukarıdaki tabloda açıklanmıştır). Açıkçası, her modelin kendine has özellikleri vardır ve farklı görevleri yerine getirebilir, AudioGPT temel olarak bir görev için hangisinin en iyi model olduğuna karar verir. Ayrıca LLM'ler, modelin bunları işleyebilmesi için isteği gönderme görevini de yerine getirir.
Seçilen model görevi gerçekleştirir (yeniden eğitilmeden çıkarımda kullanılır) ve sonuçları ChatGPT'ye gönderir. ChatGPT bir yanıt oluşturur ve ayrıca modelin sonucunu da ekler. LLM'ler daha sonra model çıktısını, metin biçiminde veya ekli bir ses dosyasıyla kullanıcının anlayabileceği bir formata dönüştürür.
Avantajı, sürecin etkileşimli olması ve ChatGPT'nin konuşma hafızasına sahip olmasıdır. Böylece onu ChatGPT'nin ses dosyalarına bir uzantısı olarak görebilirsiniz.
Yazarlar modeli farklı görevler, veri kümeleri ve metriklerle değerlendirdiler:
Yazarlar, modelin karşılaşabileceği özel durumlara da dikkat ederek, modeli sağlamlık açısından da değerlendirmeye karar verdiler:
- Uzun değerlendirme zincirleri , model bu görev için uzun bağlam bağımlılıklarını dikkate almalıdır (bir dizi modeli, farklı modelleri yönetmek gibi).
- Desteklenmeyen görevler , model yeterli geri bildirim sağlamalıdır.
- Çok modlu modellerin hata işlemesi , bu durumda, modelin hatalarına ve başarısızlığına yol açabilecek farklı girdilere ve formatlara sahip olabiliriz.
- Bağlamdaki kesintiler , kullanıcı tarafından gönderilen sorguların mantıksal bir sırada olması gerekmez, rastgele sırada olabilir.
Burada bazı örnekler görebiliriz, örneğin AudioGPT, görüntülere dayalı olarak ses üretebilir. Bu örnekte, yazarlar modelden bir kedi için resimler oluşturmasını ister. Başka bir deyişle, görüntü için bir başlık oluşturulur ve bu, ses üretimini yönlendirmek için kullanılır. Açıkçası, bu, ses kitaplıkları satın almak zorunda kalmadan şarkılarını seslerle zenginleştirmek isteyen müzisyenler tarafından kullanılabilir. Ek olarak, resim ve video oluşturmak için metinden videoya şablonlar ve ses eklemek için AudioGPT kullanılabilir.
Öte yandan, AudioGPT yalnızca ses üretmekle kalmaz, aynı zamanda insan konuşması da üretir. Şaşırtıcı olan, nota bilgilerinin ve dizinin süresinin belirlenebilmesidir. Model daha sonra şarkıyı üretir. Başka bir deyişle, bir şarkı üretilebilir.
Ayrıca, bir ses verildiğinde bir video oluşturabilir. Böylece potansiyel olarak bir şarkı oluşturabilir ve ardından müzik videosunu oluşturabiliriz (tümü tek bir şablon kullanarak)
Ayrıca, seste olanları sınıflandırmak için de kullanılabilir. Model o zaman tarih bilgisini koruduğundan, ardışık işlemleri hayal edebiliriz. Hepsi yalnızca AudioGPT'yi ve onun model ordusunu kullanır.
Model, ses üretme yeteneği ile sınırlı değildir. Örneğin, sesleri çıkarabilir, ardından arka plan gürültüsünü ortadan kaldırabilir veya başka bir bağlamda kullanmak üzere bir sesi çıkarabilir.
Ayrıca ses kaynaklarını ayırabilir, gürültüyü de giderebilir
ve ayrıca bir dilden diğerine çeviri yapabilir:
Bu nedenle, bu modelin yapabilecekleri inanılmaz görünüyor. Bütün bunlar, sadece farklı modellerin iletkeni olarak hareket ederek. Kullanıcının yalnızca istemi yazması gerekir ve model gerisini halleder.
Ama herhangi bir sınırlaması yok mu?
- Hızlı Mühendislik. Açıkçası, ilk sınırlama, modelin temel olarak ChatGPT kullanması ve kullanıcının bilgi isteminde yazabilmesinin gerekmesi ve bunun zaman alıcı olabilmesidir.
- Uzunluk Sınırlaması. Diğer benzer modellerde (HuggingGPT) olduğu gibi, istemin maksimum uzunluğu, diyaloğu engelleyen sınır ve kullanıcının verebileceği maksimum talimat sayısıdır.
- Yetenek Sınırlaması. kullanılan şablonların sınırlaması, AudioGPT'nin kendi yetenekleriyle sınırlıdır.
Veya bunu yapmak istemiyorsanız demoyu kullanabilirsiniz (ayrıca bir OpenAI API anahtarına ihtiyacınız vardır). Kullanmak için ödeme yaptığınızı unutmayın:
Ayrılık düşünceleri
Bu model, basit bir bilgi istemiyle bir LM'nin sesi manipüle edebilen birkaç modele nasıl bağlanabileceğini gösterir. Model, müzik ve sesler üretebilir veya bunları değiştirebilir. Açıkçası, diğer modelleri bağlayarak veya kullanılan modellerin doğruluğunu iyileştirerek yetenekleri artacaktır. Bu şekilde, AudioGPT yeni olası görevler kazanacak ve bunların verimliliğini artıracaktır.
Öte yandan, metin ve resimler için çok yüksek performanslı modeller var, ancak son zamanlarda ses karmaşıklığından yararlanabilen modeller gördük.
Açıkçası, bu nihai bir model değil, sistemin yeteneklerinin bir göstergesidir. Aslında, model her zaman görevi veya istemi içermez ve bu nedenle çıktı kullanışlıdır. Gelecekte benzer modeller, videodan müziğe, görsellerden metne kadar birçok görevi yerine getirebilecek ve bunları birbirine bağlayabilecek.
Ayrıca böyle bir sistem sadece ses ile sınırlı değildir; farklı modaliteleri birbirine bağlayan modeller düşünülebilir. Bu tür sistemler daha sonra sesi değiştiren bir yazılıma (örneğin, Ableton) entegre edilebilir. Gelecekte, bir kullanıcı AI ile ses üretebilir ve ardından bunu uygun yazılımla daha fazla değişiklik yapmak için bir başlangıç noktası olarak kullanabilir. Veya kaydedilmiş bir şarkıya sesler ve daha fazlasını ekleyin. Ayrıca, mutlaka bir metin istemi kullanmak değil, hatta sesli komutlar kullanmak
Stabil yayılımın grafik endüstrisindeki etkisini gördük. Müzik endüstrisi, yapay zekanın etkilerini görecek bir sonraki sektör. Bu, yeni senaryolar, telif hakkı sorunları ve çok daha fazlasını açar. Siz ne düşünüyorsunuz?
Bunu ilginç bulduysanız:
Diğer yazılarıma bakabilir, yazı yayınladığımda haberdar olmak için üye olabilir, tüm hikayelerine (size küçük gelirler sağladığım platformun üyelik linklerinden) ulaşmak için Medium üyesi olabilirsiniz ve siz ayrıca bana LinkedIn'den bağlanabilir veya bana ulaşabilir .
Makine öğrenimi, yapay zeka ve daha fazlası ile ilgili kod ve birçok kaynağı toplamayı planladığım GitHub depomun bağlantısı burada.
veya son makalelerimden biriyle ilgilenebilirsiniz:
ChatGPT hakkında bilmeniz gereken her şey hariç her şey