AudioGPT: टेक्स्ट को संगीत से जोड़ना
2022 में OpenAI DALL-E ने कला की दुनिया को तबाह कर दिया। StableDiffusion ने व्यावहारिक रूप से तख्तापलट कर दिया। शुरुआत से ही, बड़ी आर्टिफिशियल इंटेलिजेंस कंपनियों की भूख अगले मोर्चे पर केंद्रित थी: संगीत।
जनवरी 2023 में, MusicLM को Google रिसर्च द्वारा रिलीज़ किया गया, जिसने लोगों को संगीत प्राप्त करने के लिए टेक्स्ट प्रॉम्प्ट का उपयोग करने की अनुमति दी। कुछ दिनों पहले एक मॉडल रिलीज हुआ था जिसका नाम है चैटजीपीटी मोर म्यूजिक।
AudioGPT, एक नया सिम्फनी निर्देशक
हाल ही में ब्रिटिश और अमेरिकी विश्वविद्यालयों के शोधकर्ताओं ने ऑडियोजीपीटी नामक एक नया कार्य प्रस्तुत किया
जैसा कि लेखक स्वीकार करते हैं, चैटजीपीटी और एनएलपी में मॉडलों में हालिया प्रगति का समाज पर व्यापक प्रभाव पड़ा है। हालाँकि, वे पाठ तक ही सीमित रहे हैं और अन्य तौर-तरीकों (चित्र, वीडियो, पाठ) में सफल नहीं रहे हैं। अब आंशिक रूप से छवियों पर, हमने प्रयास देखे हैं (और GPT-4 को मल्टीमॉडल, टेक्स्ट और इमेज भी होना चाहिए)।
वास्तविक दुनिया के परिदृश्य में, मनुष्य भाषण का उपयोग करते हुए संवाद करते हैं और एक मौखिक सहायक का भी उपयोग करते हैं। इसके अलावा, मस्तिष्क और बुद्धि का एक महत्वपूर्ण हिस्सा ऑडियो से सूचना प्रसंस्करण के लिए समर्पित है। वास्तव में, हमारे समाज का एक बड़ा हिस्सा भी सिर्फ संवाद नहीं करता है बल्कि संगीत सुनता है और एक आंतरिक एकालाप रखता है। तो एक मॉडल जो पाठ और संगीत को समझ सकता है वह तुच्छ नहीं है।
अब, कई कारणों से संगीत को प्रोसेस करना आसान नहीं है:
- डेटा, वास्तव में मानव-लेबल भाषण डेटा प्राप्त करना वेब टेक्स्ट को स्क्रैप करने (और अधिक समय लेने वाला) की तुलना में बहुत अधिक महंगा कार्य है। साथ ही, बहुत कम सामग्री है और इसलिए कम डेटा है।
- कम्प्यूटेशनल रूप से बहुत अधिक महंगा है।
एलएलएम को एक इंटरफ़ेस के रूप में रखने का विचार है, यह एलएलएम फिर भाषण के लिए समर्पित नींव मॉडल के साथ संवाद और एक इंटरफ़ेस से भाषण संवाद (इनपुट / आउटपुट इंटरफ़ेस (एएसआर, टीटीएस))
जैसा कि लेखक कहते हैं, प्रक्रिया को चार चरणों में विभाजित किया जा सकता है:
- मॉडेलिटी परिवर्तन , पाठ और ऑडियो को जोड़ने के लिए एक इनपुट/आउटपुट इंटरफ़ेस।
- पाठ विश्लेषण , ChatGPT को उपयोगकर्ता के इरादों को समझने की अनुमति देने के लिए।
- मॉडल असाइनमेंट , चैटजीपीटी समझने और पीढ़ी के लिए ऑडियो फाउंडेशन मॉडल प्रदान करता है।
- प्रतिक्रिया पीढ़ी , उपयोगकर्ता के लिए एक प्रतिक्रिया उत्पन्न होती है।
विवरण में जाने से पहले, हम कह सकते हैं कि AudioGPT एक चैटबॉट है, जो ChatGPT की तरह काम करता है। हालाँकि, इसके विपरीत, यह भाषण और ऑडियो जैसे इनपुट को भी संभाल सकता है और इन इनपुटों में हेरफेर कर सकता है।
मॉडल तब टेक्स्ट और स्पीच इनपुट दोनों लेता है। यदि यह शाब्दिक इनपुट है तो यह इसे सीधे संसाधित करता है, यदि यह भाषण नहीं है तो यह इसे पाठ में लिप्यंतरित करता है।
एक बार ऐसा हो जाने के बाद, चैटजीपीटी उपयोगकर्ता की क्वेरी का विश्लेषण करता है (मॉडल को यह समझने की आवश्यकता है कि उपयोगकर्ता क्या अनुरोध कर रहा है और उपयोगकर्ता क्या कार्य करना चाहता है)। उदाहरण के लिए, उपयोगकर्ता कह सकता है "इस ऑडियो को ट्रांसक्राइब करें" या "बारिश के तहत मोटरसाइकिल की आवाज़ उत्पन्न करें।" जैसा कि हमने HugginGPT में देखा, एक बार जब ChatGPT अनुरोध को समझ लेता है तो इसे इसे एक ऐसे कार्य के लिए मैप करना चाहिए जिसे बाद में किसी अन्य मॉडल द्वारा निष्पादित किया जा सके।
एक बार जब यह अनुरोध एक कार्य में बदल जाता है, तो यह विभिन्न उपलब्ध मॉडलों में से चयन करता है (उपरोक्त तालिका में 17 उपलब्ध मॉडलों का वर्णन किया गया है)। जाहिर है, प्रत्येक मॉडल के अपने विनिर्देश होते हैं और विभिन्न कार्यों को पूरा कर सकते हैं, AudioGPT मूल रूप से तय करता है कि किसी कार्य के लिए सबसे अच्छा मॉडल कौन सा है। साथ ही, एलएलएम अनुरोध भेजने का कार्य करते हैं ताकि मॉडल उन्हें संसाधित कर सके।
चुना गया मॉडल कार्य करता है (इसे फिर से प्रशिक्षित किए बिना अनुमान में प्रयोग किया जाता है) और परिणाम चैटजीपीटी को भेजता है। ChatGPT एक प्रतिक्रिया उत्पन्न करता है और मॉडल का परिणाम भी जोड़ता है। एलएलएम तब मॉडल आउटपुट को एक प्रारूप में रूपांतरित करते हैं जो उपयोगकर्ता के लिए समझ में आता है, या तो पाठ रूप में या ऑडियो फ़ाइल संलग्न के साथ।
लाभ यह है कि प्रक्रिया संवादात्मक है और चैटजीपीटी के पास बातचीत की स्मृति है। तो आप इसे ऑडियो फाइलों के लिए चैटजीपीटी के विस्तार के रूप में देख सकते हैं।
लेखकों ने विभिन्न कार्यों, डेटासेट, एस और मेट्रिक्स के साथ मॉडल का मूल्यांकन किया:
लेखकों ने मजबूती के लिए भी मॉडल का मूल्यांकन करने का फैसला किया, जबकि मॉडल के सामने आने वाले विशेष मामलों पर भी ध्यान दिया जा सकता है:
- मूल्यांकन की लंबी श्रृंखला , मॉडल को इस कार्य के लिए लंबी संदर्भ निर्भरता पर विचार करना चाहिए (जैसे कि मॉडल के अनुक्रम का प्रबंधन, विभिन्न मॉडल)।
- असमर्थित कार्य , मॉडल को पर्याप्त प्रतिक्रिया प्रदान करनी चाहिए।
- मल्टी-मोडल मॉडल की त्रुटि प्रबंधन , इस मामले में, हमारे पास अलग-अलग इनपुट और प्रारूप हो सकते हैं जो मॉडल की त्रुटियों और विफलता का कारण बन सकते हैं।
- संदर्भ में विराम , उपयोगकर्ता द्वारा सबमिट किए गए प्रश्न आवश्यक रूप से तार्किक अनुक्रम में नहीं हैं, लेकिन यादृच्छिक क्रम में हो सकते हैं।
यहाँ हम कुछ उदाहरण देख सकते हैं, उदाहरण के लिए, AudioGPT छवियों के आधार पर ध्वनि उत्पन्न करने में सक्षम है। इस उदाहरण में, लेखक मॉडल से एक बिल्ली के लिए चित्र बनाने के लिए कहते हैं। दूसरे शब्दों में, छवि के लिए एक कैप्शन उत्पन्न होता है और इसका उपयोग ध्वनि उत्पादन को चलाने के लिए किया जाता है। स्पष्ट रूप से, इसका उपयोग उन संगीतकारों द्वारा किया जा सकता है जो ध्वनि पुस्तकालय खरीदे बिना अपने गीतों को ध्वनियों से समृद्ध करना चाहते हैं। इसके अलावा, टेक्स्ट-टू-वीडियो टेम्प्लेट का उपयोग छवियों और वीडियो को उत्पन्न करने के लिए किया जा सकता है और ध्वनि जोड़ने के लिए AudioGPT का उपयोग किया जा सकता है।
दूसरी ओर, AudioGPT न केवल ध्वनि उत्पन्न करता है बल्कि मानव भाषण भी उत्पन्न करता है। आश्चर्यजनक बात यह है कि कोई नोट सूचना और अनुक्रम की अवधि निर्दिष्ट कर सकता है। मॉडल तब गायन उत्पन्न करता है। दूसरे शब्दों में, कोई गीत उत्पन्न कर सकता है।
साथ ही, एक ऑडियो दिए जाने पर यह एक वीडियो उत्पन्न कर सकता है। इसलिए हम संभावित रूप से एक गीत बना सकते हैं और फिर संगीत वीडियो तैयार कर सकते हैं (सभी एक टेम्पलेट का उपयोग करके)
साथ ही, इसका उपयोग यह वर्गीकृत करने के लिए किया जा सकता है कि ऑडियो में क्या होता है। चूंकि मॉडल तब इतिहास का ज्ञान रखता है, हम अनुक्रमिक संचालन की कल्पना कर सकते हैं। सभी केवल AudioGPT और इसके मॉडलों की सेना का उपयोग करते हैं।
मॉडल ध्वनि उत्पन्न करने की क्षमता तक ही सीमित नहीं है। उदाहरण के लिए, यह ध्वनियाँ निकाल सकता है, फिर पृष्ठभूमि शोर को समाप्त कर सकता है या किसी अन्य संदर्भ में उपयोग के लिए ध्वनि निकाल सकता है
यह ध्वनि स्रोतों को भी अलग कर सकता है, शोर को भी दूर कर सकता है
और एक भाषा से दूसरी भाषा में भी अनुवाद कर सकते हैं:
इसलिए, यह अविश्वसनीय लगता है कि यह मॉडल क्या कर सकता है। यह सब केवल विभिन्न मॉडलों के संवाहक के रूप में कार्य करके। उपयोगकर्ता को केवल संकेत लिखना होता है और मॉडल बाकी का ध्यान रखता है।
लेकिन क्या इसकी कोई सीमा नहीं है?
- शीघ्र इंजीनियरिंग। जाहिर है, पहली सीमा यह है कि मॉडल मूल रूप से चैटजीपीटी का उपयोग करता है और उपयोगकर्ता को प्रॉम्प्ट में लिखने में सक्षम होना पड़ता है और यह समय लेने वाला हो सकता है।
- लंबाई की सीमा। अन्य समान मॉडलों (हगिंगजीपीटी) की तरह, प्रांप्ट की अधिकतम लंबाई वह सीमा है जो संवाद को अवरुद्ध करती है और उपयोगकर्ता द्वारा दिए जा सकने वाले निर्देशों की अधिकतम संख्या है।
- क्षमता सीमा। उपयोग किए गए टेम्प्लेट की सीमा स्वयं AudioGPT की क्षमताओं तक सीमित है।
या यदि आप ऐसा नहीं करना चाहते हैं तो आप डेमो का उपयोग कर सकते हैं (आपको OpenAI API कुंजी की भी आवश्यकता है)। याद रखें कि आप इसका उपयोग करने के लिए भुगतान करते हैं:
बिदाई विचार
यह मॉडल दिखाता है कि कैसे एक साधारण संकेत के साथ, एक एलएम को ऑडियो में हेरफेर करने में सक्षम कई मॉडलों से जोड़ा जा सकता है। मॉडल संगीत और ध्वनि उत्पन्न कर सकता है या उन्हें संशोधित कर सकता है। जाहिर है, अन्य मॉडलों को बांधने या उपयोग किए गए मॉडलों की सटीकता में सुधार करने से इसकी क्षमता बढ़ेगी। इस तरह, AudioGPT नए संभावित कार्य प्राप्त करेगा और उनकी दक्षता में सुधार करेगा।
दूसरी ओर, पाठ और छवियों के लिए बहुत उच्च प्रदर्शन वाले मॉडल हैं, लेकिन हाल ही में हमने ऐसे मॉडल देखे हैं जो ऑडियो जटिलता का उपयोग करने में सक्षम हैं।
जाहिर है, यह अंतिम मॉडल नहीं है, बल्कि सिस्टम की क्षमताओं का प्रदर्शनकारी है। वास्तव में, मॉडल में हमेशा कार्य या संकेत शामिल नहीं होता है और इसलिए आउटपुट उपयोगिता का होता है। भविष्य में, इसी तरह के मॉडल वीडियो से लेकर संगीत तक, छवियों से लेकर टेक्स्ट तक के कार्यों को पूरा करने और उन्हें एक साथ जोड़ने में सक्षम होंगे।
साथ ही, ऐसी प्रणाली ऑडियो तक ही सीमित नहीं है; कोई उन मॉडलों के बारे में सोच सकता है जो विभिन्न तौर-तरीकों को एक साथ बांधते हैं। ऐसी प्रणालियों को तब सॉफ्टवेयर में एकीकृत किया जा सकता है जो ध्वनि को संशोधित करता है (जैसे, एबलटन)। भविष्य में, एक उपयोगकर्ता एआई के साथ ऑडियो उत्पन्न कर सकता है और फिर इसे उपयुक्त सॉफ्टवेयर के साथ आगे के संशोधन के लिए शुरुआती बिंदु के रूप में उपयोग कर सकता है। या रिकॉर्ड किए गए गीत में ध्वनियाँ और बहुत कुछ जोड़ें। इसके अलावा, जरूरी नहीं कि टेक्स्ट प्रॉम्प्ट का इस्तेमाल किया जाए, बल्कि वॉयस कमांड का भी
हमने ग्राफिक्स उद्योग पर स्थिर प्रसार के प्रभाव को देखा है। आर्टिफिशियल इंटेलिजेंस के प्रभावों को देखने के लिए संगीत उद्योग अगला है। इससे नए परिदृश्य, कॉपीराइट मुद्दे और बहुत कुछ खुल जाता है। तुम लोग क्या सोचते हो?
अगर आपको यह दिलचस्प लगा है:
आप मेरे अन्य लेख देख सकते हैं, जब मैं लेख प्रकाशित करता हूं तो आप अधिसूचित होने के लिए सदस्यता भी ले सकते हैं, आप इसकी सभी कहानियों तक पहुंचने के लिए एक माध्यम सदस्य बन सकते हैं (प्लेटफ़ॉर्म के संबद्ध लिंक जिसके लिए मुझे आपके लिए बिना किसी लागत के छोटे राजस्व मिलते हैं) और आप मुझसे लिंक्डइन पर भी जुड़ सकते हैं या पहुंच सकते हैं ।
यहाँ मेरे GitHub रिपॉजिटरी का लिंक है, जहाँ मैं मशीन लर्निंग, आर्टिफिशियल इंटेलिजेंस, और बहुत कुछ से संबंधित कोड और कई संसाधन एकत्र करने की योजना बना रहा हूँ।
या आपको मेरे हाल के लेखों में से एक में रुचि हो सकती है:
सब कुछ लेकिन चैटजीपीटी के बारे में वह सब कुछ जो आपको जानने की जरूरत है