AudioGPT: เชื่อมโยงข้อความกับเพลง
ในปี 2022 OpenAI DALL-E ได้ทำลายโลกศิลปะ StableDiffusion ทำให้เกิดการรัฐประหารอย่างแท้จริง ตั้งแต่เริ่มต้น ความกระหายของบริษัทปัญญาประดิษฐ์ขนาดใหญ่มุ่งเน้นไปที่พรมแดนถัดไป: ดนตรี
ในเดือนมกราคม พ.ศ. 2566 MusicLM เผยแพร่โดย Google Research ซึ่งอนุญาตให้ผู้คนใช้ข้อความแจ้งเพื่อรับเพลงได้ ไม่กี่วันที่ผ่านมามีการเปิดตัวโมเดลที่เป็น chatGPT ฟังเพลงมากขึ้น
AudioGPT ผู้อำนวยการซิมโฟนีคนใหม่
เมื่อเร็ว ๆ นี้นักวิจัยจากมหาวิทยาลัยในอังกฤษและอเมริกาได้นำเสนอผลงานใหม่ที่เรียกว่า AudioGPT
ดังที่ผู้เขียนรับทราบ ChatGPT และความก้าวหน้าล่าสุดของแบบจำลองใน NLP มีผลกระทบต่อสังคมอย่างกว้างขวาง อย่างไรก็ตาม สิ่งเหล่านี้จำกัดอยู่ที่ข้อความและไม่ประสบความสำเร็จในรูปแบบอื่นๆ (รูปภาพ วิดีโอ ข้อความ) เราได้เห็นความพยายามบางส่วนในรูปภาพแล้ว (และ GPT-4 ควรเป็นแบบมัลติโมดัล ข้อความ และรูปภาพด้วย)
ในสถานการณ์จริง มนุษย์สื่อสารโดยใช้เสียงพูดและใช้ผู้ช่วยพูด นอกจากนี้ สมองส่วนสำคัญและสติปัญญายังอุทิศให้กับการประมวลผลข้อมูลจากเสียง ในความเป็นจริง แม้แต่ส่วนใหญ่ในสังคมของเราไม่เพียงแค่สื่อสาร แต่ฟังเพลง และมีการพูดคนเดียวภายใน ดังนั้นโมเดลที่สามารถเข้าใจข้อความและดนตรีจึงไม่ใช่เรื่องเล็กน้อยเลย
ในตอนนี้ การประมวลผลเพลงไม่ใช่เรื่องง่ายเลยด้วยเหตุผลหลายประการ:
- ข้อมูล อันที่จริงแล้วการรับข้อมูลเสียงพูดโดยมนุษย์นั้นเป็นงานที่มีราคาแพงกว่าการคัดลอกข้อความบนเว็บมาก (และใช้เวลานานกว่าด้วย) นอกจากนี้ยังมีวัสดุน้อยกว่ามากและข้อมูลจึงน้อยกว่า
- มีราคาแพงกว่ามาก
แนวคิดคือการมี LLM เป็นส่วนต่อประสาน จากนั้น LLM นี้จะโต้ตอบกับโมเดลพื้นฐานสำหรับคำพูดโดยเฉพาะและส่วนต่อประสานกับกล่องโต้ตอบคำพูด (ส่วนต่อประสานอินพุต / เอาต์พุต (ASR, TTS))

ดังที่ผู้เขียนกล่าวไว้ กระบวนการสามารถแบ่งออกเป็นสี่ขั้นตอน:
- Modality Transformationอินเทอร์เฟซอินพุต/เอาต์พุตเพื่อเชื่อมต่อข้อความและเสียง
- การวิเคราะห์ข้อความเพื่อให้ ChatGPT เข้าใจความตั้งใจของผู้ใช้
- การกำหนดโมเดล ChatGPT จะกำหนดโมเดลพื้นฐานของเสียงเพื่อความเข้าใจและการสร้าง
- Response Generationการตอบสนองถูกสร้างขึ้นสำหรับผู้ใช้
ก่อนที่จะลงรายละเอียด เราสามารถพูดได้ว่า AudioGPT เป็นแชทบอทซึ่งทำงานเหมือนกับ ChatGPT อย่างไรก็ตาม ไม่เหมือนสิ่งนี้ ยังสามารถจัดการอินพุต เช่น เสียงพูดและเสียง และดำเนินการจัดการอินพุตเหล่านี้ได้

จากนั้นโมเดลจะป้อนทั้งข้อความและเสียงพูด หากเป็นการป้อนข้อความ ระบบจะประมวลผลโดยตรง หากไม่ใช่ หากเป็นคำพูด ระบบจะถอดเสียงเป็นข้อความ
เมื่อทำเสร็จแล้ว ChatGPT จะวิเคราะห์คำค้นหาของผู้ใช้ (โมเดลต้องเข้าใจว่าผู้ใช้ร้องขออะไร และต้องการให้ผู้ใช้ทำอะไร) ตัวอย่างเช่น ผู้ใช้อาจพูดว่า "ถอดเสียงนี้" หรือ "สร้างเสียงมอเตอร์ไซค์ท่ามกลางสายฝน" ดังที่เราเห็นใน HugginGPT เมื่อ ChatGPT เข้าใจคำขอแล้ว จะต้องแมปคำขอนั้นกับงานที่โมเดลอื่นจะดำเนินการได้
เมื่อเปลี่ยนคำขอเป็นงานแล้ว ระบบจะเลือกจากรุ่นต่างๆ ที่มี (รุ่นที่มีอยู่ 17 รุ่นได้อธิบายไว้ในตารางด้านบน) เห็นได้ชัดว่าแต่ละรุ่นมีข้อกำหนดเฉพาะของตนเองและสามารถทำงานต่างๆ ให้สำเร็จได้ โดยพื้นฐานแล้ว AudioGPT จะเป็นผู้ตัดสินใจว่ารุ่นใดดีที่สุดสำหรับงานนั้นๆ นอกจากนี้ LLM ยังทำหน้าที่ในการส่งคำขอเพื่อให้โมเดลสามารถดำเนินการได้
โมเดลที่เลือกดำเนินการ (ใช้ในการอนุมานโดยไม่ต้องฝึกใหม่) และส่งผลลัพธ์ไปยัง ChatGPT ChatGPT สร้างการตอบสนองและเพิ่มผลลัพธ์ของโมเดล จากนั้น LLM จะแปลงเอาต์พุตของโมเดลเป็นรูปแบบที่ผู้ใช้เข้าใจได้ ไม่ว่าจะอยู่ในรูปแบบข้อความหรือแนบไฟล์เสียง
ข้อดีคือกระบวนการเป็นแบบโต้ตอบและ ChatGPT มีหน่วยความจำของการสนทนา คุณจึงเห็นว่าเป็นส่วนขยายของ ChatGPT ไปยังไฟล์เสียง

ผู้เขียนประเมินโมเดลด้วยงาน ชุดข้อมูล และตัวชี้วัดที่แตกต่างกัน:

ผู้เขียนตัดสินใจประเมินโมเดลเพื่อความทนทาน ขณะเดียวกันก็ให้ความสนใจกับกรณีพิเศษที่โมเดลอาจเผชิญ:
- สายโซ่ยาวของการประเมินแบบจำลองต้องพิจารณาการพึ่งพาบริบทที่ยาวนานสำหรับงานนี้ (เช่น การจัดการลำดับของแบบจำลอง แบบจำลองต่างๆ)
- งานที่ไม่ได้รับการสนับสนุนแบบจำลองจะต้องให้ข้อเสนอแนะที่เพียงพอ
- การจัดการข้อผิดพลาดของโมเดลหลายโมดอลในกรณีนี้ เราสามารถมีอินพุตและรูปแบบที่แตกต่างกันซึ่งอาจนำไปสู่ข้อผิดพลาดและความล้มเหลวของโมเดลได้
- แบ่งตามบริบท ข้อความค้นหาที่ส่งโดยผู้ใช้ไม่จำเป็นต้องอยู่ในลำดับตรรกะ แต่อาจอยู่ในลำดับสุ่ม
เราจะเห็นตัวอย่างบางส่วน เช่น AudioGPT สามารถสร้างเสียงตามรูปภาพได้ ในตัวอย่างนี้ ผู้เขียนขอให้โมเดลสร้างภาพสำหรับแมว กล่าวอีกนัยหนึ่ง คำบรรยายจะถูกสร้างขึ้นสำหรับรูปภาพและใช้เพื่อขับเคลื่อนการสร้างเสียง เห็นได้ชัดว่านักดนตรีที่ต้องการเพิ่มคุณค่าให้กับเพลงของพวกเขาด้วยเสียงโดยไม่ต้องซื้อคลังเสียง นอกจากนี้ยังสามารถใช้เทมเพลตข้อความเป็นวิดีโอเพื่อสร้างรูปภาพและวิดีโอ และ AudioGPT เพื่อเพิ่มเสียง

ในทางกลับกัน AudioGPT ไม่เพียงแต่สร้างเสียงเท่านั้น แต่ยังรวมถึงเสียงพูดของมนุษย์ด้วย สิ่งที่น่าทึ่งคือสามารถระบุข้อมูลโน้ตและระยะเวลาของลำดับได้ จากนั้นนางแบบจะร้องเพลง กล่าวอีกนัยหนึ่งสามารถสร้างเพลงได้

นอกจากนี้ยังสามารถสร้างวิดีโอด้วยเสียงได้อีกด้วย ดังนั้นเราจึงอาจสร้างเพลงแล้วสร้างมิวสิกวิดีโอ (ทั้งหมดนี้ใช้เทมเพลตเดียว)

นอกจากนี้ยังสามารถใช้เพื่อจำแนกสิ่งที่เกิดขึ้นในเสียง เนื่องจากแบบจำลองยังคงรักษาความรู้เกี่ยวกับประวัติศาสตร์ไว้ เราจึงสามารถจินตนาการถึงการดำเนินการตามลำดับได้ ทั้งหมดใช้เฉพาะ AudioGPT และรุ่นต่างๆ มากมาย

รุ่นไม่จำกัดความสามารถในการสร้างเสียง ตัวอย่างเช่น สามารถแยกเสียง แล้วขจัดเสียงรบกวนรอบข้างหรือแยกเสียงเพื่อใช้ในบริบทอื่น

มันยังสามารถแยกแหล่งกำเนิดเสียง, ลบเสียงรบกวนได้อีกด้วย

และยังสามารถแปลจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง:

จึงดูเหลือเชื่อว่ารุ่นนี้ทำได้ ทั้งหมดนี้เพียงแค่ทำหน้าที่เป็นตัวนำของรุ่นต่างๆ ผู้ใช้เพียงแค่เขียนพรอมต์และโมเดลจะดูแลส่วนที่เหลือเอง
แต่มันไม่มีข้อจำกัด?
- พรอมท์ เอ็นจิเนียริ่ง. เห็นได้ชัดว่า ข้อจำกัดประการแรกคือโมเดลนั้นใช้ ChatGPT โดยพื้นฐานแล้ว และผู้ใช้ต้องสามารถเขียนในพรอมต์ได้ และอาจใช้เวลานาน
- ขีดจำกัดความยาว เช่นเดียวกับรุ่นอื่นๆ ที่คล้ายกัน (HuggingGPT) ความยาวสูงสุดของพรอมต์คือขีดจำกัดที่บล็อกไดอะล็อกและจำนวนคำสั่งสูงสุดที่ผู้ใช้สามารถให้ได้
- ขีดจำกัดความสามารถ ข้อจำกัดของเทมเพลตที่ใช้จะจำกัดความสามารถของ AudioGPT เอง
หรือหากคุณไม่ต้องการทำเช่นนั้น คุณสามารถใช้การสาธิต (คุณต้องมีคีย์ OpenAI API ด้วย) โปรดจำไว้ว่าคุณจ่ายเงินเพื่อใช้:

ความคิดพรากจากกัน
แบบจำลองนี้แสดงวิธีการง่ายๆ ที่สามารถเชื่อมต่อ LM กับแบบจำลองต่างๆ ที่สามารถปรับแต่งเสียงได้ โมเดลสามารถสร้างเพลงและเสียงหรือปรับเปลี่ยนได้ เห็นได้ชัดว่าความสามารถของมันจะเพิ่มขึ้นโดยการผูกโมเดลอื่นหรือปรับปรุงความแม่นยำของโมเดลที่ใช้ ด้วยวิธีนี้ AudioGPT จะได้รับงานใหม่ที่เป็นไปได้และปรับปรุงประสิทธิภาพของงานเหล่านั้น
ในทางกลับกัน มีโมเดลข้อความและรูปภาพที่มีประสิทธิภาพสูงมาก แต่เมื่อไม่นานมานี้เราเพิ่งเห็นโมเดลที่สามารถควบคุมความซับซ้อนของเสียงได้
เห็นได้ชัดว่านี่ไม่ใช่โมเดลสุดท้าย แต่เป็นการแสดงให้เห็นถึงความสามารถของระบบ ในความเป็นจริง โมเดลไม่ได้รวมงานหรือพรอมต์เสมอไป ดังนั้นผลลัพธ์จึงเป็นของยูทิลิตี้ ในอนาคต โมเดลที่คล้ายกันจะสามารถทำงานต่างๆ ให้สำเร็จตั้งแต่วิดีโอไปจนถึงเพลง จากรูปภาพไปจนถึงข้อความ และรวมเข้าด้วยกัน
นอกจากนี้ ระบบดังกล่าวไม่ได้จำกัดเฉพาะเสียงเท่านั้น เราสามารถนึกถึงแบบจำลองที่รวมกิริยาที่แตกต่างกันเข้าด้วยกัน ระบบดังกล่าวสามารถรวมเข้ากับซอฟต์แวร์ที่ปรับเปลี่ยนเสียงได้ (เช่น Ableton) ในอนาคต ผู้ใช้สามารถสร้างเสียงด้วย AI แล้วใช้เป็นจุดเริ่มต้นสำหรับการแก้ไขเพิ่มเติมด้วยซอฟต์แวร์ที่เหมาะสม หรือเพิ่มเสียงและอื่นๆ ให้กับเพลงที่บันทึกไว้ นอกจากนี้ ไม่จำเป็นต้องใช้ข้อความแจ้ง แต่ใช้คำสั่งเสียงด้วยซ้ำ
เราได้เห็นผลกระทบของการแพร่กระจายที่เสถียรในอุตสาหกรรมกราฟิก อุตสาหกรรมเพลงเป็นประเทศต่อไปที่จะเห็นผลของปัญญาประดิษฐ์ สิ่งนี้จะเปิดฉากใหม่ ปัญหาลิขสิทธิ์ และอื่นๆ อีกมากมาย เพื่อนๆคิดว่าไงคะ?
หากคุณพบว่าสิ่งนี้น่าสนใจ:
คุณสามารถค้นหาบทความอื่นๆ ของฉัน คุณยังสามารถสมัครสมาชิกเพื่อรับการแจ้งเตือนเมื่อฉันเผยแพร่บทความ คุณสามารถเป็นสมาชิกระดับกลางเพื่อเข้าถึงเรื่องราวทั้งหมดของมัน (ลิงก์พันธมิตรของแพลตฟอร์มที่ฉันได้รับรายได้เล็กน้อยโดยไม่เสียค่าใช้จ่าย) และคุณ ยังสามารถเชื่อมต่อหรือติดต่อฉันบนLinkedIn
นี่คือลิงก์ไปยังที่เก็บ GitHub ของฉัน ซึ่งฉันวางแผนที่จะรวบรวมโค้ดและทรัพยากรมากมายที่เกี่ยวข้องกับแมชชีนเลิร์นนิง ปัญญาประดิษฐ์ และอื่นๆ
หรือคุณอาจสนใจบทความล่าสุดของฉัน:
ทุกสิ่งยกเว้นทุกสิ่งที่คุณจำเป็นต้องรู้เกี่ยวกับ ChatGPT