เรื่องราวแปลกประหลาดของ Music Neural Engine
เหตุใดปัญญาประดิษฐ์ของ Kena จึงเป็น Music Neural Engine ที่ทรงพลังและแม่นยำที่สุด คำตอบอยู่ที่การเพิกเฉยต่อมาตรฐานอุตสาหกรรมและเริ่มต้นด้วยมุมมองใหม่
ตอนที่ฉันเริ่ม Kena มีคนพูดว่า “ถ้าคุณไม่เข้าใจทฤษฎีดนตรี คุณจะล้มเหลวในการแก้ปัญหา” นอกจากนี้ ชุมชนแมชชีนเลิร์นนิงที่มีอยู่หลายแห่งก็ “ปู-ปู” แนวคิดที่ว่าการลดความซับซ้อนและความแม่นยำในการประพันธ์เพลงที่สร้างโดยใช้ Neural Networks ไม่สามารถมากไปกว่า HMM + การต่อกฎการสร้างสรรค์ด้วยมือ (นี่คือในปี 2019)
ฉันไม่สนใจมันทั้งหมด แพลตฟอร์ม AI ของ Kena มีความแม่นยำถึง 96% แล้ว นี่คือการสาธิต
เราทำสิ่งนี้ได้อย่างไร
แม้ว่าฉันจะรับทราบคำติชมทุกแง่มุม แต่ฉันแค่ต้องการทราบว่าเหตุใดเราจึงไม่สามารถยืมแนวคิดของระบบการดูแลตนเองและระบบการเรียนรู้แบบหลายภารกิจจากสาขาภาษาศาสตร์ไปสู่ดนตรีได้ และเหตุใดเราจึงยืมแนวคิดการเรียนรู้แบบเป็นตัวแทนจากสาขาคอมพิวเตอร์การมองเห็นไม่ได้ (ฉันทำงานด้านการมองเห็นและภาษาศาสตร์ก่อนที่จะกระโดดเข้าสู่สาขาอะคูสติก)
หากคุณหรี่ตาลงเล็กน้อย ลักษณะการเรียนรู้ตามลำดับของดนตรีจะคล้ายกับแบบจำลองทางภาษา และถ้าคุณหันศีรษะเล็กน้อย การแบ่งอินสแตนซ์ของเมโลดี้ในความหนาแน่นของสเปกตรัมจะคล้ายกับการประมวลผลด้วยวิชันซิสเต็ม
พื้นที่แฝงก็คล้ายกันในความคิดของฉัน ฉันไม่แน่ใจว่าทำไมกลุ่ม "การวิเคราะห์ฟูเรียร์" ถึงไล่ตามฉันด้วยก้อนอิฐและไม้ตีในกลุ่มแชท :) ล้อเล่นนะ วิศวกร ML ใจดีที่สุด หากมีชุมชนที่แน่นแฟ้นในอุตสาหกรรมใดก็ตาม ชุมชนนั้นก็คือชุมชนวิศวกรรม รหัสทำงานหนากว่าเลือดในเส้นเลือดส่วนกลางเหล่านี้
ฉันเป็นมือใหม่ในการวิเคราะห์ดนตรีและการคำนวณทางเสียง นี่เป็นข้อได้เปรียบ! ฉันไม่มีอะไรจะ "เรียนรู้" และมีเพียงความเป็นไปได้ที่ยอดเยี่ยมของแนวคิดใหม่ที่จะลองซึ่งอยู่ตรงหน้าฉัน นั่นไม่เป็นความจริงทั้งหมด ฉันต้องเรียนรู้การวิเคราะห์สเปกตรัมมากมายเพื่อนำเสียงเข้าสู่ขอบเขตการมองเห็น ฉันยังต้องเรียนรู้เทคนิคมากมายในการกำจัดเสียงรบกวนในสเปกตรัมการได้ยิน แต่คุณได้รับประเด็น
ฉันเพิกเฉยต่อ Hidden Markov Models ทำให้ฉันต้องเรียนรู้ทฤษฎีดนตรีเพื่อสร้างกลไกของรัฐ ที่ฉันเพิกเฉยไม่ใช่เพราะฉันไม่ต้องการเรียนทฤษฎีดนตรี ฉันเพิกเฉยเพราะเชื่อว่าทฤษฎีดนตรีประกอบด้วยมือเป็นทางเลือกทางสถาปัตยกรรมที่ไม่ถูกต้องสำหรับการออกแบบแมชชีนเลิร์นนิงสำหรับบางสิ่งที่ซับซ้อนอย่างดนตรี
ฉันเพิกเฉยต่อการลดขนาดและการเย็บด้วยมือของขนาดที่มีลำดับต่ำกว่าในแง่มุมของการสร้างมิดิ ฉันไม่สนใจการแปรปรวนของเวลาแบบไดนามิกและการถอดรหัส Viterbi ในช่วงต้นของท่อ ฉันทิ้งมันทั้งหมดและเริ่มด้วยระบบการเรียนรู้ด้วยตนเองก่อน
จากความสำเร็จในการใช้การเรียนรู้เชิงลึกกับปัญหาที่มีอยู่ในอดีต ฉันจึงมองหากลไกที่ดูแลตนเองเพื่อฝึกแบบจำลองโดยใช้การเรียนรู้เชิงลึก ฉันสะดุดกับรายงานที่ยอดเยี่ยมนี้โดยทีม Google Brain ซึ่งกำลังพยายามทำงานกับตัวเข้ารหัสคลื่นอัตโนมัติ Wave 2 midi 2 ( การโจมตีและเฟรม: ตัวเข้ารหัสอัตโนมัติแบบสองวัตถุประสงค์ )
Voila สถาปัตยกรรมนี้สวยงามและสร้างขึ้นเพื่อฝึกฝนการสูญเสียการโจมตีและการสูญเสียเฟรม ถึงกระนั้น มิดี้ที่กำลังสร้างก็มีเสียงดังมาก เป็นเสียงเปียโนเฉพาะ และไม่สามารถใช้สำหรับการแปลโน้ตเพลงหรือการวินิจฉัยเฟรมดนตรีได้ง่ายๆ
อย่างไรก็ตาม แนวคิดทางสถาปัตยกรรมเป็นแรงบันดาลใจ ฉันสร้าง VQ-VAE (Vector Quantized Variational Autoencoder) ตามการออกแบบ NMT ของ Onset และ Frames โดยมีรายละเอียดดังต่อไปนี้
- (ฉันจะบอกคุณถึงความลับข้อแรกของ Kena) มันอยู่ในการบีบอัด VQ ของ Mel Spectrogram ;)
- แทนที่จะฝึกแค่เปียโน ให้ฝึกโมเดลบนกีตาร์ด้วย
- มุ่งเน้นไปที่การฝึก "มัลติทาสก์" แบบ 2 หอคอยสำหรับชุดข้อมูลขนาดเล็กที่ฝึกไฟล์ midi ที่สะอาดกว่าจากโน้ตเพลงเพื่อออกแบบข้อผิดพลาด ตามความ เฉพาะเจาะจงเมื่อเทียบกับความไว
- ฝึกใหม่ทั้งระบบเพื่อกำจัดข้อผิดพลาด Type-2 และความเฉพาะเจาะจงเมื่อเทียบกับความไว
การออกแบบฟังก์ชัน multi-task loss ของคุณให้มีความเฉพาะเจาะจงและมุ่งเน้นไปที่ชุดการตรวจสอบของฉันระหว่างการฝึกคือจุดที่ซอสวิเศษส่วนใหญ่ของ Kenaมีอยู่ใน Music Neural Engine
ด้วยวิธีนี้ ฉันสามารถบรรลุสิ่งต่อไปนี้:
- ความแม่นยำในการถอดความเกือบ 87%!! ซึ่งล้ำหน้ากว่าการถอดเสียงโดยใช้ HMM ที่ดีที่สุดในระดับเดียวกันหลายไมล์
- มิดี้เบาบางและเกือบ 100% เหมือนกับอะนาล็อกโดยไม่สูญเสียคุณภาพ
- การหาปริมาณเวกเตอร์ยังคงรักษาลายเซ็นเวลาและกุญแจไว้
ข้อดีคือ VQ-VAE ทำงานได้ดีกับเครื่องดนตรี 40 ชนิดและ 6 ประเภทที่แตกต่างกัน
การสร้าง Midi นี้เป็นที่ที่ 70% ของเวทมนตร์อยู่ ฉันเขียนโค้ดแบบจำลองทั้งหมดจนถึงที่นี่โดยไม่เข้าใจอะไรเลยในทฤษฎีดนตรี (มีคนถามว่าฉันยังเขียนโค้ดอยู่ไหม ♂️ ) นั่นคือความงาม ฉันไม่ต้องเรียนทฤษฎีดนตรี ฉันสร้างโมเดลที่เรียนทฤษฎีดนตรีในนามของฉัน!
ส่วนที่เหลืออีก 30% อยู่ในขั้นตอนปลายน้ำเพื่อขัดเกลาการถอดเสียงสำหรับคีย์และลายเซ็นเวลา 30% นี้เป็นขั้นตอนสุดท้ายที่ต้องใช้ความรู้ด้านทฤษฎีดนตรีและความเข้าใจเกี่ยวกับร่องรอยทางสถิติของดนตรี
เข้ามากี้
โชคดีที่ฉันได้พบกับ Mikey นักดนตรีแจ๊สมืออาชีพและวิศวกร Machine Learning ที่กระตือรือร้น (ไมเคิล ชวาร์ตซ์). หลังจากให้สัมภาษณ์การบ้านแก่เขา ฉันจ้างเขาทันทีในฐานะผู้ก่อตั้งวิศวกรแมชชีนเลิร์นนิง เด็กชายเขาคลอดตั้งแต่เมื่อไหร่? มือลง
(เขายังสาธิตพลังของปัญญาประดิษฐ์ของ Kena ในวิดีโอด้วย)
Mikey เริ่มสร้างสถาปัตยกรรมไปป์ไลน์หลังจากที่ Music Neural Engine ปล่อย Midi ที่สะอาดเรียบร้อยออกมา โดยเฉพาะอย่างยิ่ง ไปป์ไลน์และแบบจำลองของเขาทำสิ่งต่อไปนี้:
- สร้างเอาต์พุต midi ของโน้ตเพลงที่อัปโหลดโดยผู้สร้าง
- นำเอาต์พุตมิดิที่นำเสนอโดย Music Neural Engine (ซึ่งมีความแม่นยำเพียง 87% จากเครื่องดนตรี 40 ชนิดและ 6 ประเภท) และเปรียบเทียบเพื่อให้ตรงกับโน้ตและทำนอง
- สร้างเทมเพลตที่ให้ข้อเสนอแนะเกี่ยวกับข้อผิดพลาดเหมือนมนุษย์
- สร้างไฟล์มาร์กอัปข้อผิดพลาดสำหรับ Visual Markups ในโน้ตเพลง
- คุณต้องตรวจสอบความเร็วของการฝึกฝน ใช้การแปรปรวนเวลาแบบไดนามิกเพื่อทำให้แบบฝึกหัดและไฟล์เป้าหมายเป็นปกติ
- ดำเนินการจัดแนวลำดับที่ยาวที่สุดเพื่อเปรียบเทียบตำแหน่งในโน้ตเพลงที่ผู้ฝึกหัดเริ่มเล่น
- ตรวจสอบว่าผู้ฝึกหัดข้ามส่วนใดและส่วนใดที่ผู้ฝึกด้นสด (ซึ่งไม่มีอยู่ในโน้ตเพลง)
- ตรวจสอบจังหวะฟรีสไตล์ (รูบาโต) และเวลาไพเราะ
- ตรวจหาเสียงทริลล์ เสียงสั่น และมิติขนปุยของดนตรีเพิ่มเติม
- ตรวจสอบคีย์และการย้ายตำแหน่ง
- และพัฒนาเทมเพลตเพื่อให้ความคิดเห็น
อีกทางหนึ่ง Mikey ยังสร้างโมเดลการทำให้ Sheet Music ง่ายขึ้น ซึ่งนำโน้ตเพลงที่ซับซ้อนใดๆ มาลดความซับซ้อนลงเป็นหลายระดับ
วิศวกรแมชชีนเลิร์นนิงที่เคารพตนเองทุกคนรู้ดีว่า 80% ของความพยายามอยู่ที่การปรับปรุงโมเดล ML จากความแม่นยำ 85% เป็นความแม่นยำ 95% การโกนทุกๆ 1% หลังจากนั้นเป็นงานที่ยาก
ฉันภูมิใจในตัว Mikey มากที่ได้เป็นส่วนหนึ่งของทีมผู้ก่อตั้งที่ Kena เขาเป็นม้าพลัง หากมีสิ่งหนึ่งที่ฉันประสบความสำเร็จในอาชีพการเป็นผู้นำทั้งหมดของฉัน นั่นคือการจับตามองผู้มีความสามารถพิเศษ เสริมพลังให้พวกเขาบรรลุผลลัพธ์ที่เหนือชั้น และยืนเคียงข้างเป็นโซฟาเมื่อจำเป็น
Music Neural Engine + ท่อ Downstream ML รวมกันเป็นที่มาของพลังของ Kena ในอุตสาหกรรมนี้ ไม่มีอะไรใกล้เคียงกับความแม่นยำ ความเฉพาะเจาะจง หรือพลังตอบรับที่แพลตฟอร์ม AI ของ Kena มอบให้
การทดสอบการอ้างสิทธิ์นี้ง่ายมาก เล่นกับ AI ของเราบนแพลตฟอร์มของเราที่https://opus.kena.ai
แจ้งให้เราทราบสิ่งที่คุณคิด.