เรื่องราวแปลกประหลาดของ Music Neural Engine

Nov 30 2022
เหตุใดปัญญาประดิษฐ์ของ Kena จึงเป็น Music Neural Engine ที่ทรงพลังและแม่นยำที่สุด คำตอบอยู่ที่การเพิกเฉยต่อมาตรฐานอุตสาหกรรมและเริ่มต้นด้วยมุมมองใหม่ ตอนที่ฉันเริ่ม Kena ผู้คนพูดว่า “ถ้าคุณไม่เข้าใจทฤษฎีดนตรี คุณจะล้มเหลวในการแก้ปัญหา

เหตุใดปัญญาประดิษฐ์ของ Kena จึงเป็น Music Neural Engine ที่ทรงพลังและแม่นยำที่สุด คำตอบอยู่ที่การเพิกเฉยต่อมาตรฐานอุตสาหกรรมและเริ่มต้นด้วยมุมมองใหม่

ตอนที่ฉันเริ่ม Kena มีคนพูดว่า “ถ้าคุณไม่เข้าใจทฤษฎีดนตรี คุณจะล้มเหลวในการแก้ปัญหา” นอกจากนี้ ชุมชนแมชชีนเลิร์นนิงที่มีอยู่หลายแห่งก็ “ปู-ปู” แนวคิดที่ว่าการลดความซับซ้อนและความแม่นยำในการประพันธ์เพลงที่สร้างโดยใช้ Neural Networks ไม่สามารถมากไปกว่า HMM + การต่อกฎการสร้างสรรค์ด้วยมือ (นี่คือในปี 2019)

ฉันไม่สนใจมันทั้งหมด แพลตฟอร์ม AI ของ Kena มีความแม่นยำถึง 96% แล้ว นี่คือการสาธิต

เราทำสิ่งนี้ได้อย่างไร

แม้ว่าฉันจะรับทราบคำติชมทุกแง่มุม แต่ฉันแค่ต้องการทราบว่าเหตุใดเราจึงไม่สามารถยืมแนวคิดของระบบการดูแลตนเองและระบบการเรียนรู้แบบหลายภารกิจจากสาขาภาษาศาสตร์ไปสู่ดนตรีได้ และเหตุใดเราจึงยืมแนวคิดการเรียนรู้แบบเป็นตัวแทนจากสาขาคอมพิวเตอร์การมองเห็นไม่ได้ (ฉันทำงานด้านการมองเห็นและภาษาศาสตร์ก่อนที่จะกระโดดเข้าสู่สาขาอะคูสติก)

หากคุณหรี่ตาลงเล็กน้อย ลักษณะการเรียนรู้ตามลำดับของดนตรีจะคล้ายกับแบบจำลองทางภาษา และถ้าคุณหันศีรษะเล็กน้อย การแบ่งอินสแตนซ์ของเมโลดี้ในความหนาแน่นของสเปกตรัมจะคล้ายกับการประมวลผลด้วยวิชันซิสเต็ม

พื้นที่แฝงก็คล้ายกันในความคิดของฉัน ฉันไม่แน่ใจว่าทำไมกลุ่ม "การวิเคราะห์ฟูเรียร์" ถึงไล่ตามฉันด้วยก้อนอิฐและไม้ตีในกลุ่มแชท :) ล้อเล่นนะ วิศวกร ML ใจดีที่สุด หากมีชุมชนที่แน่นแฟ้นในอุตสาหกรรมใดก็ตาม ชุมชนนั้นก็คือชุมชนวิศวกรรม รหัสทำงานหนากว่าเลือดในเส้นเลือดส่วนกลางเหล่านี้

ฉันเป็นมือใหม่ในการวิเคราะห์ดนตรีและการคำนวณทางเสียง นี่เป็นข้อได้เปรียบ! ฉันไม่มีอะไรจะ "เรียนรู้" และมีเพียงความเป็นไปได้ที่ยอดเยี่ยมของแนวคิดใหม่ที่จะลองซึ่งอยู่ตรงหน้าฉัน นั่นไม่เป็นความจริงทั้งหมด ฉันต้องเรียนรู้การวิเคราะห์สเปกตรัมมากมายเพื่อนำเสียงเข้าสู่ขอบเขตการมองเห็น ฉันยังต้องเรียนรู้เทคนิคมากมายในการกำจัดเสียงรบกวนในสเปกตรัมการได้ยิน แต่คุณได้รับประเด็น

ฉันเพิกเฉยต่อ Hidden Markov Models ทำให้ฉันต้องเรียนรู้ทฤษฎีดนตรีเพื่อสร้างกลไกของรัฐ ที่ฉันเพิกเฉยไม่ใช่เพราะฉันไม่ต้องการเรียนทฤษฎีดนตรี ฉันเพิกเฉยเพราะเชื่อว่าทฤษฎีดนตรีประกอบด้วยมือเป็นทางเลือกทางสถาปัตยกรรมที่ไม่ถูกต้องสำหรับการออกแบบแมชชีนเลิร์นนิงสำหรับบางสิ่งที่ซับซ้อนอย่างดนตรี

ฉันเพิกเฉยต่อการลดขนาดและการเย็บด้วยมือของขนาดที่มีลำดับต่ำกว่าในแง่มุมของการสร้างมิดิ ฉันไม่สนใจการแปรปรวนของเวลาแบบไดนามิกและการถอดรหัส Viterbi ในช่วงต้นของท่อ ฉันทิ้งมันทั้งหมดและเริ่มด้วยระบบการเรียนรู้ด้วยตนเองก่อน

จากความสำเร็จในการใช้การเรียนรู้เชิงลึกกับปัญหาที่มีอยู่ในอดีต ฉันจึงมองหากลไกที่ดูแลตนเองเพื่อฝึกแบบจำลองโดยใช้การเรียนรู้เชิงลึก ฉันสะดุดกับรายงานที่ยอดเยี่ยมนี้โดยทีม Google Brain ซึ่งกำลังพยายามทำงานกับตัวเข้ารหัสคลื่นอัตโนมัติ Wave 2 midi 2 ( การโจมตีและเฟรม: ตัวเข้ารหัสอัตโนมัติแบบสองวัตถุประสงค์ )

การออกแบบตัวเข้ารหัสอัตโนมัติแบบสองวัตถุประสงค์

Voila สถาปัตยกรรมนี้สวยงามและสร้างขึ้นเพื่อฝึกฝนการสูญเสียการโจมตีและการสูญเสียเฟรม ถึงกระนั้น มิดี้ที่กำลังสร้างก็มีเสียงดังมาก เป็นเสียงเปียโนเฉพาะ และไม่สามารถใช้สำหรับการแปลโน้ตเพลงหรือการวินิจฉัยเฟรมดนตรีได้ง่ายๆ

อย่างไรก็ตาม แนวคิดทางสถาปัตยกรรมเป็นแรงบันดาลใจ ฉันสร้าง VQ-VAE (Vector Quantized Variational Autoencoder) ตามการออกแบบ NMT ของ Onset และ Frames โดยมีรายละเอียดดังต่อไปนี้

  1. (ฉันจะบอกคุณถึงความลับข้อแรกของ Kena) มันอยู่ในการบีบอัด VQ ของ Mel Spectrogram ;)
  2. แทนที่จะฝึกแค่เปียโน ให้ฝึกโมเดลบนกีตาร์ด้วย
  3. มุ่งเน้นไปที่การฝึก "มัลติทาสก์" แบบ 2 หอคอยสำหรับชุดข้อมูลขนาดเล็กที่ฝึกไฟล์ midi ที่สะอาดกว่าจากโน้ตเพลงเพื่อออกแบบข้อผิดพลาด ตามความ เฉพาะเจาะจงเมื่อเทียบกับความไว
  4. ฝึกใหม่ทั้งระบบเพื่อกำจัดข้อผิดพลาด Type-2 และความเฉพาะเจาะจงเมื่อเทียบกับความไว

การออกแบบฟังก์ชัน multi-task loss ของคุณให้มีความเฉพาะเจาะจงและมุ่งเน้นไปที่ชุดการตรวจสอบของฉันระหว่างการฝึกคือจุดที่ซอสวิเศษส่วนใหญ่ของ Kenaมีอยู่ใน Music Neural Engine

ด้วยวิธีนี้ ฉันสามารถบรรลุสิ่งต่อไปนี้:

  • ความแม่นยำในการถอดความเกือบ 87%!! ซึ่งล้ำหน้ากว่าการถอดเสียงโดยใช้ HMM ที่ดีที่สุดในระดับเดียวกันหลายไมล์
  • มิดี้เบาบางและเกือบ 100% เหมือนกับอะนาล็อกโดยไม่สูญเสียคุณภาพ
  • การหาปริมาณเวกเตอร์ยังคงรักษาลายเซ็นเวลาและกุญแจไว้

ข้อดีคือ VQ-VAE ทำงานได้ดีกับเครื่องดนตรี 40 ชนิดและ 6 ประเภทที่แตกต่างกัน

การสร้าง Midi นี้เป็นที่ที่ 70% ของเวทมนตร์อยู่ ฉันเขียนโค้ดแบบจำลองทั้งหมดจนถึงที่นี่โดยไม่เข้าใจอะไรเลยในทฤษฎีดนตรี (มีคนถามว่าฉันยังเขียนโค้ดอยู่ไหม ‍♂️ ) นั่นคือความงาม ฉันไม่ต้องเรียนทฤษฎีดนตรี ฉันสร้างโมเดลที่เรียนทฤษฎีดนตรีในนามของฉัน!

ส่วนที่เหลืออีก 30% อยู่ในขั้นตอนปลายน้ำเพื่อขัดเกลาการถอดเสียงสำหรับคีย์และลายเซ็นเวลา 30% นี้เป็นขั้นตอนสุดท้ายที่ต้องใช้ความรู้ด้านทฤษฎีดนตรีและความเข้าใจเกี่ยวกับร่องรอยทางสถิติของดนตรี

เข้ามากี้

โชคดีที่ฉันได้พบกับ Mikey นักดนตรีแจ๊สมืออาชีพและวิศวกร Machine Learning ที่กระตือรือร้น (ไมเคิล ชวาร์ตซ์). หลังจากให้สัมภาษณ์การบ้านแก่เขา ฉันจ้างเขาทันทีในฐานะผู้ก่อตั้งวิศวกรแมชชีนเลิร์นนิง เด็กชายเขาคลอดตั้งแต่เมื่อไหร่? มือลง

(เขายังสาธิตพลังของปัญญาประดิษฐ์ของ Kena ในวิดีโอด้วย)

Mikey เริ่มสร้างสถาปัตยกรรมไปป์ไลน์หลังจากที่ Music Neural Engine ปล่อย Midi ที่สะอาดเรียบร้อยออกมา โดยเฉพาะอย่างยิ่ง ไปป์ไลน์และแบบจำลองของเขาทำสิ่งต่อไปนี้:

  1. สร้างเอาต์พุต midi ของโน้ตเพลงที่อัปโหลดโดยผู้สร้าง
  2. นำเอาต์พุตมิดิที่นำเสนอโดย Music Neural Engine (ซึ่งมีความแม่นยำเพียง 87% จากเครื่องดนตรี 40 ชนิดและ 6 ประเภท) และเปรียบเทียบเพื่อให้ตรงกับโน้ตและทำนอง
  3. สร้างเทมเพลตที่ให้ข้อเสนอแนะเกี่ยวกับข้อผิดพลาดเหมือนมนุษย์
  4. สร้างไฟล์มาร์กอัปข้อผิดพลาดสำหรับ Visual Markups ในโน้ตเพลง
  1. คุณต้องตรวจสอบความเร็วของการฝึกฝน ใช้การแปรปรวนเวลาแบบไดนามิกเพื่อทำให้แบบฝึกหัดและไฟล์เป้าหมายเป็นปกติ
  2. ดำเนินการจัดแนวลำดับที่ยาวที่สุดเพื่อเปรียบเทียบตำแหน่งในโน้ตเพลงที่ผู้ฝึกหัดเริ่มเล่น
  3. ตรวจสอบว่าผู้ฝึกหัดข้ามส่วนใดและส่วนใดที่ผู้ฝึกด้นสด (ซึ่งไม่มีอยู่ในโน้ตเพลง)
  4. ตรวจสอบจังหวะฟรีสไตล์ (รูบาโต) และเวลาไพเราะ
  5. ตรวจหาเสียงทริลล์ เสียงสั่น และมิติขนปุยของดนตรีเพิ่มเติม
  6. ตรวจสอบคีย์และการย้ายตำแหน่ง
  7. และพัฒนาเทมเพลตเพื่อให้ความคิดเห็น

อีกทางหนึ่ง Mikey ยังสร้างโมเดลการทำให้ Sheet Music ง่ายขึ้น ซึ่งนำโน้ตเพลงที่ซับซ้อนใดๆ มาลดความซับซ้อนลงเป็นหลายระดับ

วิศวกรแมชชีนเลิร์นนิงที่เคารพตนเองทุกคนรู้ดีว่า 80% ของความพยายามอยู่ที่การปรับปรุงโมเดล ML จากความแม่นยำ 85% เป็นความแม่นยำ 95% การโกนทุกๆ 1% หลังจากนั้นเป็นงานที่ยาก

ฉันภูมิใจในตัว Mikey มากที่ได้เป็นส่วนหนึ่งของทีมผู้ก่อตั้งที่ Kena เขาเป็นม้าพลัง หากมีสิ่งหนึ่งที่ฉันประสบความสำเร็จในอาชีพการเป็นผู้นำทั้งหมดของฉัน นั่นคือการจับตามองผู้มีความสามารถพิเศษ เสริมพลังให้พวกเขาบรรลุผลลัพธ์ที่เหนือชั้น และยืนเคียงข้างเป็นโซฟาเมื่อจำเป็น

Music Neural Engine + ท่อ Downstream ML รวมกันเป็นที่มาของพลังของ Kena ในอุตสาหกรรมนี้ ไม่มีอะไรใกล้เคียงกับความแม่นยำ ความเฉพาะเจาะจง หรือพลังตอบรับที่แพลตฟอร์ม AI ของ Kena มอบให้

การทดสอบการอ้างสิทธิ์นี้ง่ายมาก เล่นกับ AI ของเราบนแพลตฟอร์มของเราที่https://opus.kena.ai

แจ้งให้เราทราบสิ่งที่คุณคิด.