Необычная история музыкального нейронного движка

Nov 30 2022

Почему искусственный интеллект Кены является самым мощным и точным музыкальным нейронным движком? Ответ заключается в игнорировании отраслевых стандартов и подходе к делу со свежей точки зрения. Когда я основал Kena, люди говорили: «Если вы не понимаете теории музыки, вам не удастся решить проблему.

Когда я основал Kena, люди говорили: «Если вы не понимаете теории музыки, вам не удастся решить проблему». Кроме того, многие из существующего сообщества по машинному обучению «недовольны» идеей о том, что упрощение и композиционная точность музыкальной обратной связи, созданной с использованием нейронных сетей, не может быть больше, чем HMM + ручное сшивание творческих правил (это было в 2019 году).

Я проигнорировал все это. Платформа искусственного интеллекта Кены теперь имеет точность 96%. Вот демо.

Как мы это сделали?

Хотя я признавал каждый аспект обратной связи, я просто хотел понять, почему мы не можем позаимствовать идеи самоуправляемых систем и систем многозадачного обучения из области лингвистики в музыку. А также, почему мы не можем позаимствовать идеи репрезентативного обучения из вычислений поля зрения? (Я работал в области видения и лингвистики, прежде чем перейти в область акустики).

Если немного прищуриться, то аспекты музыкального обучения последовательности аналогичны языковым моделям. А если немного повернуть голову, то экземплярная сегментация мелодий по спектральным плотностям похожа на вычисления зрения.

Скрытое пространство было похожим в моем сознании. Я не был уверен, почему толпа «анализа Фурье» гонялась за мной с кирпичами и летучими мышами в чат-группах :) Шучу, инженеры машинного обучения самые добрые. Если в любой отрасли и есть сплоченное сообщество, то это инженерное сообщество. Код течет гуще крови в этих общих венах.

Я действительно был новичком в музыкальном анализе и акустических вычислениях. Это было преимуществом! Мне нечему было «разучиться», и у меня была только фантастическая возможность попробовать новые идеи, которые были передо мной. Ну, это не совсем так. Мне пришлось многому научиться спектральному анализу, чтобы перенести звук в область зрения. Мне также пришлось изучить множество методов устранения шума в слуховом спектре. Но вы поняли.

Я полностью проигнорировал скрытые марковские модели, потому что это требовало от меня изучения теории музыки для формирования конечных автоматов. Я проигнорировал это не потому, что не хотел изучать теорию музыки. Я проигнорировал это, потому что считал, что теория музыки, формирующая руки, была неправильным архитектурным выбором для дизайна машинного обучения для чего-то столь сложного, как Музыка.

Я проигнорировал уменьшение размерности и ручное сшивание измерений более низкого порядка в аспекте генерации миди. Я игнорировал динамические искажения времени и декодирование Витерби на ранних стадиях пайплайнов. Я выбросил их все и начал с самообучающейся системы.

Учитывая успех применения глубокого обучения к существующим проблемам в прошлом, я искал механизм самоконтроля для обучения моделей с использованием глубокого обучения. Я наткнулся на эту замечательную статью команды Google Brain, которая пыталась работать над автокодировщиком Wave 2 midi 2 wave. ( Начала и кадры: автоматический кодировщик с двумя объективами )

Двойной объектив Auto Encoder

Вуаля, эта архитектура была прекрасна и была построена для обучения на начальной потере и потере кадров. Тем не менее, миди, которые он генерировал, были очень шумными, очень специфичными для фортепиано, и их нельзя было легко использовать для перевода нот или диагностики музыкальных кадров.

Тем не менее, архитектурная идея была вдохновляющей. Я построил VQ-VAE (векторный квантованный вариационный автоэнкодер) на основе NMT-дизайна Onset и Frames со следующими деталями.

(Я укажу вам на первый секрет Кены.) Он находится в сжатии VQ спектрограммы Мела ;)
Вместо того, чтобы просто играть на фортепиано, тренируйте модели и на гитаре.
Сосредоточьтесь на «многозадачном» обучении с двумя башнями для небольшого набора данных, которое тренируется на более чистом миди-файле из нот, чтобы спроектировать ошибки в сторону специфичности , а не чувствительности.
Переобучите всю систему, чтобы устранить ошибки типа 2 и специфичность по сравнению с чувствительностью.

Разработка ваших многозадачных функций потерь с учетом специфики и сосредоточение внимания на моих проверочных наборах во время обучения — вот где большая часть волшебного соуса Кены существует в Music Neural Engine.

При этом я мог добиться следующего:

Точность транскрипции почти 87%!! Это намного опережало лучшие в своем классе транскрипции на основе HMM.
Миди был разреженным и почти на 100% идентичен аналогу без потери качества.
Векторное квантование сохранило тактовые размеры и ключи.

Прелесть в том, что VQ-VAE безупречно работает с 40 различными инструментами и 6 различными жанрами.

Создание этого Midi — это то, в чем заключается 70% волшебства. Я кодировал всю модель до сих пор, ничего не понимая в теории музыки (люди спрашивают, все еще ли я кодирую ‍♂️). В этом была красота; Мне не нужно было изучать теорию музыки. Я построил модель, которая изучала теорию музыки от моего имени!

Остальные 30% находятся в последующих конвейерах для полировки расшифровок для тональностей и тактовых размеров. Эти 30% — последняя миля, требующая знания теории музыки и понимания статистических следов музыки.

Введите Майки

К счастью, я нашел Майки, профессионального джазового музыканта и страстного инженера по машинному обучению. (Майкл Шварц). Дав ему домашнее задание, я сразу же нанял его в качестве инженера-основателя по машинному обучению. Мальчик, он родил с тех пор? Руки вниз.

(Он также демонстрирует силу искусственного интеллекта Кены в видео.)

Майки начал создавать конвейер архитектуры после того, как Music Neural Engine выдал чистый Midi. В частности, его конвейеры и модели делают следующее:

Создавайте миди-вывод любых нот, загруженных создателем.
Возьмите миди-выход, представленный Music Neural Engine (точность которого составляет всего около 87% для 40 инструментов и 6 жанров), и сравните их, чтобы они соответствовали нотам и мелодическим линиям.
Создавайте шаблоны, которые обеспечивают человеческую обратную связь об ошибках.
Создайте файл разметки ошибок для визуальных пометок в нотах.

Вы должны проверить скорость практики. Применяйте динамические искажения времени, чтобы нормализовать практику и целевые файлы.
Выполните выравнивание самых длинных подпоследовательностей, чтобы сравнить, где в нотах начал играть практикующий.
Проверьте, какие разделы пропустил практикующий, а какие импровизировал (чего не было в нотах)
Проверьте ритмы фристайла (рубато) и мелодию.
Проверьте наличие дополнительных трелей, вибрато и тонких звуков музыки.
Проверьте ключи и транспозиции.
И разработайте шаблон для обратной связи.

Отдельно Майки также создал фантастическую модель упрощения нот, которая берет любые сложные ноты и упрощает их до нескольких уровней.

Любой уважающий себя инженер по машинному обучению знает, что 80 % усилий приходится на улучшение моделей машинного обучения с 85 % точности до 95 %. Брить каждый 1% после этого — геркулесова задача.

Я так горжусь Майки за то, что он был частью команды основателей Kena. Он силовая лошадь. Если и есть что-то, в чем я преуспел за всю свою лидерскую карьеру, так это в том, что я замечал исключительные таланты, давал им возможность добиваться непревзойденных результатов и просто стоял на диване, когда это было необходимо.

Вместе Music Neural Engine + конвейеры Downstream ML — вот откуда берется сила Kena. В отрасли ничто другое не может сравниться с точностью, специфичностью или силой обратной связи, которые предлагает платформа искусственного интеллекта Kena.

Проверить это утверждение очень просто. Играйте с нашим ИИ на нашей платформе по адресуhttps://opus.kena.ai