Câu chuyện đặc biệt về động cơ thần kinh âm nhạc

Nov 30 2022

Tại sao Trí tuệ nhân tạo của Kena là Công cụ thần kinh âm nhạc mạnh mẽ và chính xác nhất? Câu trả lời nằm ở việc bỏ qua các tiêu chuẩn ngành và bắt đầu với một quan điểm mới. Khi tôi bắt đầu Kena, mọi người nói: “Nếu bạn không hiểu nhạc lý, bạn sẽ không giải được bài toán.

Tại sao Trí tuệ nhân tạo của Kena là Công cụ thần kinh âm nhạc mạnh mẽ và chính xác nhất? Câu trả lời nằm ở việc bỏ qua các tiêu chuẩn ngành và bắt đầu với một quan điểm mới.

Khi tôi bắt đầu Kena, mọi người nói, “Nếu bạn không hiểu nhạc lý, bạn sẽ không giải được bài toán.” Ngoài ra, nhiều người trong cộng đồng Machine Learning hiện tại đã “thúc đẩy” ý tưởng rằng độ đơn giản hóa và độ chính xác về thành phần của phản hồi âm nhạc được tạo bằng Mạng nơ-ron không thể lớn hơn HMM + khâu thủ công các quy tắc sáng tạo (Đây là vào năm 2019).

Tôi phớt lờ tất cả. Nền tảng AI của Kena hiện có độ chính xác 96%. Đây là một bản demo.

Làm thế nào mà chúng ta làm điều này?

Mặc dù tôi thừa nhận mọi khía cạnh của phản hồi, nhưng tôi chỉ muốn xem tại sao chúng ta không thể mượn ý tưởng về hệ thống tự giám sát và hệ thống học tập đa tác vụ từ lĩnh vực ngôn ngữ học vào Âm nhạc. Ngoài ra, tại sao chúng ta không thể mượn ý tưởng về học tập biểu diễn từ lĩnh vực điện toán tầm nhìn? (Tôi đã làm việc trong Tầm nhìn và Ngôn ngữ học trước khi chuyển sang lĩnh vực Âm học).

Nếu bạn để ý một chút, các khía cạnh học tập theo trình tự của âm nhạc cũng tương tự như các mô hình ngôn ngữ. Và nếu bạn quay đầu lại một chút, thì việc phân đoạn các giai điệu theo mật độ quang phổ tương tự như tính toán thị giác.

Không gian tiềm ẩn tương tự trong tâm trí tôi. Tôi không hiểu tại sao đám đông “phân tích Fourier” lại đuổi theo tôi bằng gạch và dơi trong các nhóm trò chuyện :) Đùa thôi, các kỹ sư ML là tốt nhất. Nếu có một cộng đồng gắn bó chặt chẽ trong bất kỳ ngành nào, thì đó chính là cộng đồng kỹ sư. Mã chạy dày hơn máu trong các tĩnh mạch chung này.

Tôi thực sự là một người mới bắt đầu phân tích âm nhạc và tính toán âm học. Đây là một lợi thế! Tôi không có gì để “bỏ học” và tôi chỉ có một khả năng tuyệt vời về những ý tưởng mới lạ để thử trước mắt. Chà, điều đó không hoàn toàn đúng. Tôi đã phải học rất nhiều về phân tích quang phổ để đưa âm thanh vào miền thị giác. Tôi cũng đã phải học rất nhiều kỹ thuật loại bỏ tạp âm trong phổ thính giác. Nhưng bạn sẽ có được điểm.

Tôi hoàn toàn phớt lờ các Mô hình Markov ẩn vì điều này yêu cầu tôi phải học nhạc lý để định hình các cỗ máy trạng thái. Tôi bỏ qua không phải vì tôi không muốn học nhạc lý. Tôi phớt lờ nó vì tôi tin rằng lý thuyết âm nhạc định hình bằng tay là lựa chọn kiến trúc sai lầm cho thiết kế Máy học cho một thứ phức tạp như Âm nhạc.

Tôi đã bỏ qua việc giảm kích thước và khâu thủ công các kích thước bậc thấp hơn thành một khía cạnh của thế hệ midi. Tôi đã bỏ qua các khoảng thời gian động và giải mã Viterbi sớm trong các đường ống dẫn. Tôi đã vứt bỏ tất cả chúng và bắt đầu với một hệ thống tự học trước tiên.

Với thành công của việc áp dụng học sâu cho các vấn đề tồn tại trong quá khứ, tôi đang tìm kiếm một cơ chế tự giám sát để đào tạo các mô hình sử dụng học sâu. Tôi tình cờ đọc được bài báo xuất sắc này của nhóm Google Brain, những người đang cố gắng làm việc trên bộ mã hóa tự động sóng midi 2 Wave 2. ( Khởi động và khung hình: Bộ mã hóa tự động mục tiêu kép )

Thiết kế bộ mã hóa tự động mục tiêu kép

Thì đấy, kiến trúc này rất đẹp và được xây dựng để đào tạo khi bắt đầu mất dữ liệu và mất khung hình. Tuy nhiên, midi mà nó tạo ra rất ồn ào, rất đặc trưng cho piano và không thể dễ dàng sử dụng để dịch bản nhạc hoặc chẩn đoán khung nhạc.

Tuy nhiên, ý tưởng kiến trúc đã truyền cảm hứng. Tôi đã xây dựng một VQ-VAE (Bộ mã hóa biến thiên lượng tử hóa theo vectơ) dựa trên thiết kế NMT của Khởi động và Khung với các chi tiết sau.

(Tôi sẽ chỉ cho bạn bí mật đầu tiên của Kena.) Đó là dạng nén VQ của Mel Spectrogram;)
Thay vì chỉ Piano, hãy đào tạo cả Guitar cho người mẫu.
Tập trung vào đào tạo “đa tác vụ” hai tháp cho một tập dữ liệu nhỏ đào tạo trên tệp midi sạch hơn từ bản nhạc để thiết kế các lỗi theo hướng cụ thể thay vì độ nhạy.
Đào tạo lại toàn bộ hệ thống để loại bỏ lỗi Loại 2 và tính đặc hiệu so với độ nhạy.

Thiết kế các chức năng giảm đa tác vụ của bạn theo hướng cụ thể và tập trung vào các bộ xác thực của tôi trong quá trình đào tạo là nơi mà hầu hết nước sốt ma thuật của Kena tồn tại trong Music Neural Engine.

Với điều này, tôi có thể đạt được những điều sau:

Độ chính xác của phiên âm gần 87%!! Điều này đã đi trước nhiều dặm so với các phiên âm dựa trên HMM tốt nhất trong lớp.
Midi thưa thớt và gần như giống 100% với analog mà không làm giảm chất lượng.
Lượng tử hóa vector giữ lại chữ ký thời gian và khóa.

Cái hay là VQ-VAE hoạt động trơn tru trên 40 nhạc cụ khác nhau và 6 thể loại khác nhau.

Tạo ra Midi này là nơi tạo ra 70% phép thuật. Mình code toàn bộ model từ trước đến giờ mà chả hiểu gì về nhạc lý (Mọi người hỏi mình còn code không ‍♂️ ). Đó là vẻ đẹp; Tôi không phải học nhạc lý. Tôi đã xây dựng một mô hình học lý thuyết âm nhạc thay cho tôi!

30% còn lại nằm trong các quy trình xuôi dòng để đánh bóng bản ghi cho các phím và chữ ký thời gian. 30% này là con số cuối cùng đòi hỏi kiến thức về lý thuyết âm nhạc và sự hiểu biết về các dấu vết thống kê của âm nhạc.

Nhập Mikey

May mắn thay, tôi đã tìm được một nhạc sĩ Jazz chuyên nghiệp và một kỹ sư Máy học đam mê, Mikey. (Michael Schwartz). Sau khi cho anh ấy một cuộc phỏng vấn về nhà, tôi đã thuê anh ấy ngay lập tức với tư cách là kỹ sư sáng lập Machine Learning. Chàng trai, anh ấy đã giao hàng từ bao giờ? Bỏ tay xuống.

(Anh ấy cũng đang giới thiệu sức mạnh Trí tuệ nhân tạo của Kena trong video.)

Mikey bắt đầu xây dựng một quy trình kiến trúc sau khi Music Neural Engine tạo ra một Midi sạch. Cụ thể, các quy trình và mô hình của anh ấy thực hiện như sau:

Tạo đầu ra midi của bất kỳ bản nhạc nào do người tạo tải lên.
Lấy đầu ra midi do Music Neural Engine trình bày (Chỉ chính xác khoảng 87% trên 40 nhạc cụ và 6 thể loại) rồi so sánh chúng để khớp với các nốt và dòng giai điệu.
Xây dựng các mẫu cung cấp phản hồi giống con người về các lỗi.
Xây dựng tệp đánh dấu lỗi cho Visual Markups trong bản nhạc.

Bạn phải kiểm tra tốc độ thực hành. Áp dụng các khoảng thời gian động để bình thường hóa thực tiễn và các tệp mục tiêu.
Thực hiện sắp xếp các chuỗi con dài nhất để so sánh vị trí trong bản nhạc mà học viên bắt đầu chơi.
Kiểm tra phần nào học viên đã bỏ qua và phần nào học viên ứng biến (không có trong bản nhạc)
Kiểm tra nhịp điệu tự do (Rubato) và thời gian du dương.
Kiểm tra các âm rung bổ sung, rung và kích thước lông của âm nhạc.
Kiểm tra Khóa và chuyển vị.
Và phát triển một mẫu để đưa ra phản hồi.

Một cách riêng biệt, Mikey cũng đã xây dựng một mô hình đơn giản hóa Bản nhạc tuyệt vời, lấy bất kỳ bản nhạc phức tạp nào và đơn giản hóa nó thành nhiều cấp độ.

Bất kỳ kỹ sư Machine Learning tự trọng nào cũng biết rằng 80% nỗ lực là để cải thiện các mô hình ML từ độ chính xác 85% lên 95%. Cạo từng 1% sau đó là một nhiệm vụ cực kỳ khó khăn.

Tôi rất tự hào về Mikey vì đã là thành viên của nhóm sáng lập tại Kena. Anh ấy là một con ngựa quyền lực. Nếu có một điều mà tôi đã thành công trong toàn bộ sự nghiệp lãnh đạo của mình, thì đó là để mắt đến những tài năng đặc biệt, trao quyền cho họ để đạt được những kết quả không thể vượt qua và chỉ sẵn sàng ngồi xuống khi cần thiết.

Cùng với Công cụ thần kinh âm nhạc + các đường ống ML hạ nguồn gọi chung là nguồn sức mạnh của Kena. Trong ngành, không có gì khác đạt được độ chính xác, độ đặc hiệu hoặc khả năng phản hồi mà nền tảng AI của Kena mang lại.

Nó là siêu dễ dàng để kiểm tra yêu cầu này. Chơi với AI của chúng tôi trên nền tảng của chúng tôi tạihttps://opus.kena.ai