AudioGPT: テキストと音楽の橋渡し

May 09 2023

新しい AI モデルは、ChatGPT をオーディオおよび音楽モデルと接続します

2022 年、OpenAI DALL-E はアート界を破壊しました。StableDiffusion は事実上、とどめの一撃をもたらしました。

UnsplashのMarcela Laskoskiによる画像

2022 年、OpenAI DALL-E はアート界を破壊しました。StableDiffusion は事実上、とどめの一撃をもたらしました。当初から、大手人工知能企業の欲求は次のフロンティアである音楽に集中していました。

2023 年 1 月、MusicLM が Google Research によってリリースされ、テキストプロンプトを使用して音楽を入手できるようになりました。数日前、chatGPT より多くの音楽を提供するモデルがリリースされました。

新しい交響楽団AudioGPT

Unsplashの太田和夫による画像

最近、イギリスとアメリカの大学の研究者が AudioGPT と呼ばれる新しい研究を発表しました。

著者が認めているように、ChatGPT と NLP のモデルの最近の進歩は、社会に幅広い影響を与えています。ただし、それらはテキストに限定されており、他のモダリティ (画像、ビデオ、テキスト) では成功していません。現在、部分的に画像について、試みが見られました (そして、GPT-4 は、テキストと画像のマルチモーダルでもあるはずです)。

現実世界のシナリオでは、人間は音声を使用して通信し、音声アシスタントも使用します。さらに、脳と知能の大部分は、音声からの情報の処理に専念しています。実際、私たちの社会の大部分でさえ、ただコミュニケーションするだけでなく、音楽を聴いたり、内なる独白を持っています. したがって、テキストと音楽を理解できるモデルは、まったく自明ではありません。

現在、音楽の処理はいくつかの理由から簡単ではありません:

実際、人間がラベル付けした音声データを取得することは、Web テキストをスクレイピングするよりもはるかにコストがかかります (また、時間もかかります)。また、材料がはるかに少ないため、データも少なくなります。
計算上、はるかに高価です。

アイデアは、LLM をインターフェイスとして使用することです。この LLM は、音声専用の基盤モデルと対話し、音声ダイアログへのインターフェイス (入力/出力インターフェイス (ASR、TTS)) と対話します。

画像ソース：こちら

著者が述べているように、プロセスは次の 4 つのステップに分けることができます。

Modality Transformation、テキストと音声を接続するための入出力インターフェース。
ChatGPT がユーザーの意図を理解できるようにするテキスト分析。
モデルの割り当て、ChatGPT は理解と生成のためにオーディオ基盤モデルを割り当てます。
Response Generation、ユーザーに対して応答が生成されます。

詳細に入る前に、AudioGPT は ChatGPT のように機能するチャットボットであると言えます。ただし、これとは異なり、音声やオーディオなどの入力を処理し、これらの入力の操作を実行することもできます。

画像ソース：こちら

次に、モデルはテキスト入力と音声入力の両方を受け取ります。テキスト入力の場合は直接処理し、音声でない場合はテキストに転写します。

それが完了すると、ChatGPT はユーザーのクエリを分析します (モデルは、ユーザーが要求しているものと、ユーザーに実行してもらいたいタスクを理解する必要があります)。たとえば、ユーザーは「このオーディオを書き写して」または「雨の下でオートバイの音を出して」と言うかもしれません。HugginGPT で見たように、ChatGPT がリクエストを理解したら、別のモデルで実行できるタスクにマッピングする必要があります。

要求がタスクに変換されると、さまざまな使用可能なモデルから選択されます (17 の使用可能なモデルは上記の表に記載されています)。明らかに、各モデルには独自の仕様があり、さまざまなタスクを実行できます。AudioGPT は基本的に、タスクに最適なモデルを決定します。また、LLM は、モデルがリクエストを処理できるようにリクエストを送信するタスクを実行します。

選択されたモデルはタスクを実行し (再トレーニングなしで推論に使用されます)、結果を ChatGPT に送信します。ChatGPT は応答を生成し、モデルの結果も追加します。次に、LLM は、モデルの出力を、ユーザーが理解できる形式 (テキスト形式またはオーディオファイルが添付されたもの) に変換します。

利点は、プロセスがインタラクティブであり、ChatGPT が会話のメモリを持っていることです。つまり、ChatGPT をオーディオファイルに拡張したものと見なすことができます。

実行されたタスクの例。画像ソース：こちら

著者は、さまざまなタスク、データセット、およびメトリックを使用してモデルを評価しました。

画像ソース：こちら

著者は、モデルが遭遇する可能性のある特殊なケースにも注意を払いながら、堅牢性についてもモデルを評価することにしました。

評価の長いチェーン。モデルは、このタスクの長いコンテキストの依存関係を考慮する必要があります (一連のモデル、異なるモデルの管理など)。
サポートされていないタスク。モデルは適切なフィードバックを提供する必要があります。
マルチモーダルモデルのエラー処理。この場合、モデルのエラーや失敗につながる可能性のあるさまざまな入力と形式を持つことができます。
コンテキストの中断、ユーザーによって送信されたクエリは、必ずしも論理的な順序ではなく、ランダムな順序である可能性があります。

ここでは、いくつかの例を見ることができます。たとえば、AudioGPT は画像に基づいてサウンドを生成できます。この例では、作成者はモデルに猫の画像を生成するように依頼します。つまり、画像のキャプションが生成され、これを使用してサウンド生成が駆動されます。明らかに、これは、サウンドライブラリを購入することなく、曲をサウンドで豊かにしたいミュージシャンが使用できます。さらに、テキストからビデオへのテンプレートを使用して画像とビデオを生成し、AudioGPT を使用してサウンドを追加できます。

画像ソース：こちら

一方、AudioGPT は音だけでなく人間の音声も生成します。驚くべきことは、ノート情報とシーケンスの長さを指定できることです。次に、モデルが歌を生成します。つまり、曲を生成することができます。

画像ソース：こちら

また、オーディオを指定すると、ビデオを生成できます。したがって、曲を作成してからミュージックビデオを生成することもできます (すべて 1 つのテンプレートを使用)。

画像ソース：こちら

また、音声で何が起こっているかを分類するためにも使用できます。モデルは履歴の知識を維持するため、一連の操作を想像できます。すべてが AudioGPT とその一連のモデルのみを使用します。

画像ソース：こちら

モデルは、音を生成する機能に限定されません。たとえば、音を抽出してからバックグラウンドノイズを除去したり、別のコンテキストで使用するために音を抽出したりできます。

画像ソース：こちら

音源分離、ノイズ除去も可能

画像ソース：こちら

また、ある言語から別の言語に翻訳することもできます。

画像ソース：こちら

したがって、このモデルができることは信じられないほどです。これはすべて、さまざまなモデルの指揮者として機能するだけです。ユーザーはプロンプトを書くだけでよく、あとはモデルが処理します。

しかし、制限はありませんか？

迅速なエンジニアリング。明らかに、最初の制限は、モデルが基本的に ChatGPT を使用し、ユーザーがプロンプトに書き込むことができなければならず、時間がかかる可能性があることです。
長さ制限。他の同様のモデル (HuggingGPT) と同様に、プロンプトの最大長は、ダイアログをブロックする制限であり、ユーザーが与えることができる指示の最大数です。
機能制限。使用されるテンプレートの制限は、AudioGPT 自体の機能に限定されます。

または、そうしたくない場合は、デモを使用できます(OpenAI API キーも必要です)。あなたはそれを使用するために支払うことを忘れないでください：

画像ソース：こちら

別れの思い

Unsplashのアンドレア・ザネンガによる画像

このモデルは、単純なプロンプトで、オーディオを操作できる複数のモデルに LM を接続する方法を示しています。モデルは、音楽やサウンドを生成したり、それらを変更したりできます。明らかに、他のモデルをバインドしたり、使用するモデルの精度を向上させたりすることで、その機能が向上します。このようにして、AudioGPT は新しい可能なタスクを獲得し、それらの効率を向上させます。

一方、テキストや画像には非常に高性能なモデルがありますが、音声の複雑さを利用できるモデルはごく最近になりました。

明らかに、これは最終モデルではなく、システムの機能のデモンストレーターです。実際、モデルには常にタスクまたはプロンプトが含まれているとは限らないため、出力は有用です。将来的には、同様のモデルがビデオから音楽、画像からテキストまでのタスクを達成し、それらを結び付けることができるようになるでしょう。

また、そのようなシステムはオーディオに限定されません。さまざまなモダリティを結び付けるモデルを考えることができます。このようなシステムは、サウンドを変更するソフトウェア (Ableton など) に統合できます。将来的には、ユーザーは AI を使用してオーディオを生成し、それを適切なソフトウェアを使用してさらに変更するための出発点として使用できます。または、録音した曲にサウンドなどを追加します。また、必ずしもテキストプロンプトを使用する必要はありませんが、音声コマンドも使用します

グラフィックス業界への安定した普及の影響を目の当たりにしてきました。次に人工知能の影響が見られるのは音楽業界です。これにより、新しいシナリオ、著作権の問題などの可能性が開かれます。皆さんはどう思いますか？

これが面白いと思ったら：

あなたは私の他の記事を探すことができます、あなたは私が記事を公開したときに通知を受けるために購読することもできます、あなたはそのすべての記事にアクセスするためにミディアムメンバーになることができます（私があなたに費用をかけずに小さな収入を得ているプラットフォームのアフィリエイトリンク）そしてあなたはまた、 LinkedInで私に接続または連絡することもできます。

これは私の GitHub リポジトリへのリンクです。機械学習や人工知能などに関連するコードや多くのリソースを収集する予定です。