OpenAIがGPT-4 Omniの音声機能を発表、その性能は文字通り信じられないほど

OpenAI は月曜日の朝、サンフランシスコで行われたSpring Update で GPT-4 Omni (GPT-4o) を発表しました。最高技術責任者の Mira Murati 氏と OpenAI のスタッフは、人間のように話すフレンドリーな AI チャットボットとリアルタイムで会話できる最新の主力モデルを披露しました。
関連性のあるコンテンツ
「GPT-4o は GPT-4 レベルのインテリジェンスを提供しますが、はるかに高速です」とムラティ氏はステージ上で述べました。「GPT-4o は、この相互作用がはるかに自然で簡単になるコラボレーションの未来に向けてパラダイムをシフトさせていると考えています。」
関連性のあるコンテンツ
- オフ
- 英語
GPT-40 は、長編映画「 her」で AI アシスタントの声を担当したスカーレット・ヨハンソンに不思議なほど似たフレンドリーな声で、口頭の指示に即座に応答します。デモによると、この技術は本質的にその映画を現実のものにしています。GPT-40 のスピーチには感情的なイントネーションがあり、興奮しているときもあれば笑っているときもあります。さらに、ユーザーのスピーチの感情やトーンも識別できます。OpenAI のスタッフは、AI チャットボットとの会話をほとんど遅延なく披露し、チャットボットは中断されてもすぐに方向転換することができました。
GPT-4o のオーディオ機能は素晴らしいですが、Omni は複数のメディアで機能します。ChatGPT はこれまで AI モデルのネットワークを介してテキスト、画像、音声を処理していましたが、GPT-4o は 3 つすべてを処理できる単一のモデルです。これにより、すべてがはるかに高速になります。モデルに口頭で話しかけながら、携帯電話のカメラで数学の問題の画像を GPT-4o に見せることができます。OpenAI によると、新しい主力モデルは GPT-4 レベルのインテリジェンスで動作し、多言語、音声、および視覚機能で画期的な水準を設定しています。
この驚異的なデモの後、OpenAI は GPT-4o を macOS 用のデスクトップ アプリケーションとしてリリースします。有料ユーザーも本日 macOS アプリを入手できますが、GPT-4o は将来的に無料ユーザーにも提供される予定です。デスクトップ アプリケーションを使用すると、コンピューターから直接 ChatGPT との音声会話を開始し、最小限の摩擦で画面を共有できます。ChatGPT の Web サイトも簡素化されて更新されます。
OpenAI スタッフのマーク・チェン氏とバレット・ゾフ氏は、月曜日のステージ上でリアルタイムのマルチモーダル AI モデルがどのように動作するかをデモしました。チェン氏とゾフ氏がモデルに割り込んで回答を転換するよう依頼したため、リアルタイムの会話はほぼうまく機能しました。GPT-4o は就寝時の話をしたり、数学の問題を解いたりしました。GPT-4 Omni は時々、ユーザーの意図を理解するのに苦労しましたが、モデルは失敗をかなりうまく乗り越えました。
音声モデルは、物語を語るとき、笑うとき、そしてある時点では「それはとても優しいですね」と言うときでさえ、さまざまな声を出すことができました。OpenAI チームが、GPT-4o が以前の音声モデルよりも感情的で会話的であることを保証したことは明らかです。デモでは、ChatGPT はこれまで以上に人間らしく聞こえました。
OpenAI のスタッフ メンバーは、同社が LMSYS Org チャットボット アリーナで「im-also-a-good-gpt2-chatbot」として GPT-4o をテストしていることをツイートで確認しました。多くの人が疑っていたように、また Sam Altman がほのめかしていたように、これらは開発中の OpenAI モデルでした。スタッフによると、最新のチャットボットは、業界をリードする GPT-4 Turbo や Claude 3 Opus などの競合製品をいくつかの基準で大幅に上回ったとのことです。
GPT-4o のリリースは、AI チャットボットの将来にとって画期的な瞬間のように感じられる。この技術は、初期のチャットボットを悩ませていた厄介な遅延の多くを克服している。GPT-4o で非常に便利な Siri のバージョンを想像するのは簡単だ。これらのリアルタイム機能は、おそらく Nvidia の最新の推論チップのおかげであり、Murati はプレゼンテーションの最後に必ずそのことを指摘した。いずれにせよ、OpenAI は月曜日のデモで AI イノベーションのリーダーとしての優位な立場を再確認した。今、私たちは、プレゼンテーションでこのものが何ができるかを正確に描写できたのか、それとも明らかな欠陥を避けるために慎重に演出されたのかを見守るしかない。