「マルチモーダル AI」が今テクノロジー界で最もホットな理由

May 16 2024

AI があなたの周りの世界を見て、聞いて、最終的にはそれを理解できるようにするための新たなテクノロジー競争が始まっています。

OpenAI と Google は今週、最新かつ最高の AI テクノロジーを披露しました。過去 2 年間、テクノロジー企業は AI モデルをよりスマートにするために競い合ってきましたが、現在、新たな焦点が浮上しています。それは、AI をマルチモーダルにすることです。OpenAI と Google は、ロボットの口、目、耳をシームレスに切り替えることができる AI に焦点を絞っています。

関連性のあるコンテンツ

Google の新しい Gemini AI についてわかった 10 の重要な事実

Google アシスタントが AI で強化されました。これは Google 史上最大のアップデートになるかもしれません。

なぜ誰もが AI 企業を訴えるのか? | Future Tech

字幕

オフ
英語

この動画を共有します

Facebook Twitterメール

Redditリンク

なぜ誰もが AI 企業を訴えるのか? | Future Tech

月曜日、OpenAIは、失われた人間関係を描いたディストピア映画「Her」を奇妙に彷彿とさせるGPT-4 Omni を披露した。Omniは「オムニチャネル」の略で、OpenAIは、このモデルが音声とともにビデオを処理できる能力を売りにしていた。デモでは、OpenAIのスタッフがチャットボットに口頭で説明を依頼し、ChatGPTが携帯電話のカメラを通して数学の問題を見ている様子が示された。OpenAIによると、現在、プレミアムユーザー向けに展開中だという。

その翌日、GoogleはProject Astraを発表した 。これはほぼ同じことを実現すると約束していた。GizmodoのFlorence IonはマルチモーダルAIを使用して、彼女が見ている造花が何であるかを識別し、チューリップであると正しく識別した。しかし、Project AstraはGPT-4oよりも少し遅いようで、音声ははるかにロボット的だった。HerよりもSiriに近いが、それが良いことかどうかはあなたに判断してもらいたい。ただし、Googleはこれは初期段階であると述べており、OpenAIが克服した現在の課題のいくつかにも言及している。

「マルチモーダル情報を理解できるAIシステムの開発は驚異的な進歩を遂げてきたが、応答時間を会話程度にまで短縮するのは難しい技術的課題だ」とグーグルはブログ投稿で述べた。

2023年12月にGoogleが公開したGeminiのデモ動画が、かなり操作されていたことを覚えている方もいるだろう。6か月経っても、Googleはまだその動画で示した内容をリリースする準備ができていないが、OpenAIはGPT-4oで急ピッチで前進している。マルチモーダルAIはAI開発の次の大きな競争であり、OpenAIが勝利しそうだ。

GPT-4o の重要な差別化要因は、単一の AI モデルで音声、ビデオ、テキストをネイティブに処理できることです。これまで OpenAI は、言語ベースの基盤となる GPT-4 がこれらの異なるメディアを理解できるように、音声とビデオをテキストに変換するために個別の AI モデルを必要としていました。応答時間が遅いことを考えると、Google はこれらのタスクを実行するために依然として複数の AI モデルを使用している可能性があります。

また、テクノロジー企業がマルチモーダル AI を採用するにつれて、 AI ウェアラブルの採用も広がっています。Humane AI Pin、Rabbit R1、Meta Ray-Bans はすべて、さまざまな媒体を活用する AI 対応デバイスの例です。これらのデバイスは、スマートフォンへの依存度を下げると期待されていますが、Siri や Google Assistant もすぐにマルチモーダル AI で強化される可能性があります。

マルチモーダル AI は、今後数か月から数年の間に、ますます耳にするようになるものでしょう。その開発と製品への統合により、AI は大幅に便利になります。このテクノロジーにより、最終的には、世界を LLM に書き写す負担が軽減され、AI が自ら世界を「見て」「聞いて」できるようになります。