「マルチモーダル AI」が今テクノロジー界で最もホットな理由

OpenAI と Google は今週、最新かつ最高の AI テクノロジー を披露しました。過去 2 年間、テクノロジー企業は AI モデルをよりスマートにするために競い合ってきましたが、現在、新たな焦点が浮上しています。それは、AI をマルチモーダルにすることです。OpenAI と Google は、ロボットの口、目、耳をシームレスに切り替えることができる AI に焦点を絞っています。
関連性のあるコンテンツ
「マルチモーダル」は、テクノロジー企業が日常生活で最も魅力的な形の AI モデルに賭ける中で、最大の流行語となっています。AI チャットボットは、2022 年に ChatGPT が発売されて以来、輝きを失っています。そのため、企業は AI アシスタントと会話したり、視覚的に情報を共有したりすることが、タイピングよりも自然に感じられることを期待しています。マルチモーダル AI がうまく機能しているのを見ると、まるで SF が現実になったかのような気分になります。
関連性のあるコンテンツ
- オフ
- 英語
月曜日、OpenAIは、失われた人間関係を描いたディストピア映画「Her」を奇妙に彷彿とさせるGPT-4 Omni を披露した。Omniは「オムニチャネル」の略で、OpenAIは、このモデルが音声とともにビデオを処理できる能力を売りにしていた。デモでは、OpenAIのスタッフがチャットボットに口頭で説明を依頼し、ChatGPTが携帯電話のカメラを通して数学の問題を見ている様子が示された。OpenAIによると、現在、プレミアムユーザー向けに展開中だという。
その翌日、GoogleはProject Astraを発表した 。これはほぼ同じことを実現すると約束していた。GizmodoのFlorence IonはマルチモーダルAIを使用して、彼女が見ている造花が何であるかを識別し、チューリップであると正しく識別した。しかし、Project AstraはGPT-4oよりも少し遅いようで、音声ははるかにロボット的だった。HerよりもSiriに近いが、それが良いことかどうかはあなたに判断してもらいたい。ただし、Googleはこれは初期段階であると述べており、OpenAIが克服した現在の課題のいくつかにも言及している。
「マルチモーダル情報を理解できるAIシステムの開発は驚異的な進歩を遂げてきたが、応答時間を会話程度にまで短縮するのは難しい技術的課題だ」とグーグルはブログ投稿で述べた。
2023年12月にGoogleが公開したGeminiのデモ動画が 、かなり操作されていたことを覚えている方もいるだろう。6か月経っても、Googleはまだその動画で示した内容をリリースする準備ができていないが、OpenAIはGPT-4oで急ピッチで前進している。マルチモーダルAIはAI開発の次の大きな競争であり、OpenAIが勝利しそうだ。
GPT-4o の重要な差別化要因は、単一の AI モデルで音声、ビデオ、テキストをネイティブに処理できることです。これまで OpenAI は、言語ベースの基盤となる GPT-4 がこれらの異なるメディアを理解できるように、音声とビデオをテキストに変換するために個別の AI モデルを必要としていました。応答時間が遅いことを考えると、Google はこれらのタスクを実行するために依然として複数の AI モデルを使用している可能性があります。
また、テクノロジー企業がマルチモーダル AI を採用するにつれて、 AI ウェアラブル の採用も広がっています。Humane AI Pin、Rabbit R1、Meta Ray-Bans はすべて、さまざまな媒体を活用する AI 対応デバイスの例です。これらのデバイスは、スマートフォンへの依存度を下げると期待されていますが、Siri や Google Assistant もすぐにマルチモーダル AI で強化される可能性があります。
マルチモーダル AI は、今後数か月から数年の間に、ますます耳にするようになるものでしょう。その開発と製品への統合により、AI は大幅に便利になります。このテクノロジーにより、最終的には、世界を LLM に書き写す負担が軽減され、AI が自ら世界を「見て」「聞いて」できるようになります。