AI アップデート: Auto-GPT ロケット、LLaMA の安い子供たちなど

May 09 2023

この AI の波は頂点にはほど遠い

こんにちは。AI Updates へようこそ。ここでは、テクノロジーの最もホットな分野における最新の開発を取り上げます。前回の記事から 1 か月以上が経過しましたが、多くのことが起こりました。

ラマは止まらない！ドリームスタジオで制作。

こんにちは。AI Updates へようこそ。ここでは、テクノロジーの最もホットな分野における最新の開発を取り上げます。前回の記事から 1 か月以上が経過しましたが、多くのことが起こりました。毎日読んでいますが、今でも飽きません！飛び込んで、ラマを抱きしめて、今日の AI コミュニティが私たちのために用意しているものを学びましょう。

いつものように、この記事では私の雇用主である Microsoft について言及します。この記事は自由時間に書いたものであり、すべての意見は私自身のものです。

AI は初めてですか？私はあなたをカバーしました！ここから始める：

人工知能について学びましょう

AI エージェントとAuto-GPT

ChatGPT は、インターネットにアクセスすることなく、メッセージを読み、応答を書き込みます。新しい Bing も同じことを行いますが、最初にオンラインで回答を検索します。しかし、AI にもっと多くのことを依頼したらどうなるでしょうか。複雑なこと、つまり 1 回のプロンプトでは実行できないことが必要な場合はどうすればよいでしょうか?

AI エージェントの登場: ChatGPT などのモデルに、インターネット検索、ドキュメントストレージ、WolframAlphaなどの計算エンジンなどのツールへのアクセスを提供する AI 製品。プロンプトが表示されたら、エージェントは目標を設定し、その目標を達成するための一連のタスクを計画します。エージェントは進行中に「独り言」を言いながら、複雑なプロセスを推理し、ツールを使用して前進します。この種の人工機関は何世紀にもわたって想像されてきましたが、ChatGPT まで実現できませんでした。

たとえば、「IBM の創業者の年齢の平方根を見つける」ように促されたエージェントは、最初に検索を使用して IBM の創業者を特定し、もう一度検索して彼の生年月日を見つけ、日付ツールを使用して現在の日付を知ることができます。、数学ツールを使用して最終的な回答を取得し、その情報を ChatGPT のような応答に合成します。これらすべてを 1 つのプロンプトから実行できます。

3 月 30 日、Toran Bruce Richards は、GPT-4 を利用した AI エージェントであるAuto-GPTを公開しました。リチャーズにデータを送信しなくても、誰でも使用できます。つまり、GPT-4 との間で送受信される 1,000 ワードごとに数ペニーをOpenAI に支払う意思がある場合に限ります。このプロジェクトは急上昇し、GitHub で 30 番目に星の多いレポになりました。

現在、 BabyAGI、ブラウザベースのAgentGPT、Khan Academy のKhanmigo (エージェンシーとAI グラウンディングの境界線をあいまいにする)など、他の多くの AI エージェントが存在します。AI エージェンシーを (慎重に?) 使用するより多くの製品が間もなく発表されることを期待してください。

Auto-GPT のスター履歴と、5 月 6 日時点で 1 番目、10 番目、20 番目にスターの多い GitHub リポジトリとの比較。

AI + 友情 = HuggingGPT、別名 Microsoft JARVIS

AI エージェントの能力と多様なアプリケーションに関する研究レベルのケーススタディについては、Microsoft Research Asia と浙江大学が 3 月 30 日に発行した HuggingGPT の論文を参照してください。人気のある Hugging Face レジストリからの特殊な機械学習モデル。

Hugging Face は、画像ラベラー、ビデオジェネレーター、テキスト分類器、音声理解器などを含む、機械学習モデルを共有するための主要なプラットフォームです。ChatGPT とは異なり、多くのモデルは高度に専門化されており、(プレーンな英語ではなく) 適切に構造化されたデータでのみ機能するため、実行コストが低く、より良い結果が得られます。HuggingGPT ( JARVIS/Jarvisとも呼ばれます)は Hugging Face 上の任意のモデルにアクセスできるため、画像、音声、テキスト、ビデオ、およびその他のファイル形式をシームレスに操作できます。

下の論文の図では、Jarvis がテキストプロンプトだけから吹き替えビデオを生成した方法について説明しています。

ビピティ・ボピティ・ブー、ジャービスが偽のビデオを用意してくれました！HuggingGPT 論文の図 4 からの適応。コピーと貼り付けと使いやすさのすべてのニーズについては、画像のトランスクリプトも参照してください。‍

ハッスルGPT

これまでのところ、AI にインターネットへのアクセスと Hugging Face の友達を提供してきました。しかし、これに最も強力なリソースを与えるとどうなるでしょうか?

3 月 15 日、デザイナーの Jackson Greenhouse Fall はGPT-4 にわずか 100 ドルを与え、独自のビジネスを構築するよう依頼しました。彼は、GPT の上司に指示されたとおりにお金を使ったと主張し、その過程で口コミで広まりました。Green Gadget Guruと呼ばれるニッチなエコ生活ブログであるこのビジネスは開花していません。Fallは、インターネットで名声を得てから数日後に開始した 3,000 人のメンバーを持つ Discord コミュニティMakeshift を優先しているためです。Twitter と Discord の両方で HustleGPT という名前を使用しているスピンオフグループは、最近、6,000 人の Discord メンバーを超えました。（彼らは秋も禁止しました。）Yogi Berraが言ったように、「特に将来について予測するのは難しい」とされていますが、ビジネスを開始するためのハードルは、最新の AI ツールによって確実に大幅に低下しています。

LLaMAのたくさんの子供たち

前回の AI Updates では、研究者向けにリリースされた言語モデルであるMeta のLLaMAの発表(および3 月 3 日にリーク) について取り上げました。それ以来、人々はLLaMAに基づいてより専門的なモデルを構築し、ユーザーの好みの研究でChatGPTに近いパフォーマンスに達しました. LLaMA の子供には、インターネットなしで実行される無料でダウンロード可能な ChatGPT クローンであるGPT4Allと、安全上の懸念から 3 月 13 日の発表から 4 日後にデモが停止された、指示に従うモデルであるスタンフォード大学の Alpacaが含まれます。各モデルは 1,500 ドル未満で作成され、おそらく 1 人月の作業で作成されました (GPT4All は 5 人の作成者によって作成され、「約 4 日間作業しました。」）。ここでの当然の欠点は応答の質が低いことですが、食料品店に行くのにフェラーリは必要ありませんよね? (私のトリプルスキップレベルのマネージャーである Patrice Pelland に、その類推を共有してくれてありがとう。)

現在、ChatLLaMA (独自の LLaMA ベースのモデルのトレーニング用)、インタラクティブなVicuna ($300 でトレーニング済み)、Berkeley's Koala ($100 未満でトレーニング済み!)など、数え切れないほどの LLaMA ベースのプロジェクトが世に出回っています。モデルをトレーニングするためのコストが下がり続けているため、小さな LLaMA があなたの近くの Web サイトにどんどんやってくることを期待してください!

AI擬人化の懸念

これらすべてのプログラムが動物であるふりをするのは、すべて楽しいゲームですよね? 一部の研究者は同意せず、AI の擬人化 (つまり、人間の資質を AI に帰すること) は、一部の専門家の間で重大な懸念事項となっています。

以下は、Ben Shneiderman によって開始され、 Chenhao Tanによって公開された、よく引用されている会話のコレクションです。これは、説得力を持って自分自身を「私」と呼ぶ AI 製品に対する反応、人間以外の物体に執着する傾向、およびそのようなテクノロジーがユビキタスになることの潜在的な影響についての興味深い学術的議論です。これらの新しいツールの危険性について率直な議論を見るのは新鮮です。

AI擬人化について

そして、それはこの版のラップです！AI コミュニティは今月、多数の新しいモデル、ツール、および製品を試すことで中心的な役割を果たしました。ビッグテックの研究者は、既存のモデルの可能性を探り続けており、この分野に参入するための障壁は低くなりました。懸念は今も昔もこれからも変わりませんが、専門家の会話に耳を傾け、考えを共有することで、自分自身を教育することができます。