LLM の無限バベル ライブラリ
「『AI のゴッドファーザー』が Google を去り、今後の危険を警告する」は、ニューヨーク タイムズのタイトルです。LM がオープンソースでない場合、LM が人類にとって脅威であるかどうかをどのように知ることができますか? 実際に何が起こっているのですか?言語モデルの世界が変化の瀬戸際にある様子。
オープンソース十字軍の呼びかけ
少し前にGPT-4が一般に公開されましたが、私たち全員がテクニカル レポートを読みに行ってがっかりしたと思います。
最近、Nature もこの問題に取り組みました。大規模な言語モデル(LLM) をオープンソースにする必要があります。
LLM の多くは独自のものであり、リリースされておらず、どのデータでトレーニングされたかはわかりません。これにより、特にバイアスに関して、制限について検査およびテストすることはできません。
また、Samsungが発見したように、 ChatGPTで情報やコードを共有すると漏洩の危険性があります。一部の州では、これらの企業によるデータ ストレージがGDPR に違反していると考えていることは言うまでもありません。
これが、LLM をオープンソースにする必要がある理由であり、 BLOOMコンソーシアム (学術コンソーシアムによって開発された 170 B パラメータ LLM) などの新しい LLM の開発により多くの投資を行う必要があります。
ここ数か月、これらの LLM の実際の機能と人工知能のリスクの両方について、しばしばセンセーショナルな話題がありました。研究者がモデルをテストできなければ、モデルの能力を実際に評価することはできず、リスクを分析する場合も同様です。さらに、オープンソース モデルはより透過的であり、コミュニティは問題のある動作の原因を特定しようとすることもできます。
さらに、それは学界による要求ではなく、機関は AI によって警戒されています。欧州連合は最近、LLM の未来を再構築できる EU AI 法について議論しています。同時に、ホワイトハウスはテクノロジーの CEOに AI のリスクを制限するよう求めています。したがって、オープンソースは言語モデルの将来の要件になる可能性があります。
ChatGPT が優れている理由
私たちは皆、ChatGPT について聞いたことがあるでしょう。しかし、それはどのように訓練されましたか?
ChatGPTについて知っておくべきこと以外はすべてChatGPT が LLM (正確には GPT 3.5) に基づいてトレーニングされたという事実から始めましょう。通常、これらの GPT に似た言語モデルは、シーケンス内の次のトークンの予測を使用してトレーニングされます(トークン w のシーケンスから、モデルは次のトークン w+1 を予測する必要があります)。
モデルは通常、トランスフォーマーです。入力をシーケンスとして受け取るエンコーダーと、出力シーケンスを生成するデコーダーで構成されます。このシステムの核心はマルチヘッド セルフアテンションです。これにより、モデルはシーケンスのさまざまな部分間のコンテキストと依存関係に関する情報を学習できます。
GPT-3はこの原則 (Generative Pre-training Transformer、GPT、ファミリーの他のモデルと同様) でトレーニングされましたが、より多くのパラメーターとより多くのデータ (570 GB のデータと 176 B のパラメーター) のみでトレーニングされました。
GPT3 は非常に優れた機能を備えていますが、テキストの生成に関しては幻覚を起こしたり、役に立たなかったり、解釈できなかったり、バイアスが含まれていることがよくあります。これは、モデルが、人間のようにテキストを生成するモデルに期待されるものと一致していないことを意味します
GPT-3 から ChatGPT を取得するにはどうすればよいですか?
このプロセスは人間のフィードバックからの強化学習(RHLF) と呼ばれ、この記事の著者によって説明されています。
ここでは、非常に一般的かつ簡潔に説明します。具体的には、次の 3 つのステップで構成されます。
- 教師あり微調整 は、教師ありポリシー (ベースライン モデルまたは SFT モデル) を学習するために LLM を微調整する最初のステップです。
- 人間の好みを模倣します。このステップでは、アノテーターはベースライン モデルからの一連の出力に投票する必要があります。この精選されたデータセットは、新しいモデルである報酬モデルのトレーニングに使用されます。
- Proximal Policy Optimization (PPO)、ここでは報酬モデルを使用して SFT モデルを微調整し、ポリシー モデルを取得します。
著者は、プログラミング コードで既に微調整された GPT-3.5 をモデルとして使用しました。これは、ChatGPT のコード機能についても説明しています。
ただし、このステップは教師あり学習であるため、厳密にはスケーラブルではありません。いずれにせよ、このようにして得られたモデルはまだ調整されていません。
注釈者は、そのような応答がどれほど望ましいか (最悪から最良) に応じて、SFT モデルからの応答の範囲に注目しました。これで、はるかに大きなデータセット (10 倍) が得られ、新しいモデルに SFT モデルの応答が提供されます。これは優先順にランク付けする必要があります。
この段階で、モデルはデータに関する一般的なポリシーと、その報酬を最大化する方法 (出力を適切にランク付けできる場合) を学習します。
SFT モデルがあり、その重みを使用して新しい PPO モデルを初期化します。このモデルは、Proximal Policy Optimization (PPO) を使用して微調整されています。
つまり、強化学習アルゴリズムを使用します。PPO モデルはランダムなプロンプトを受け取り、プロンプトに応答した後、ペナルティまたは報酬を受け取ります。従来のQ-learningの代わりに、ここではモデル ポリシーが応答ごとに更新されます (モデルはポリシーで経験から直接学習します)。
さらに、著者は、トークンごとのカルバック ライブラー (KL)ペナルティを使用して、モデルの応答分布を SFT モデルの応答分布と同様にします。これは、RL を使用してモデルを最適化したい (報酬モデルによる) ためですが、ステップ 1 で学習したこと (人間によってキュレーションされたプロンプト) を忘れたくないためです。
最後に、モデルは、有用性、真実性、無害性の 3 つの側面で評価されます。結局のところ、これらはまさに私たちが最適化したかった側面でした。
興味深いことに、従来のベンチマーク (質問応答、要約、分類) で評価した場合、モデルのパフォーマンスは GPT-3 よりも低くなります。これはアライメントのコストです。
革命的な動物、アルパカ
前述のように、これらのモデルの動作を調査する必要があり、これはオープン ソースである場合にのみ可能です。一方、任意の LM は RHLF を使用して整列できます。
RHLF は、モデルをゼロからトレーニングするよりもはるかに安価であり、計算負荷も低くなります。一方、アノテーターが必要です (実際には、命令を含むデータセットが必要です)。しかし、これらの手順を自動化することはできませんか?
最初のステップはSelf-instructでした。この 2022 年の記事では、著者は半自動化された方法を提案しています。実際、一般的な考え方は、手動で書かれた一連の指示から始めることです。この一連の指示は、シードとしても機能し、ほとんどのNLPタスクが確実にカバーされるようにします。
その後、わずか 175 命令で開始すると、モデルはデータセット (50k 命令) を生成するようになりました。その後、データセットは命令のチューニングに使用されました。
メソッドを持つには、モデルだけが必要でした。ChatGPT は OpenAI GPT-3.5 をベースにしていますが、より小さなモデルを使用することはできませんか? 必ず 100 以上の B パラメータが必要ですか?
代わりに、スタンフォード大学の研究者は LLaMA を使用し、具体的には自己命令法 (OpenAI の text-davinci-003 を使用して生成された命令) に従って生成された 7B バージョンと 52 K の命令を使用しました。Alpaca の真の価値は、作成者がパイプラインを簡素化し、コストを大幅に削減したことです。これにより、あらゆる学術研究室がプロセスを複製できるようになりました (これはこのリポジトリにあります)。実際に述べたように:
最初の実行では、80 GB の A100 で 7B LLaMA モデルを微調整するのに 3 時間かかりました。これは、ほとんどのクラウド コンピューティング プロバイダーで 100 ドル未満です。(ソース)
初期のモデル評価では、Alpaca は GPT-3.5 でほぼ優れていることが示されました (場合によってはそれを超えることさえあります)。これが 20 分の 1 のモデルであることを考えると、これは驚くべきことのように思えるかもしれません。一方、モデルは一連の入力で GPT のように動作しました (したがって、トレーニングは一種の知識の蒸留として機能します)。一方、このモデルには、典型的な言語モデルと同じ制限があり、幻覚、毒性、およびステレオタイプを示しています。
その後、Alpaca は、どの学術研究所も独自のバージョンの ChatGPT をトレーニングできることを示しています ( LLaMA を使用して、研究にのみ利用可能です)。一方、別のモデルを使用している企業は、独自のバージョンの ChatGPT を調整して作成できます。さらに、同様のモデルを携帯電話やRaspberry Pi コンピューターに展開することもできます。
作成者はデモをリリースしましたが、(セキュリティの問題として) しばらくしてシャットダウンされました。また、LLaMA の使用 (およびモデルの重みへのアクセス) を申請する必要がありましたが、数日後にモデルがオンラインで流出しました。
LLM は革命の境界にあるのでしょうか?
ChatGPT がリリースされてから数年が経過したように見えますが、わずか数か月でした。それまではべき乗則について話していました。つまり、モデルがより多くのパラメーター、データ、およびトレーニングを必要とし、創発的な行動の起源を可能にする方法について説明していました。
これらのアイデアは、言語モデルに対して一種のムーアの法則を定義できるというアイデアにつながりました。ある意味では、近年、ほぼ指数関数的な法則が見られます (GPT-2 の 1.5 B パラメーターから GPT-3 の 175 B に変化しました)。
変化したこと?
この教義への最初の打撃は、チンチラの出現と呼ぶことができます。DeepMind のモデルは、データの量だけでなく、データの質の問題であることを示しました。第 2 に、META の LLaMA は、精選されたデータ セットを使用する小さなモデルでも、巨大なモデルよりも優れていないとしても、同様の結果を達成できることを示しました。
これはモデルだけの問題ではありません。データは別の問題です。人間は十分なデータを生成しません。おそらく、ベキ乗法で要求されるときに GPT-5 をサポートするのに十分なデータではありません。第二に、以前ほどデータにアクセスできなくなります。
実際、Reddit (人気のあるデータ リソース) は、AI 開発者がそのコンテンツにアクセスするために料金を支払う必要があると発表しました。ウィキペディアでさえ同じことを考えていましたが、今ではStackOverflow も同じように動いています。企業に支払いが必要になるでしょう。
「LLM を促進するコミュニティ プラットフォームは、その貢献に対して絶対に報われるべきです。そうすれば、私たちのような企業がコミュニティに再投資してコミュニティを繁栄させ続けることができます」と Stack Overflow の Chandrasekar 氏は言います。「私たちは Reddit のアプローチを非常に支持しています。」(ソース)
また、データを取得できたとしても、企業にとって同じように安全であるとは限りません。ゲッティはAIアートジェネレーターを訴えましたが、アーティスト自身も訴訟を起こしています。言うまでもなく、プログラマーは、リポジトリ内のコードでトレーニングされたGitHub Copilot で同じことを行いました。さらに、音楽業界 (訴訟で悪名高い) は、AI によって生成された音楽に反対し、ストリーミング サービスに反対するよう促しています。AI企業でさえフェアユースに訴えるのであれば、将来同じようにデータにアクセスできるとは限りません。
ヘテロ モダリティによるモデルの拡張とは別に、考慮すべきもう 1 つの要素があります。トランスフォーマー アーキテクチャは 2017 年以降変更されていません。最近まで、Sam Altman は、アーキテクチャのスケーラビリティが AGI の鍵であると確信していました。しかし、最近のMIT イベントで彼が言ったように、AGI の鍵はレイヤーやパラメーターの増加ではありません。
変圧器には明確な制限があり、これは LM に反映されています: 幻覚、毒性、およびバイアス。現代のLLMは批判的思考ができません。一連の思考や迅速なエンジニアリングなどの手法は、問題を軽減しようとするパッチとして機能します。
さらに、マルチヘッド自己注意は、RNN から派生した問題を解決できることが示されており、文脈内学習には二次コストがあるため、行動を出現させることができます。最近、表現力を失うことなく、自己注意を非二次的な注意の変種に置き換えることはできないことがわかっています。ただし、 Spike-GPTやHyenaなどの研究では、自己注意に基づかない安価な代替手段が存在し、言語モデルの構築において同等の結果が得られることが示されています。
また、示されているように、RHLF を使用してモデルを調整すると、さまざまなタスクのパフォーマンスに関してコストがかかります。したがって、LM は「エキスパート モデル」に取って代わることはありませんが、将来的には他のモデルのオーケストレーターになる可能性があります (たとえば、HuggingGPTで提案されているように)。
オープンソースを止められない理由と、それが常に勝っている理由
MidJourney と DALL-E のどちらが優れていますか? 言うのは難しいかもしれません。確かなことは、安定した拡散が勝利の技術であることです。オープンソースであるという事実による安定した拡散は、非常に多くのアプリケーションを生み出し、非常に多くの派生研究 (ControlNet、医用画像の合成データ、脳との類似点) のインスピレーションとなっています。
コミュニティの作業を通じて、さまざまなバージョンでの安定した拡散が改善され、無限のバリエーションがあります。一方、DALL-E には、安定した拡散に基づく対応がないアプリケーションはありません (ただし、その逆)。
では、言語モデルで同じことが起こらなかったのはなぜでしょうか?
これまでの主な問題は、言語モデルのトレーニングが法外な作業だったことです。BigScience の BLOOM は、まさに巨大なコンソーシアムです。しかし、LLaMA は、はるかに小さいモデルが 100 以上の B パラメーターのモンスターと競合できることを示しています。Alpaca は、LM アライメントもわずかなコスト (総コスト 1,000 ドル未満) で実行できることを示しました。これらは、サイモン・ウィルソンが「大規模な言語モデルは安定拡散の瞬間を迎えている。」
アルパカから現在に至るまで、オープンソースのモデルがたくさん出てきました。Stability AIは巨人に負けない万人向けのモデルを数多くリリースしてきただけでなく、他社からもチャットボットやモデルがリリースされています。わずか数週間で、Dolly、HuggingChat、Koala などの多くのアプリが表示されました
現在、言及されているモデルの一部はオープンソースですが、非営利目的で使用されています. それらは学術研究に開放されていますが、これは、関心のある企業がそれらを利用できないことを意味します。
これは話のほんの一部です。実際、HuggingFace には既に簡単にトレーニングできるモデル (モデル、データセット、およびパイプライン) があり、現在までにいくつかのモデルが市販されています (現在までに 10 以上) :
オープンソース モデル、プライベート データ、および新しいアプリケーション
Anthropic の CEO であるDario Amodei は、世界のより大きなモデルで OpenAI を打ち負かすために数十億ドルを求めています。しかし、世界の残りの部分は別の方向に進んでいます。たとえば、AI のプレーヤーとして知られていない Bloomberg は、金融向けの LLM をリリースしました(金融ソースからの 3630 億のトークンでトレーニングされています)。
なぜ金融のLLMが必要なのですか? ChatGPT だけを使用しないのはなぜですか?
Google MedPalm は、ジェネラリスト モデルは、特定のトピック (この場合は、医学、科学などの記事のデータセット) で微調整されたモデルと比較して、パフォーマンスが低いことを示しました。
LLM の微調整には明らかにコストがかかります。特に、数千億のパラメータを持つモデルについて話している場合. 小さいモデルははるかに安価ですが、それでも無関心ではありません. オープンソースである META の LLaMA は、この問題を部分的に解決しました。実際、LLaMA-Adapter の作成者は、微調整を行うために追加する必要があるパラメーターは 120 万個だけであることを示しました(トレーニングにかかった時間は 1 時間未満でした)。
LLaMA が市販されていないのは事実ですが、他にも多くのモデルが販売されています (小さいものから大きいものまで)。特定の分野でアプリケーションを成功に導くのは、明らかにデータです。
Samsung が不愉快に発見したように、社内で ChatGPT を使用するのは危険です。ChatGPT でチャット履歴を無効にしたり、データを使用してモデルをトレーニングすることを拒否したりできるようになったとしても、企業はデータを認めることは危険だと考えます。
多くの企業は、独自のチャットボットをトレーニングすることは可能であると考えています。このモデルは、自社の企業データに合わせて微調整され、内部にとどまります。結局のところ、テクノロジーは予算の少ない企業でも利用可能で手頃な価格です。さらに、低コストであるため、新しいデータが到着した場合や、より優れたオープンソース モデルがリリースされた場合に、定期的に微調整することができます。現在データを所有している企業は、データを提供することにはるかに消極的になります。
さらに、質の高いデータを取得することがいかに重要であるかを確認しました。医学やその他の多くの分野のデータは収集が難しく (高価で、規制が厳しく、希少)、データを所有する企業には優位性があります。OpenAI は、たとえば医療データを収集するために何十億ドルも費やすことができますが、コストを超えて、患者の募集には何年もかかり、確立されたネットワークが必要です (それはありません)。現在データを所有している企業は、公開されているデータを保存できるモデルとこれらのデータを共有する際に、より制限的になります。
さらに、HuggingGPT やAudioGPTなどの作品は、LLM がユーザーがエキスパート モデル (テキストから画像、オーディオ モデルなど) と対話するためのインターフェイスであることを示しています。ここ数年、多くの企業がデータ サイエンティストを採用し、ニーズに合わせてさまざまな専門モデルを開発してきました (製薬会社の創薬と設計のモデル、製造会社のコンポーネント設計と予知保全のモデルなど)。したがって、データ サイエンティストは、以前にトレーニングされたモデルに接続するよう LLM に指示し、内部の技術者以外のユーザーがテキスト プロンプトを介して LLM と対話できるようにすることができます。
そのようなシナリオを指し示す別の要素もあります。ジェネレーティブ AI に関する規制は不明確です (たとえば、Google は著作権侵害を恐れてジェネレーティブ音楽モデルをリリースしていません)。著作権の問題に加えて、責任に関する問題も未解決のままです。したがって、多くの企業がこの技術を取り入れ、今後数か月で独自の AI アシスタントを作成する可能性があります。
別れの思い
ヒントン博士は、潜在的に危険な技術にどのように取り組むことができるか、人々が彼に尋ねたとき、彼は原爆を製造するための米国の努力を率いたロバート・オッペンハイマーを言い換えるだろうと言いました。先に行ってそれをしてください。
彼はもうそれを言わない。(ソース)
ヒントンは最近、人工知能のリスクについて議論する必要があると述べました。しかし、ブラックボックスの中にある爆弾が爆発するリスクを研究することはできません。そのため、モデルをオープン ソースにすることがますます急務となっています。
とにかくLLMは変化の段階にあります。ますます大きなモデルを作成することは持続不可能であり、以前と同じ利点は得られません。次の LLM の未来はデータにあり、おそらく自己注意に基づかない新しいアーキテクチャにあるでしょう。
ただし、データは以前ほどアクセスできなくなります。企業はそれへのアクセスを停止し始めています。Microsoft は、企業が独自のバージョンの ChatGPT を作成できるようにする用意があると述べています。しかし、企業は懐疑的だろう。
一部の企業はビジネスを恐れており (ChatGPT はすでに最初の犠牲者を出しているようです)、データ漏洩を恐れている企業もあります。あるいは、このテクノロジーは最終的にほぼすべての企業の手の届くところにあり、それぞれがニーズに合わせたチャットボットを作成します。
結論として、さまざまな傾向が見られます (一部はすでに発生しています)。
- AI に対する高まる恐怖がオープンソース モデルを推進している
- これにより、オープンソースの LLM モデルの公開が増加しています。これは、より小さなモデルを使用して、アライメントのコストを削減できることを示しています。
- LLM モデルはさまざまなビジネスにとって脅威であり、企業はこれらのモデルがビジネスを脅かす可能性があることを恐れています。したがって、さまざまな企業がデータへのアクセスを減らしたり、AI 企業に支払いを求めたりしています。
- コスト削減、競争への恐怖、独自データの新たな関連性、オープンソース モデルの新たな利用可能性により、企業はオープンソース モデルを使用して独自のデータで独自のチャットボットをトレーニングするようになっています。
これが面白いと思ったら:
あなたは私の他の記事を探すことができます、あなたは私が記事を公開したときに通知を受けるために購読することもできます、あなたはそのすべての記事にアクセスするためにミディアムメンバーになることができます(私があなたに費用をかけずに小さな収入を得ているプラットフォームのアフィリエイトリンク)そしてあなたはまた、LinkedInで私に連絡したり連絡したりすることもできます。
これは私の GitHub リポジトリへのリンクです。機械学習や人工知能などに関連するコードや多くのリソースを収集する予定です。
または、私の最近の記事に興味があるかもしれません。