新たな人類学的研究がAIの「ブラックボックス」に光を当てる

May 22 2024

大規模言語モデルはなぜそのように動作するのでしょうか? 新しい研究がいくつかの手がかりを与えています。

人間が作成したにもかかわらず、大規模な言語モデルは依然として非常に謎に包まれています。現在の人工知能ブームの原動力となっている高性能アルゴリズムは、それを観察する人々には表面的には説明できないことを実行する方法を持っています。これが、AI が「ブラックボックス」、つまり外部から簡単に理解できない現象と呼ばれている理由です。

関連性のあるコンテンツ

ヒューメイン AI ピンを購入する前に知っておくべきこと

AI宝くじウェブサイトがユーザーのNSFW画像を生成したため削除される

好むと好まざるとにかかわらず、医師は AI を使用します | AI Unlocked

字幕

オフ
英語

この動画を共有します

Facebook Twitterメール

Redditリンク

好むと好まざるとにかかわらず、医師は AI を使用します | AI Unlocked

AI システムは、人間の脳を大まかに近似して構築されています。つまり、情報を取り込んで処理し、その情報に基づいて「決定」または予測を行う階層化されたニューラルネットワークです。このようなシステムは、大規模なデータのサブセットで「トレーニング」され、アルゴリズムによる接続が可能になります。ただし、AI システムがトレーニングに基づいてデータを出力した場合、人間の観察者は、アルゴリズムがその出力にどのように到達したかを常に把握できるわけではありません。

この謎から、AI「解釈」という分野が生まれました。研究者たちは、機械の意思決定の経路をたどって、その出力を理解しようとしています。AI解釈の分野では、「特徴」とは、ニューラルネット内で活性化された「ニューロン」のパターンを指し、実質的にはアルゴリズムが参照する概念です。研究者が理解できるニューラルネット内の「特徴」が多ければ多いほど、特定の入力がネットをトリガーして特定の出力に影響を与える仕組みを理解できるようになります。

アントロピックの研究者たちは、その研究結果に関するメモの中で、クロードのニューラルネットワークのどの部分が特定の概念にマッピングされているかを解読するために「辞書学習」と呼ばれるプロセスをどのように使用したかを説明しています。この方法を使用することで、研究者たちは「特定の入力にどの機能が反応するかを見ることでモデルの動作を理解し始めることができ、特定の反応に至ったモデルの「推論」についての洞察を得ることができた」と述べています。

Wired のスティーブン・レヴィが行ったアントロピックの研究チームへのインタビューで、スタッフはクロードの「脳」の働きを解読するのがどのようなものだったかを説明した。1 つの特徴を解読する方法がわかったら、それが他の特徴にもつながっていった。

彼らの目に留まった特徴の 1 つは、ゴールデンゲートブリッジに関連するものでした。彼らは、同時に発火したニューロンのセットをマッピングし、クロードがサンフランシスコとマリン郡を結ぶ巨大な構造物について「考えていた」ことを示しました。さらに、同様のニューロンのセットが発火したとき、ゴールデンゲートブリッジに関連する主題、つまりアルカトラズ島、カリフォルニア州知事ギャビンニューサム、サンフランシスコを舞台にしたヒッチコックの映画「めまい」を想起させました。全体として、チームは数百万の特徴を特定しました。これは、クロードのニューラルネットワークを解読するための一種のロゼッタストーンです。

注目すべきは、Anthropic が他の営利企業と同様に、その研究をこのように執筆し、発表するにあたっては、ビジネス上の動機があるかもしれないということだ。とはいえ、チームの論文は公開されているので、読者は自分で読んで、彼らの研究結果や方法論について独自の結論を出すことができる。