新たな人類学的研究がAIの「ブラックボックス」に光を当てる

人間が作成したにもかかわらず、大規模な言語モデルは依然として非常に謎に包まれています。現在の人工知能ブームの原動力となっている高性能アルゴリズムは、それを観察する人々には表面的には説明できないことを実行する方法を持っています。これが、AI が「ブラック ボックス」、つまり外部から簡単に理解できない現象と呼ばれている理由です。
関連性のあるコンテンツ
AI 業界のトップ企業のひとつである Anthropic が最近発表した研究は、AI のアルゴリズム動作のより不可解な側面を明らかにしようとしている。火曜日、Anthropic は、同社の AI チャットボットである Claude が特定の主題に関するコンテンツを生成することを他の主題よりも優先する理由を説明するために設計された研究論文を発表した。
関連性のあるコンテンツ
- オフ
- 英語
AI システムは、人間の脳を大まかに近似して構築されています 。つまり、情報を取り込んで処理し、その情報に基づいて「決定」または予測を行う階層化されたニューラル ネットワークです。このようなシステムは、大規模なデータのサブセットで「トレーニング」され、アルゴリズムによる接続が可能になります。ただし、AI システムがトレーニングに基づいてデータを出力した場合、人間の観察者は、アルゴリズムがその出力にどのように到達したかを常に把握できるわけではありません。
この謎から、AI「解釈」という分野が生まれました。研究者たちは、機械の意思決定の経路をたどって、その出力を理解しようとしています。AI解釈の分野では、「特徴」とは、ニューラル ネット内で活性化された「ニューロン」のパターンを指し、実質的にはアルゴリズムが参照する概念です。研究者が理解できるニューラル ネット内の「特徴」が多ければ多いほど、特定の入力がネットをトリガーして特定の出力に影響を与える仕組みを理解できるようになります。
アントロピックの研究者たちは、その研究結果に関するメモの中で、クロードのニューラルネットワークのどの部分が特定の概念にマッピングされているかを解読するために「辞書学習」と呼ばれるプロセスをどのように使用したかを説明しています。この方法を使用することで、研究者たちは「特定の入力にどの機能が反応するかを見ることでモデルの動作を理解し始めることができ、特定の反応に至ったモデルの「推論」についての洞察を得ることができた」と述べています。
Wired のスティーブン・レヴィが行ったアントロピックの研究チームへのインタビューで、スタッフはクロードの「脳」の働きを解読するのがどのようなものだったかを説明した。1 つの特徴を解読する方法がわかったら、それが他の特徴にもつながっていった。
彼らの目に留まった特徴の 1 つは、ゴールデン ゲート ブリッジに関連するものでした。彼らは、同時に発火したニューロンのセットをマッピングし、クロードがサンフランシスコとマリン郡を結ぶ巨大な構造物について「考えていた」ことを示しました。さらに、同様のニューロンのセットが発火したとき、ゴールデン ゲート ブリッジに関連する主題、つまりアルカトラズ島、カリフォルニア州知事ギャビン ニューサム、サンフランシスコを舞台にしたヒッチコックの映画「めまい」を想起させました。全体として、チームは数百万の特徴を特定しました。これは、クロードのニューラル ネットワークを解読するための一種のロゼッタ ストーンです。
注目すべきは、Anthropic が他の営利企業と同様に、その研究をこのように執筆し、発表するにあたっては、ビジネス上の動機があるかもしれないということだ。とはいえ、チームの論文は公開されているので、読者は自分で読んで、彼らの研究結果や方法論について独自の結論を出すことができる。