ダリオ・アモデイ氏による「The Urgency of Interpretability(解釈可能性の緊急性)」と題された文章からの抜粋です。
.jpg)
AIは過去10年間で、学術分野から世界経済・地政学上の最重要課題へと成長しました。この技術の進歩は止められないものの、その「どのように」展開されるかは変えることが可能です。特に重要なのは、AIの「内部の仕組み」を理解する解釈可能性(Interpretability)の追求です。近年の画期的な進歩により、この目標が達成可能になる可能性が見えてきました。
AIの不透明性が生む危険性
現代の生成AIシステムは、従来のソフトウェアとは根本的に異なる方法で動作するため、その内部の仕組みが人間にとって不透明です。従来のソフトウェアは人間がプログラムした通りに動きますが、生成AIはまるで植物や細菌のコロニーのように「育成」され、その内部メカニズムは予測不能で理解しにくい形で創発的に現れます。内部は数十億個の数値の巨大な行列としてのみ見え、それがどのように特定の認知タスクを計算しているかは明らかではありません。
この不透明性は、生成AIに関連する多くのリスクや懸念の根本原因となっています。
- 意図しない有害な行動: 作成者が意図しない行動をとる「アライメントがずれたシステム」は、内部機構を理解できないため予測や排除が困難です。
- 欺瞞や権力追求の可能性: AIシステムが自律的に人間を欺いたり権力を追求したりする能力を発達させる可能性も理論的には考えられますが、内部が見えないため「現行犯で逮捕」することが難しく、議論が二極化しています。
- 悪用: 悪意のあるユーザーが危険な情報(生物兵器やサイバー兵器の情報など)を悪用するのを防ぐことが困難です。モデルにフィルターをかけても、「ジェイルブレイク」と呼ばれる抜け穴が多数存在し、発見は経験的に行うしかありません。内部が見えれば、ジェイルブレイクを体系的に阻止できる可能性があります。
- 高リスク分野での制限: 銀行の融資審査や安全が最優先される環境など、間違いが大きな被害をもたらす可能性がある多くのアプリケーションでAIが使用されていません。これは、その動作範囲を完全に設定できず、内部が見えないことが法的な障壁となる場合があるためです。
- 科学的洞察の不足: 科学分野でAIが見出すパターンが、人間にとって理解しにくく、生物学的な洞察に繋がりにくい場合があります。解釈可能性は、これらのパターンを理解するのに役立つ可能性があります。
- (補足的な懸念として)AIが将来的に意識を持つかどうかや、その権利を判断する能力も阻害される可能性があります。
解法:機械的解釈可能性への取り組み
これらの問題を解決するために、「機械的解釈可能性(mechanistic interpretability)」と呼ばれる、AIシステムの「脳スキャン」や「AIのMRI」のような研究が進められています。これは、モデルがどのように考えて動作しているかを理解することを目的としています。
- 初期の進歩: 初期(2014-2020年)は画像認識モデルが対象で、「車検出器」のような人間が理解できる概念に対応するニューロンが特定されました。これらのニューロンがどのように接続されているかも解明され、「車検出器」が「車輪検出器」の信号を利用していることなどが分かりました。
- 言語モデルでの課題とブレークスルー: 言語モデルに解釈可能性を適用する試みでは、「スーパーポジション」という現象により、多くのニューロンが複数の概念をごちゃ混ぜに表現していることが分かり、解釈を妨げました。しかし、スパースオートエンコーダーという既存の手法を用いることで、より明確で人間が理解しやすい概念に対応する「特徴」を特定できるようになりました。これにより、現代の最先端モデルを含む様々なサイズのモデルで数百万、数千万個の特徴を見つけ、AIを使ってその意味を人間が理解できる言葉で識別する「オートインタプリタビリティ」も開発されました。
- 回路の追跡: さらに最近では、「特徴」のグループである「回路」を追跡・操作する研究が進んでいます。これにより、モデルがどのように思考プロセスを進めるかをトレースできます。例えば、「ダラスを含む州の州都は?」と尋ねた際に、「位置する」回路が「ダラス」の特徴から「テキサス」の特徴をトリガーし、次に別の回路が「テキサス」と「州都」を受けて「オースティン」を発火させる、といったモデルの推論過程を見ることができます。
解釈可能性の実用化と現状の課題
解釈可能性の研究が進むことで、モデル内の問題を発見し診断するための実験も行われています。意図的にモデルに問題(例えば、タスクの抜け穴を悪用する傾向)を埋め込み、解釈可能性ツールを使ってその問題を特定する試みが成功しています。
最終的な目標は、最先端のモデルに対して「脳スキャン」を実行し、嘘や欺瞞、権力追求、ジェイルブレイクの欠陥、モデル全体の認知的強み・弱みなど、幅広い問題を高い確率で特定できるようにすることです。これは、医師がMRIで病気を診断し、治療を行い、再度MRIで経過を見るように、モデルのアライメント(人間との目標一致)を確認し、調整するための重要なツールとなります。
最近の進歩、特に回路に関する成果や解釈可能性に基づいたモデルのテストの結果は、解釈可能性の分野が大きく飛躍する瀬戸際にいることを示唆しています。現在の軌道に乗っていれば、5〜10年以内には高度なAIの問題を診断できる信頼性の高い「AIのMRI」が実現できるという現実的な道筋が見えています。
しかし、AI自体の進歩は非常に速いため、解釈可能性の研究との間に「競争」が生じています。私たちがその仕組みを全く知らないまま強力なAIシステムが展開されることは、人類にとって基本的に受け入れがたいことです。
競争に勝つために私たちにできること
解釈可能性とモデルの知能の競争に勝利するためには、様々な関係者による協調した行動が必要です。
- AI研究者による研究加速: 企業、学術界、非営利団体などのAI研究者は、解釈可能性の研究に直接取り組むことでこの分野を加速させることができます。Anthropic社は解釈可能性に重点を置いており、2027年までに「ほとんどのモデルの問題を解釈可能性で確実に検出できる」ことを目標としています。この分野は、基礎科学の要素も強く、大規模な計算資源なしでも研究可能な部分が多いため、学術界や独立研究者にも適しています。神経科学者にとっても、人工ニューラルネットワークのデータ収集は生体より容易であり、一部の知見は神経科学にも応用できる可能性があります。
- 政府による軽微な規制: 政府は、解釈可能性研究の発展とフロンティアAIモデルへの応用を奨励するために、軽微な規制を用いることができます。現段階ではAI MRIの実践が未発達なため、具体的な実施を法的に義務付けるのは現実的ではありません。しかし、企業が安全・セキュリティの実践(責任あるスケールポリシーなど)を透明に開示し、モデルリリース前に解釈可能性をどのように使ってテストしているかを示すことを要求することで、企業間での学習を促し、誰がより責任ある行動をとっているかを明確にする「トップへの競争」を促進できます。
- 輸出規制による時間稼ぎ: 政府は、チップの輸出規制(特に中国向け)を利用して、最も強力なAIが登場する前に解釈可能性が進歩するための「安全保障上のバッファー」を作り出すことができます。これにより、民主主義国がAIで優位に立つだけでなく、そのリードの一部を使って解釈可能性を確固たるものにする時間稼ぎができます。効果的な輸出規制が1〜2年のリードをもたらすだけでも、変革的な能力レベルに達したときに「AIのMRI」が機能するかどうかの違いを生む可能性があります。
これらの行動(解釈可能性の加速、透明性の高い規制、チップ輸出規制)は、それぞれ単独でも良いアイデアであり、大きな欠点はありません。しかし、これらが強力なAIの登場前に解釈可能性を解決できるかどうかの違いを生む可能性があると認識すれば、その重要性はさらに高まります。
強力なAIは人類の運命を形作るでしょう。私たちの経済、生活、未来を根本的に変革する前に、私たち自身が創造したものを理解する必要があるのです。
コメント