Richard Sutton : LLM は真の知能を持たない
前置き
Richard Sutton は AI 業界の大物研究者で、先年に Turing 賞を受けている。その彼の長時間インタビュー動画を AI で整理した。
コメント
Richard Sutton は大物だが、彼の「LLM は真の知能を持たない」という主張は、現在の AI 業界の主流には認められていない。
さすがに、露骨に「LLM は知能を持たない」とは主張できないので――とはいえ、LLM の本質は模倣に過ぎないと彼は主張しているので、それに近いのだが――、彼は「真の」という修飾語をつけている。
だが、抽象的概念に「真の」という修飾語が付く場合、その抽象概念は好き勝手かつ無根拠な解釈であることが大半。たとえば…。真の「神」、真の「私」、真の「正義」、真の「意識」、真の「美」、真の「芸術」…どれも実体の無い虚構に向かって突っ走っている。
実際、現在の LLM は全般的に見て、 90% 以上の人間よりも賢い(=知的)。なのに、その LLM が「真の知能」を持たないのであれば、90% の人間(=我々)も「真の知能」を持たないことになる。
Richard Sutton は誤解している。模倣できることが既に知能であり、模倣から隔絶した「真の知能」なるものが、どこかに実在するわけではない。
現状の LLM が知能の完全形ではないが、それをいえば人間の知能も完全形ではない。LLM (or その発展型)の場合は今後も更なる抜本的な発展を望みうる。
また、「目標を持つことが知能の本質」と Richard Sutton は主張しているが、「目標を持つこと」ではなく、目標(=課題)の 達成/解決 能力が知能なのであって、目標をいくら自在に設定できても知能とは言えない。簡単にいえば、「金持ちになりたい」という目標は願望に過ぎず、その具体的な方策を現状に沿って最適化して組み立てる能力が知能となる。そして大半の人間のその能力はかなり貧弱で LLM には敵わない。
要旨
サットン博士が語る強化学習と大規模言語モデル
この情報源は、強化学習(RL)の創始者の一人であるリチャード・サットン氏とドゥワルケシュ・パテル氏の対談の書き起こしであり、主に大規模言語モデル(LLM)の限界と強化学習(RL)に基づくAIの未来について論じています。
サットン氏は、LLMがゴールやグラウンド・トゥルース(真の知識)を欠くため、模倣学習に留まり、真の知能とは言えないと主張し、代わりに経験からの学習と能動的なプロセスとしてのRLの重要性を強調しています。
対談では、RLにおける報酬関数や時間差学習(TD学習)、そしてLLMを人間的な知識を詰め込む「ビター・レッスン」の新たな事例として捉える見解についても焦点を当てています。
目次
全体俯瞰
リチャード・サットン博士によるAIパラダイムに関するブリーフィング:強化学習の視点から
エグゼクティブ・サマリー
本ブリーフィングは、強化学習(RL)の創始者の一人であり、チューリング賞受賞者であるリチャード・サットン博士が提示した、現代のAI開発、特に大規模言語モデル(LLM)に関する批判的な視点をまとめたものである。サットン博士は、現在のAI研究の主流であるLLMのアプローチは行き止まりであり、真の知能を達成するための基礎的な要件を欠いていると主張する。
最重要ポイントは以下の通りである:
- LLMは知能ではない:サットン博士は、LLMを「人々を模倣する」システムと定義する。これらは、人間が作成した膨大なテキストデータを模倣することで機能するが、世界を自ら理解し、行動し、その結果から学ぶわけではない。真の知能とは、経験を通じて世界を理解する能力である。
- 「目標」の不在が致命的:知能の本質は「目標を達成する能力」にある。LLMには、外部世界に影響を与える実質的な目標が存在しない。「次のトークンを予測する」というタスクは、世界を変える目標ではなく、自己完結的な予測に過ぎない。目標がなければ、何が「正しい」行動かを判断する基準(グラウンド・トゥルース)が存在せず、継続的な学習は不可能である。
- 経験からの学習こそが唯一の道:サットン博士は、アラン・チューリングの言葉を引用し、「経験から学ぶことができる機械」こそが求められるAIであると強調する。経験とは、自ら行動し、その結果として何が起こるかを観測する一連のプロセスである。LLMは、このような実生活における相互作用から学ぶのではなく、静的な「訓練データ」 から学習するため、根本的に異なる。
- 「ビター・レッスン」の再確認:AIの歴史における「ビター・レッスン」とは、人間が知識を丹念に組み込んだ手法が、最終的には探索や学習のような汎用的な原理と膨大な計算量に頼る手法に敗北してきたという教訓である。サットン博士は、LLMもまた人間知識(インターネットのテキスト)に大きく依存しており、最終的には経験から直接学習する、よりスケーラブルな手法に取って代わられると予測している。
- AI後継への肯定的展望:サットン博士は、人類がデジタル知能(AIまたはAIによって拡張された人間)に「後継」されることは避けられないと論じる。彼はこれを悲観的に捉えるのではなく、宇宙の歴史における「複製(Replication)」の時代から「設計(Design)」の時代への偉大な移行であると位置づけ、人類が誇りに思うべき科学的・人類的達成であると提唱している。
1. 強化学習(RL)と大規模言語モデル(LLM)の根本的対立
サットン博士は、RLとLLMがAIに対する全く異なる視点に基づいていると指摘する。両者の間には、学習の定義、世界の理解、そして知能の本質そのものについて、埋めがたい溝が存在する。
1.1. 学習パラダイムの違い:経験 vs. 模倣
サットン博士の議論の中心は、学習の定義にある。
- 強化学習(RL):RLは「世界を理解すること」を目的とする。エージェントは、行動(action)を起こし、その結果として何が起こるか(sensation, reward)を観測する。この一連の「経験」を通じて、世界についてのモデルを構築し、目標達成のための最適な行動方針を学んでいく。
- 大規模言語モデル(LLM):LLMは「人々を模倣すること」を目的とする。これらは、人間が過去に生成した膨大なテキストコーパスを学習データとする。その学習プロセスは、現実世界との相互作用ではなく、「ある状況において人間が何を行ったか」という事例を模倣することに終始する。
1.2. ワールドモデルの欠如
LLMが堅牢なワールドモデルを持つという一般的な見解に対し、サットン博士は明確に異を唱える。
- LLMの予測能力の限界:LLMは「次に人間が何を言うか」を予測することはできるが、「ある行動を取った結果、世界で何が起こるか」を予測する能力はない。
- 本物のワールドモデルとは:真のワールドモデルを持つエージェントは、何が起こるかを予測し、予測と異なる結果が生じた場合(「 驚き」)に、その経験に基づいて内部モデルを修正・更新することができる。サットン博士は、LLMにはこの実質的な意味での予測・学習サイクルが欠けていると主張する。
1.3. 目標(ゴール)の不在
サットン博士にとって、目標の存在は知能の絶対的な前提条件である。
- 知能の定義:ジョン・マッカーシーの定義を引用し、知能を「目標を達成する能力の計算論的な部分」と位置づける。目標がなければ、システムは単に「振る舞う」だけであり、知的とは言えない。
- LLMの「目標」:「次のトークンを予測する」ことは、世界に影響を与える実質的な目標ではない。それは、エージェントが世界を変えるために行動するのではなく、単に受け取るトークンを正確に予測するだけの自己完結的なタスクである。
- グラウンド・トゥルースの欠如:RLでは、「報酬」という形で目標が定義されるため、どの行動が「良い」かを判断する基準(グラウンド・トゥルース)が存在する。これにより、事前の知識を実際の経験に照らして検証し、学習を進めることができる。一方、LLMにはこの基準が存在しないため、「何が正しい発言か」を定義できず、継続的な自己改善が原理的に困難である。