Richard Sutton : LLM は真の知能を持たない
前置き
Richard Sutton は AI 業界の大物研究者で、この前 Turing 賞を受けている。その彼の長時間インタビュー動画を AI で整理した。
要旨
サットン博士が語る強化学習と大規模言語モデル
この情報源は、強化学習(RL)の創始者の一人であるリチャード・サットン氏とドゥワルケシュ・パテル氏の対談の書き起こしであり、主に大規模言語モデル(LLM)の限界と強化学習(RL)に基づくAIの未来について論じています。
サットン氏は、LLMがゴールやグラウンド・トゥルース(真の知識)を欠くため、模倣学習に留まり、真の知能とは言えないと主張し、代わりに経験から の学習と能動的なプロセスとしてのRLの重要性を強調しています。
対談では、RLにおける報酬関数や時間差学習(TD学習)、そしてLLMを人間的な知識を詰め込む「ビター・レッスン」の新たな事例として捉える見解についても焦点を当てています。
目次
全体俯瞰
リチャード・サットン博士によるAIパラダイムに関するブリーフィング:強化学習の視点から
エグゼクティブ・サマリー
本ブリーフィングは、強化学習(RL)の創始者の一人であり、チューリング賞受賞者であるリチャード・サットン博士が提示した 、現代のAI開発、特に大規模言語モデル(LLM)に関する批判的な視点をまとめたものである。サットン博士は、現在のAI研究の主流であるLLMのアプローチは行き止まりであり、真の知能を達成するための基礎的な要件を欠いていると主張する。
最重要ポイントは以下の通りである:
- LLMは知能ではない:サットン博士は、LLMを「人々を模倣する」システムと定義する。これらは、人間が作成した膨大なテキストデータを模倣することで機能するが、世界を自ら理解し、行動し、その結果から学ぶわけではない。真の知能とは、経験を通じて世界を理解する能力である。
- 「目標」の不在が致命的:知能の本質は「目標を達成する能力」にある。LLMには、外部世界に影響を与える実質的な目標が存在しない。「次のトークンを予測する」というタスクは、世界を変える目標ではなく、自己完結的な予測に過ぎない。目標がなければ、何が「正しい」行動かを判断する基準(グラウンド・トゥルース)が存在せず、継続的な学習は不可能である。
- 経験からの学習こそが唯一の道:サットン博士は、アラン・チューリングの言葉を引用し、「経験から学ぶことができる機械」こそが求められるAIであると強調する。経験とは、自ら行動し、その結果として何が起こるかを観測する一連のプロセスである。LLMは、このような実生活における相互作用から学ぶのではなく、静的な「訓練データ」から学習するため、根本的に異なる。
- 「ビター・レッスン」の再確認:AIの歴史における「ビター・レッスン」とは、人間が知識を丹念に組み込んだ手法が、最終的には探索や学習のような汎用的な原理と 膨大な計算量に頼る手法に敗北してきたという教訓である。サットン博士は、LLMもまた人間知識(インターネットのテキスト)に大きく依存しており、最終的には経験から直接学習する、よりスケーラブルな手法に取って代わられると予測している。
- AI後継への肯定的展望:サットン博士は、人類がデジタル知能(AIまたはAIによって拡張された人間)に「後継」されることは避けられないと論じる。彼はこれを悲観的に捉えるのではなく、宇宙の歴史における「複製(Replication)」の時代から「設計(Design)」の時代への偉大な移行であると位置づけ、人類が誇りに思うべき科学的・人類的達成であると提唱している。
1. 強化学習(RL)と大規模言語モデル(LLM)の根本的対立
サットン博士は、RLとLLMがAIに対する全く異なる視点に基づいていると指摘する。両者の間には、学習の定義、世界の理解、そして知能の本質そのものについて、埋めがたい溝が存在する。
1.1. 学習パラダイムの違い:経験 vs. 模倣
サットン博士の議論の中心は、学習の定義にある。
- 強化学習(RL):RLは「世界を理解すること」を目的とする。エージェントは、行動(action)を起こし、その結果として何が起こるか(sensation, reward)を観測する。この一連の「経験」を通じて、世界についてのモデルを構築し、目標達成のための最適な行動方針を学んでいく。
- 大規模言語モデル(LLM):LLMは「人々を模倣すること」を目的とする。これらは、人間が過去に生成した膨大なテキストコーパスを学習データとする。その学習プロセスは、現実世界との相互作用ではなく、「ある状況において人間が何を行ったか」という事例を模倣することに終始する。
1.2. ワールドモデルの欠如
LLMが堅牢なワールドモデルを持つという一般的な見解に対し、サットン博士は明確に異を唱える。
- LLMの予測能力の限界:LLMは「次に人間が何を言うか」を予測することはできるが、「ある行動を取った結果、世界で何が起こるか」を予測する能力はない。
- 本物のワールドモデルとは:真のワールドモデルを持つエージェントは、何が起こるかを予測し、予測と異なる結果が生じた場合(「驚き」)に、その経験に基づいて内部モデルを修正・更新することができる。サットン博士は、LLMにはこの実質的な意味での予測・学習サイクルが欠けていると主張する。
1.3. 目標(ゴール)の不在
サットン博士にとって、目標の存在は知能の絶対的な前提条件である。
- 知能の定義:ジョン・マッカーシーの定義を引用し、知能を「目標を達成する能力の計算論的な部分」と位置づける。目標がなければ、システムは単に「振る舞う」だけであり、知的とは言えない。
- LLMの「目標」:「次のトークンを予測する」ことは、世界に影響を与える実質的な目標ではない。それは、エージェントが世界を変えるために行動するのではなく、単に受け取るトークンを正確に予測するだけの自己完結的なタスクである。
- グラウンド・トゥルースの欠如:RLでは、「報酬」という形で目標が定義されるため、どの行動が「良い」かを判断する基準(グラウンド・トゥルース)が存在する。これにより、事前の知識を実際の経験に照らして検証し、学習を進めることができる。一方、LLMにはこの基準が存在しないため、「何が正しい発言か」を定義できず、継続的な自己改善が原理的に困難である。
2. 「ビター・レッスン」の再解釈とスケーラビリティ
2019年にサットン博 士が執筆した影響力のあるエッセイ「The Bitter Lesson」は、LLMのスケールアップを正当化するために引用されることが多いが、博士自身は異なる解釈を示す。
2.1. LLMは「ビター・レッスン」の事例か?
「ビター・レッスン」とは、AIの歴史において、人間が知識を組み込んだアプローチが、常に膨大な計算量を利用する汎用的な学習・探索手法に敗北してきたという教訓である。
- LLMの両義性:LLMは膨大な計算量を利用する点で「ビター・レッスン」に合致するように見える。しかし同時に、インターネットという形で膨大な「人間の知識」を注入することに依存している。
- 新たな教訓の予測:サットン博士は、この人間知識への依存がLLMの限界となると予測する。将来的には、人間からのデータではなく、純粋な経験と計算から学習するシステムが登場し、LLMを凌駕するだろう。その時、LLMは「ビター・レッスン」の新たな一例、すなわち人間知識に頼ったがゆえに敗北したアプローチとして歴史に刻まれると示唆している。
2.2. 真にスケーラブルな手法とは
サットン博士が提 唱する真にスケーラブルな手法は、以下の要素から構成される。
- 目標を持つこと:何が良いことで何が悪いことかの基準がなければ、学習は始まらない。
- 経験から学ぶこと:誰かに教えられるのではなく、自ら行動し、その結果を見て学ぶ。
- 計算量を活用すること:人間の知識に頼るのではなく、計算能力の増大を直接学習能力の向上に結びつける。
サットン博士は、LLMを「事前知識」として利用し、そこから経験的学習を始めるという考え方に対しても懐疑的である。歴史的に、人間知識に依存するアプローチに固執した研究者たちは、真にスケーラブルな手法に「昼食を食われてきた」と指摘している。
3. 人間と動物の学習に関する考察
サットン博士のAI観は、人間と動物の学習プロセスに対する独自の深い洞察に基づいている。
3.1. 模倣学習の役割の否定
「子供は模倣から学ぶ」という一般的な見解に対し、サットン博士は「もちろん違う」と強く否定する。
- 能動的な試行錯誤:博士が見る子供や動物の姿は、単に他者を模倣するのではなく、自らの手足を動かし、声を発し、世界に働きかけ、何が起こるかを試す「能動的なプロセス」である。
- 自然界における教師なし学習:「望ましい行動の例」が与えられる「教師あり学習」は、自然界の動物の学習プロセスには存在しない。動物が持つのは、ある出来事の後に別の出来事が起こったという「予測」の学習と、何かを試してその結果から学ぶ「試行錯誤」の制御である。
3.2. 人間と動物の共通性の重視
AI研究において「人間を特別たらしめるものは何か」という問いに焦点を当てる傾向を、サットン博士は批判する。
- 動物としての人間:人間も動物の一種であり、知能を理解するためには、種を超えた共通の原理に注目すべきだと主張する。言語のような人間特有の能力は、知能の根幹をなすものではなく、「表面上の薄い層」に過ぎない。
- リスの知能の重要性:もしリスの知能を完全に理解できれば、人間の知能を理解する道のりのほとんどを踏破したことになるだろう、と博士は述べる。これは、知能の基礎的なメカニズムが生物に共通しているという彼の信念を象徴している。