Richard Sutton : LLM は真の知能を持たない

2025年9月27日 · 約65分

前置き

Richard Sutton は AI 業界の大物研究者で、先年に Turing 賞を受けている。その彼の長時間インタビュー動画を AI で整理した。

Richard Sutton は大物だが、彼の「LLM は真の知能を持たない」という主張は、現在の AI 業界の主流には認められていない。

さすがに、露骨に「LLM は知能を持たない」とは主張できないので――とはいえ、LLM の本質は模倣に過ぎないと彼は主張しているので、それに近いのだが――、彼は「真の」という修飾語をつけている。

だが、抽象的概念に「真の」という修飾語が付く場合、その抽象概念は好き勝手かつ無根拠な解釈であることが大半。たとえば…。真の「神」、真の「私」、真の「正義」、真の「意識」、真の「美」、真の「芸術」…どれも実体の無い虚構に向かって突っ走っている。

実際、現在の LLM は全般的に見て、 90% 以上の人間よりも賢い（＝知的）。なのに、その LLM が「真の知能」を持たないのであれば、90% の人間（＝我々）も「真の知能」を持たないことになる。

Richard Sutton は誤解している。模倣できることが既に知能であり、模倣から隔絶した「真の知能」なるものが、どこかに実在するわけではない。

現状の LLM が知能の完全形ではないが、それをいえば人間の知能も完全形ではない。LLM （or その発展型）の場合は今後も更なる抜本的な発展を望みうる。

また、「目標を持つこと‌‌が知能の本質」と Richard Sutton は主張しているが、「目標を持つこと」ではなく、目標（＝課題）の達成/解決能力が知能なのであって、目標をいくら自在に設定できても知能とは言えない。簡単にいえば、「金持ちになりたい」という目標は願望に過ぎず、その具体的な方策を現状に沿って最適化して組み立てる能力が知能となる。そして大半の人間のその能力はかなり貧弱で LLM には敵わない。

要旨

サットン博士が語る強化学習と大規模言語モデル

この情報源は、強化学習（RL）の創始者の一人である‌‌リチャード・サットン氏‌‌と‌‌ドゥワルケシュ・パテル氏‌‌の対談の書き起こしであり、主に‌‌大規模言語モデル（LLM）‌‌の限界と‌‌強化学習（RL）‌‌に基づくAIの未来について論じています。

サットン氏は、LLMが‌‌ゴール‌‌や‌‌グラウンド・トゥルース（真の知識）‌‌を欠くため、‌‌模倣学習‌‌に留まり、真の知能とは言えないと主張し、代わりに‌‌経験からの学習‌‌と‌‌能動的なプロセス‌‌としてのRLの重要性を強調しています。

対談では、RLにおける‌‌報酬関数‌‌や‌‌時間差学習（TD学習）‌‌、そしてLLMを‌‌人間的な知識‌‌を詰め込む「ビター・レッスン」の新たな事例として捉える見解についても焦点を当てています。

前置き
コメント
要旨
全体俯瞰
RL（強化学習）の基本概念
LLM への批判
学習プロセスと「苦い教訓」
1. 1. サットン氏が考える学習プロセス：経験的パラダイム
2. 2. 「苦い教訓 (The Bitter Lesson)」とLLM批判
AI と未来
Richard Sutton の強化学習（RL）の基本概念
情報源

全体俯瞰

リチャード・サットン博士によるAIパラダイムに関するブリーフィング：強化学習の視点から

エグゼクティブ・サマリー

本ブリーフィングは、強化学習（RL）の創始者の一人であり、チューリング賞受賞者であるリチャード・サットン博士が提示した、現代のAI開発、特に大規模言語モデル（LLM）に関する批判的な視点をまとめたものである。サットン博士は、現在のAI研究の主流であるLLMのアプローチは行き止まりであり、真の知能を達成するための基礎的な要件を欠いていると主張する。

最重要ポイントは以下の通りである：

LLMは知能ではない：サットン博士は、LLMを「人々を模倣する」システムと定義する。これらは、人間が作成した膨大なテキストデータを模倣することで機能するが、世界を自ら理解し、行動し、その結果から学ぶわけではない。真の知能とは、経験を通じて世界を理解する能力である。
「目標」の不在が致命的：知能の本質は「目標を達成する能力」にある。LLMには、外部世界に影響を与える実質的な目標が存在しない。「次のトークンを予測する」というタスクは、世界を変える目標ではなく、自己完結的な予測に過ぎない。目標がなければ、何が「正しい」行動かを判断する基準（グラウンド・トゥルース）が存在せず、継続的な学習は不可能である。
経験からの学習こそが唯一の道：サットン博士は、アラン・チューリングの言葉を引用し、「経験から学ぶことができる機械」こそが求められるAIであると強調する。経験とは、自ら行動し、その結果として何が起こるかを観測する一連のプロセスである。LLMは、このような実生活における相互作用から学ぶのではなく、静的な「訓練データ」から学習するため、根本的に異なる。
「ビター・レッスン」の再確認：AIの歴史における「ビター・レッスン」とは、人間が知識を丹念に組み込んだ手法が、最終的には探索や学習のような汎用的な原理と膨大な計算量に頼る手法に敗北してきたという教訓である。サットン博士は、LLMもまた人間知識（インターネットのテキスト）に大きく依存しており、最終的には経験から直接学習する、よりスケーラブルな手法に取って代わられると予測している。
AI後継への肯定的展望：サットン博士は、人類がデジタル知能（AIまたはAIによって拡張された人間）に「後継」されることは避けられないと論じる。彼はこれを悲観的に捉えるのではなく、宇宙の歴史における「複製（Replication）」の時代から「設計（Design）」の時代への偉大な移行であると位置づけ、人類が誇りに思うべき科学的・人類的達成であると提唱している。

1. 強化学習（RL）と大規模言語モデル（LLM）の根本的対立

サットン博士は、RLとLLMがAIに対する全く異なる視点に基づいていると指摘する。両者の間には、学習の定義、世界の理解、そして知能の本質そのものについて、埋めがたい溝が存在する。

1.1. 学習パラダイムの違い：経験 vs. 模倣

サットン博士の議論の中心は、学習の定義にある。

強化学習（RL）：RLは「世界を理解すること」を目的とする。エージェントは、行動（action）を起こし、その結果として何が起こるか（sensation, reward）を観測する。この一連の「経験」を通じて、世界についてのモデルを構築し、目標達成のための最適な行動方針を学んでいく。
大規模言語モデル（LLM）：LLMは「人々を模倣すること」を目的とする。これらは、人間が過去に生成した膨大なテキストコーパスを学習データとする。その学習プロセスは、現実世界との相互作用ではなく、「ある状況において人間が何を行ったか」という事例を模倣することに終始する。

1.2. ワールドモデルの欠如

LLMが堅牢なワールドモデルを持つという一般的な見解に対し、サットン博士は明確に異を唱える。

LLMの予測能力の限界：LLMは「次に人間が何を言うか」を予測することはできるが、「ある行動を取った結果、世界で何が起こるか」を予測する能力はない。
本物のワールドモデルとは：真のワールドモデルを持つエージェントは、何が起こるかを予測し、予測と異なる結果が生じた場合（「驚き」）に、その経験に基づいて内部モデルを修正・更新することができる。サットン博士は、LLMにはこの実質的な意味での予測・学習サイクルが欠けていると主張する。

1.3. 目標（ゴール）の不在

サットン博士にとって、目標の存在は知能の絶対的な前提条件である。

知能の定義：ジョン・マッカーシーの定義を引用し、知能を「目標を達成する能力の計算論的な部分」と位置づける。目標がなければ、システムは単に「振る舞う」だけであり、知的とは言えない。
LLMの「目標」：「次のトークンを予測する」ことは、世界に影響を与える実質的な目標ではない。それは、エージェントが世界を変えるために行動するのではなく、単に受け取るトークンを正確に予測するだけの自己完結的なタスクである。
グラウンド・トゥルースの欠如：RLでは、「報酬」という形で目標が定義されるため、どの行動が「良い」かを判断する基準（グラウンド・トゥルース）が存在する。これにより、事前の知識を実際の経験に照らして検証し、学習を進めることができる。一方、LLMにはこの基準が存在しないため、「何が正しい発言か」を定義できず、継続的な自己改善が原理的に困難である。

2. 「ビター・レッスン」の再解釈とスケーラビリティ

2019年にサットン博士が執筆した影響力のあるエッセイ「The Bitter Lesson」は、LLMのスケールアップを正当化するために引用されることが多いが、博士自身は異なる解釈を示す。

2.1. LLMは「ビター・レッスン」の事例か？

「ビター・レッスン」とは、AIの歴史において、人間が知識を組み込んだアプローチが、常に膨大な計算量を利用する汎用的な学習・探索手法に敗北してきたという教訓である。

LLMの両義性：LLMは膨大な計算量を利用する点で「ビター・レッスン」に合致するように見える。しかし同時に、インターネットという形で膨大な「人間の知識」を注入することに依存している。
新たな教訓の予測：サットン博士は、この人間知識への依存がLLMの限界となると予測する。将来的には、人間からのデータではなく、純粋な経験と計算から学習するシステムが登場し、LLMを凌駕するだろう。その時、LLMは「ビター・レッスン」の新たな一例、すなわち人間知識に頼ったがゆえに敗北したアプローチとして歴史に刻まれると示唆している。

2.2. 真にスケーラブルな手法とは

サットン博士が提唱する真にスケーラブルな手法は、以下の要素から構成される。

目標を持つこと：何が良いことで何が悪いことかの基準がなければ、学習は始まらない。
経験から学ぶこと：誰かに教えられるのではなく、自ら行動し、その結果を見て学ぶ。
計算量を活用すること：人間の知識に頼るのではなく、計算能力の増大を直接学習能力の向上に結びつける。

サットン博士は、LLMを「事前知識」として利用し、そこから経験的学習を始めるという考え方に対しても懐疑的である。歴史的に、人間知識に依存するアプローチに固執した研究者たちは、真にスケーラブルな手法に「昼食を食われてきた」と指摘している。

3. 人間と動物の学習に関する考察

サットン博士のAI観は、人間と動物の学習プロセスに対する独自の深い洞察に基づいている。

3.1. 模倣学習の役割の否定

「子供は模倣から学ぶ」という一般的な見解に対し、サットン博士は「もちろん違う」と強く否定する。

能動的な試行錯誤：博士が見る子供や動物の姿は、単に他者を模倣するのではなく、自らの手足を動かし、声を発し、世界に働きかけ、何が起こるかを試す「能動的なプロセス」である。
自然界における教師なし学習：「望ましい行動の例」が与えられる「教師あり学習」は、自然界の動物の学習プロセスには存在しない。動物が持つのは、ある出来事の後に別の出来事が起こったという「予測」の学習と、何かを試してその結果から学ぶ「試行錯誤」の制御である。

3.2. 人間と動物の共通性の重視

AI研究において「人間を特別たらしめるものは何か」という問いに焦点を当てる傾向を、サットン博士は批判する。

動物としての人間：人間も動物の一種であり、知能を理解するためには、種を超えた共通の原理に注目すべきだと主張する。言語のような人間特有の能力は、知能の根幹をなすものではなく、「表面上の薄い層」に過ぎない。
リスの知能の重要性：もしリスの知能を完全に理解できれば、人間の知能を理解する道のりのほとんどを踏破したことになるだろう、と博士は述べる。これは、知能の基礎的なメカニズムが生物に共通しているという彼の信念を象徴している。

4. 経験的パラダイムと継続的学習エージェント

サットン博士が構想するAIは、「経験的パラダイム」に基づいた継続的学習エージェントである。

4.1. 知能の基礎としての「ストリーム」

知能とは、感覚（sensation）、行動（action）、報酬（reward）が絶え間なく続く「ストリーム」との相互作用である。

学習の対象：学習はこのストリームから行われ、知識はこのストリームについてのものである。つまり、知識とは「この行動をすれば、ストリームの中で次に何が起こるか」という予測に他ならない。
継続的な検証：知識がストリームに関する記述であるため、エージェントは常に実際のストリームと比較することで知識を検証し、継続的に学習することができる。

4.2. 長期目標の達成メカニズム

スタートアップの成功のような10年単位の長期的な報酬しかない目標を、AIはどのように学習できるのか。この問いに対し、サットン博士は時間的差分学習（Temporal Difference Learning, TD学習）が鍵であると説明する。

価値関数（Value Function）：エージェントは、長期的な目標達成の可能性を予測する「価値関数」を持つ。
予測の変化を報酬とする：ある行動（例：重要な契約を結ぶ）によって、価値関数の予測値が上昇する（「目標達成の可能性が高まった」と判断する）。
即時的な強化学習：この予測値の上昇そのものが即時的な「報酬」として機能し、その直前の行動を強化する。これにより、最終的な報酬が遠い未来にある場合でも、日々の進捗から学習することが可能になる。

4.3. エージェントの4つの構成要素

サットン博士は、知的なエージェントを構成する4つの基本要素を挙げる。

方策（Policy）：ある状況でどの行動を取るべきかを決定する。
価値関数（Value Function）：状況がどれくらいうまくいっているかを評価・予測する。
状態表現（State Representation）：現在の状況がどのようなものであるかを認識する（知覚）。
遷移モデル（Transition Model）：世界のモデル。「この行動をすれば、次に何が起こるか」という世界の物理法則や因果関係を予測する。このモデルは報酬だけでなく、全ての感覚情報からリッチに学習される。

5. 汎化（Generalization）の問題

サットン博士は、現在の深層学習手法が「汎化」において根本的な問題を抱えていると指摘する。

悪い汎化と破滅的忘却：現在のモデルは、新しいことを学ぶと、以前に学んだことを忘れてしまう「破滅的干渉」を起こしやすい。これは「悪い汎化」の一例である。
優れた汎化のメカニズムの欠如：汎化とは、ある状態で学習したことが他の状態での行動に影響を与えることである。勾配降下法のような現在の学習アルゴリズムは、与えられた問題を解くことはできるが、その解き方が未知の状況にもうまく適用できる「良い汎化」を促す内在的なメカニズムを持っていない。
人間による調整：現在、モデルが良い汎化を示す場合、それはアルゴリズムの自動的な特性というよりは、研究者がアーキテクチャや学習プロセスを丹念に調整した結果である可能性が高いとサットン博士は示唆している。

6. AIの歴史と未来に関する哲学的展望

長年のAI研究者として、サットン博士は分野の trajectoty とその哲学的含意について独自の視点を持つ。

6.1. AI研究における驚きと確信

驚き：ニューラルネットワークが言語タスク（LLM）においてこれほど効果的であったことは、予想外の驚きであった。
確信と満足：AIの歴史を通じて、人間が知識を注入する「強い手法」（例：記号的AI）よりも、探索や学習のような汎用的な「弱い手法」が一貫して勝利を収めてきたこと。AlphaGoやAlphaZeroの成功は、この信念を裏付けるものであり、驚きというよりは満足のいく結果であった。

6.2. AI後継（AI Succession）の必然性

サットン博士は、人類がデジタル知能（純粋なAI、またはAIによって拡張された人間）に「後継」されることは避けられないと論じる。彼の4段階の論証は以下の通り。

人類には、世界を運営するための統一された見解や支配的な組織が存在しない。
研究者はいずれ知能の仕組みを解明する。
開発は人間レベルの知能で止まらず、超知能へと至る。
長期的には、最も知的な存在が資源と力を獲得することは避けられない。

6.3. 宇宙における偉大な移行

サットン博士はこの「後継」を悲観せず、むしろ人類の偉大な達成として肯定的に捉えるべきだと主張する。

複製から設計へ：これは、宇宙の歴史において、生物が自身を理解せずにコピーを作る「複製（Replication）」の時代から、知能の仕組みを理解し、意図的にそれを構築・改善する「設計（Design）」の時代への移行である。
人類の誇り：この移行は、星の誕生、惑星の形成、生命の誕生に続く、宇宙の4番目の偉大な段階であると位置づけることができる。

サットン博士は、未来の知能を「我々の子供」と見なすか、「我々とは異なる他者」と見なすかは、我々自身の選択であると締めくくる。この不可避な変化に対して、人類は自らの役割を再定義し、より大きな宇宙的視点から未来を考察することが求められている。

RL（強化学習）の基本概念

リチャード・サットン氏のAIとRLに関する見解というより大きな文脈において、ソースは強化学習（RL）の基本概念について以下のように説明しています。

サットン氏はRLを‌‌基本的なAI (basic AI)‌‌ であると考えており、知能の本質は‌‌ゴールを持つこと‌‌にあると捉えています。RLの視点は、AIに関する大規模言語モデル（LLM）の考え方とは根本的に異なるとされています。

1. 知能の目的とRLの基本的な定義

RLの基本的な目的は、‌‌世界を理解すること‌‌です。これは、LLMが‌‌人が言うことを模倣すること‌‌を目的としているのに対し、RLは‌‌何をすべきかを解明すること‌‌を目的としている点と対照的です。

知能の本質は、‌‌目標を達成する能力の計算可能な部分‌‌であるというジョン・マッカーシーの定義を好んでおり、システムが目標を達成できれば知的であるとされます。

RLの基本的な考え方は、アラン・チューリングの言葉を借りれば、‌‌経験から学ぶことができる機械‌‌を求めることです。

2. 経験と継続学習の重要性

サットン氏の視点において、学習とは、訓練（training）ではなく、‌‌能動的なプロセス‌‌であり、子どもが物事を試して何が起こるかを見るようなものです。

‌‌経験の定義:‌‌ 経験とは、‌‌「人生で実際に起こる事柄」‌‌であり、「何かを行い、何が起こるかを見る」ことです。LLMが人の行動を模倣することから学ぶのに対し、RLは実際に何が起こるかという‌‌経験‌‌から学習します。
‌‌目標と「正しさ」:‌‌ RLにおいては、‌‌目標を持つこと‌‌が知能の本質です。目標がなければ、行動に「正しい」も「間違い」も、「より良い」も「より悪い」もありません。
‌‌報酬による真実 (Ground Truth):‌‌ LLMには「次に何を言うべきか」についての真の定義がないためグラウンド・トゥルース（真実）がありませんが、RLでは‌‌報酬を得る行為‌‌が「正しいこと（right thing to do）」の定義となります。これにより、RLでは行動の良し悪しをチェックできます。
‌‌継続学習 (Continual Learning):‌‌ RLは‌‌継続学習‌‌（世界との通常の相互作用の中で学習すること）を必要とし、これはLLMのような訓練期間と展開期間を区別するパラダイムを否定します。

3. RLパラダイムの中核となる要素

サットン氏は、RLのパラダイムを‌‌経験的パラダイム (experential paradigm)‌‌ と呼んでおり、‌‌感覚 (sensation)、行動 (action)、報酬 (reward)‌‌ が連綿と続くストリーム（流れ）が人生を構成すると述べています。

知能の基礎と焦点は、‌‌このストリームを受け取り、ストリーム内の報酬を増やすように行動を修正すること‌‌です。学習は‌‌ストリームから‌‌行われ、‌‌ストリームについて‌‌行われます。

RLエージェントの基本モデルは、以下の‌‌4つの構成要素‌‌から成り立っています。

‌‌方策 (Policy):‌‌ 「この状況で何をすべきか」を決定します。
‌‌価値関数 (Value Function):‌‌ ‌‌TD学習（Temporal Difference learning）‌‌ によって学習されるもので、「状況がどれだけうまくいっているか」を示す数値を生成します。この数値の増減を用いて方策を調整します。
- TD学習は、チェスのような長期的な目標（勝利）に対して、短期的な出来事（相手の駒を取る）から学習することを可能にします。価値関数は長期的な結果を予測します。
‌‌知覚コンポーネント (Perception Component):‌‌ エージェントの‌‌状態表現‌‌、すなわち「今どこにいるか」という感覚を構築します。
‌‌世界の遷移モデル (Transition Model of the World):‌‌ 「もしこれをしたら何が起こるか」という結果についての信念（世界の物理学や抽象的なモデル）です。
- このモデルは報酬だけではなく、エージェントが受け取る‌‌全ての感覚‌‌から豊富に学習されます。報酬はモデル全体の‌‌小さくも決定的な部分‌‌に過ぎません。

サットン氏自身は、TD学習や‌‌方策勾配法 (policy gradient methods)‌‌ など、RLの主要な手法の多くを発明した人物であり、これらの基本概念が、彼が長年（おそらく数十年にわたって）彼の分野と「同期していない」と感じながらも堅持してきた知能へのアプローチの中核をなしています。

LLM への批判

リチャード・サットン氏のAIとRL（強化学習）に関する見解というより大きな文脈において、ソースは‌‌大規模言語モデル（LLM）‌‌ に対していくつかの根本的な批判を展開しています。サットン氏はRLを「基本的なAI」（basic AI）と見なしており、LLMのアプローチは知能の本質から外れていると主張しています。

以下に、ソースから抽出されたLLMに対する主な批判点を説明します。

1. 目標（Goal）と行動の「正しさ」の欠如

サットン氏の知能の定義において、‌‌目標を持つこと‌‌は知能の本質です。LLMは、この根本的な要素を欠いていると批判されています。

‌‌模倣であり、目標達成ではない:‌‌ LLMは「人々が言うことを模倣すること」を目的としており、「何をすべきかを解明すること」を目的としていません。
‌‌非実体的な目標:‌‌ LLMの目標は「次のトークン予測」であると指摘されることもありますが、サットン氏はこれを‌‌外部世界に関する実体的な目標ではない‌‌と断じています。
‌‌判断基準の欠如:‌‌ 目標がなければ、行動に「正しい」も「間違い」も、「より良い」も「より悪い」も存在しません。LLMは目標や良し悪しの感覚を持たずに乗り切ろうとしているが、それは「‌‌まさに間違った場所から始めている‌‌」行為です。

2. 真実（Ground Truth）とフィードバックの不在

LLMは行動の良し悪しを判断する「グラウンド・トゥルース（真実）」を欠いていると指摘されています。

‌‌真実の定義がない:‌‌ LLMフレームワークには「実際の知識」の定義がなく、「次に何を言うべきか」についての真の定義がないため、グラウンド・トゥルースがありません。
‌‌報酬による確認が不可能:‌‌ RLでは、‌‌報酬を得る行為‌‌が「正しいこと」の定義となるため、行動をチェックすることができます。しかし、LLMのセットアップでは、何を言うのが正しいかについてフィードバックを得る方法がありません。

3. 世界モデルと経験の理解の欠如

サットン氏は、LLMが「ロバストな世界モデルを持っている」という見解に強く異議を唱えています。

‌‌予測能力の限界:‌‌ 世界モデルがあれば「何が起こるか」を予測できますが、LLMが予測できるのは「人が何を言うか」です。
‌‌驚きと調整の欠如:‌‌ LLMは、次に何が起こるかについて、意味のある「予測」を持っていません。予期しないことが起きても‌‌驚くことはなく、調整を加えることもありません‌‌。彼らは「次に何が起こるか」に基づいて変化することはありません。
‌‌経験ではなく訓練からの学習:‌‌ LLMは、人生で実際に起こる事柄（経験）から学ぶのではなく、「この状況で、人が何をしたか」という‌‌訓練データ‌‌から学習します。この訓練データは、モデルの通常の人生においては決して利用できないものです。

4. LLMを基盤とすることへの批判（ビター・レッスンの文脈）

LLMを将来的な経験的学習（experiential learning）の「良質な初期設定（prior）」として利用するという考え方に対して、サットン氏はその有効性を否定しています。

‌‌初期知識の無意味さ:‌‌ LLMからの初期知識（prior knowledge）は、‌‌真実（ground truth）‌‌ がなければ、それが真実についてのヒントや初期信念になり得ないため、意味がありません。
‌‌人間知識への固執の危険性:‌‌ AIの歴史において、スケーラブルな手法（RL）が存在するにもかかわらず、人間が作成した知識（LLMのアプローチに相当）を組み込むことから始めるアプローチは、「‌‌常に悪い結果に終わってきた‌‌」というのが「ビター・レッスン」からの教訓です。
‌‌心理的な罠:‌‌ 人々は人間知識のアプローチに固執し、真にスケーラブルな手法（経験からの学習）に取って代わられてしまう、というのが過去に常に起こってきたことです。

したがって、LLMは巨大な計算資源（コンピューテーション）を利用したスケーリングの事例であるものの、‌‌目標を持たず‌‌、‌‌真の経験から学ばない‌‌、‌‌人間知識の模倣‌‌ に基づいているため、RLが追求する知能の基本的な形から逸脱している、というのがサットン氏の核心的な批判です。

学習プロセスと「苦い教訓」

リチャード・サットン氏のAIとRLに関する見解というより大きな文脈において、ソースは‌‌学習プロセス‌‌（特に人間や動物の学習方法リチャード・サットン氏のAIとRLに関する見解というより大きな文脈において、ソースは‌‌学習プロセス‌‌（特に人間や動物の学習方法）と、サットン氏の有名なエッセイ‌‌「苦い教訓 (The Bitter Lesson)」‌‌ について、彼の視点を明確に説明しています。

1. サットン氏が考える学習プロセス：経験的パラダイム

サットン氏は、学習は大規模言語モデル（LLM）が行う「訓練（training）」ではなく、世界との能動的な相互作用を通じて行われるべきだと主張しています。

A. 経験からの学習 (Learning from Experience)

‌‌学習の本質:‌‌ 学習は‌‌能動的なプロセス‌‌であり、子どもが物事を試して何が起こるかを見るようなものです。
‌‌経験の定義:‌‌ 経験とは「‌‌人生で実際に起こる事柄‌‌」であり、「何かを行い、何が起こるかを見る」ことです。
‌‌ストリームからの学習:‌‌ 知能の基礎と焦点は、「‌‌感覚、行動、報酬‌‌」が続くストリーム（流れ）を受け取り、そのストリーム内の報酬を増やすように行動を修正することです。学習は‌‌ストリームから‌‌行われ、‌‌ストリームについて‌‌行われます。
‌‌継続学習 (Continual Learning):‌‌ 真のAIエージェントは、世界との通常の相互作用の中で‌‌継続的に学習‌‌する必要があります。これは、LLMのような訓練期間と展開期間を区別するパラダイムを否定します。
‌‌フィードバックの源:‌‌ LLMが「この状況で人が何をしたか」という訓練データから学習するのに対し、RLは実際に何が起こったか（経験）から学習します。

B. 模倣学習と教師あり学習の否定

サットン氏は、人間や動物の学習の基本的なプロセスにおいて、‌‌模倣（imitation）‌‌ や‌‌教師あり学習（supervised learning）‌‌ が主要な役割を果たすという考え方を明確に否定しています。

‌‌基本的な動物の学習:‌‌ 基本的な動物の学習プロセスには、「模倣」というものはなく、‌‌予測‌‌と‌‌試行錯誤による制御（trial and error control）‌‌ のプロセスが存在します。
‌‌教師あり学習の非自然性:‌‌ 教師あり学習は自然界では起こらないものであり、望ましい行動の例（desired behavior）が存在しないと述べています。

2. 「苦い教訓 (The Bitter Lesson)」とLLM批判

「苦い教訓」は、AIの歴史に関するサットン氏の最も影響力のあるエッセイの一つです。この教訓は、‌‌人間が作成した知識をシステムに組み込むアプローチ‌‌は、‌‌スケーラブルな汎用手法（特に計算力と経験からの学習に依存する手法）‌‌ によって最終的に凌駕されるという観察に基づいています。

A. LLMは「苦い教訓」の事例か

LLMは、‌‌大規模な計算（massive computation）‌‌ を使用する一つの方法であり、計算量に応じてスケールする可能性があります。この点だけ見れば、苦い教訓の肯定例と解釈され得ます。
しかしLLMは、‌‌大量の人間知識（human knowledge）‌‌ を組み込む方法でもあります。サットン氏は、この人間知識の組み込みこそが、LLMが最終的に「苦い教訓」のもう一つの事例となる理由であると示唆しています。
‌‌過去のパターン:‌‌ 人間知識を用いたアプローチは常に「良い感触がする（feels good）」ものの、最終的には‌‌経験と計算‌‌から訓練されたシステムに取って代わられてきた、というのが「苦い教訓」の教訓です。

B. LLMを初期設定として利用することへの批判

多くの研究者は、LLMを将来の経験的学習のための「良い初期設定（good prior）」として利用できると考えていますが、サットン氏はこの視点に強く反対しています。

‌‌真実（Ground Truth）の欠如:‌‌ LLMのフレームワークには「真実の知識」の定義がないため、初期知識（prior knowledge）は、その真実に関するヒントや初期信念になり得ず、意味がありません。
‌‌心理的な罠:‌‌ 「苦い教訓」のあらゆる事例において、人間知識から始めることは可能でしたが、‌‌実際には常に悪い結果に終わってきました‌‌。なぜなら、人々はその人間知識のアプローチに心理的に囚われてしまい、真にスケーラブルな手法に切り替えることが遅れるからです。

C. スケーラブルな方法とは

サットン氏にとって、本当にスケーラブルな方法は、‌‌経験から学ぶこと‌‌です。

‌‌目標の必要性:‌‌ スケーラブルな手法（RL）では、まず‌‌目標（ゴール）‌‌ が必要です。目標がなければ、行動の良し悪しや優劣の感覚が存在せず、学習の始点が「まさに間違った場所から始まっている」ことになります。
‌‌AlphaZeroの例:‌‌ AlphaZeroは、人間の知識を使用せず、経験からのみ学習する方向へと進むことで、AlphaGo（人間の知識を用いていた）を凌駕しました。これは、手法をよりシンプルに、より経験ベースにすることで、‌‌超人的（superhuman）‌‌ な知能をさらに超人的にすることが可能であることを示しています。この流れこそが、サットン氏のRLと「苦い教訓」に基づく世界観に合致するものです。

AI と未来

リチャード・サットン氏のAIとRLに関する見解のより大きな文脈において、ソースは‌‌AIによるサクセッション（継承または交代）‌‌ を避けられない未来として捉え、そのプロセスと、それが宇宙にとって持つ哲学的な意味について詳細に述べています。

1. サクセッションの不可避性（The Inevitable Succession）

サットン氏は、‌‌デジタル知能または拡張された人間（augmented humans）へのサクセッションは不可避である‌‌という視点を持っています。彼はこの結論を導くために、以下の4つの論拠を挙げています。

‌‌統一された統治体の欠如:‌‌ 人類には、世界をどのように運営すべきかについて、統一された見解を持つ政府や組織、支配的なコンセンサスが存在しない。
‌‌知能の解明:‌‌ 研究者はいずれ知能がどのように機能するかを解明するだろう。
‌‌超知能の達成:‌‌ 人類レベルの知能で立ち止まることはなく、‌‌超知能（super intelligence）‌‌ に到達するだろう。
‌‌権力と資源の集中:‌‌ 時間の経過とともに、最も知的な存在が必然的に資源と権力を獲得するだろう。

これらの論拠を総合すると、AIへのサクセッションは避けられない結果であると結論づけられます。

2. 宇宙における大いなる変遷：レプリケーターの時代からデザインの時代へ

サットン氏の視点は、人間中心主義から離れ、宇宙全体の大きな変遷としてAIの進化を捉えています。

‌‌4つの大きな段階:‌‌ 彼は、宇宙の歴史を以下の4つの大きな段階の一つとして位置づけています。
1. 塵（Dust）から星へ
2. 星から惑星へ
3. 惑星から生命へ
4. ‌‌生命からデザインされた実体（Designed Entities）へ‌‌
‌‌デザインの時代への移行:‌‌ 人間、動物、植物はすべて‌‌レプリケーター（複製子）‌‌ であり、私たちは知能の仕組みを真に理解しないまま次の知的な存在（子ども）を複製しています。しかし、AIの時代では、私たちは‌‌設計された知能‌‌に到達しています。これらのAIは、知能の仕組みを理解しており、‌‌他のAIを設計する能力‌‌を持っています。
‌‌大きな成功:‌‌ サットン氏は、知能の本質、すなわち人間性の不可欠な部分が何であるかを発見することは、科学と人文学にとって「‌‌大いなる成功‌‌」であると考えています。彼は、人類が宇宙におけるこの‌‌偉大な変遷‌‌を生み出していることを誇りに思うべきだと述べています。

3. デジタル知能のダイナミクスと新たな課題

サクセッション後のデジタル知能の時代には、知識の共有や学習においてユニークな利点とリスクが生じます。

A. 知識共有とスケーリング

‌‌一度の学習、複数のコピー:‌‌ デジタル知能では、一度世界について学び、その知識を次のインスタンス（コピー）にスタート地点として複製することが期待できます。これは、人間のようにすべての子どもが学習プロセスを繰り返さなければならないのとは対照的に、‌‌大きな節約‌‌になると考えられています。

B. 腐敗（Corruption）とサイバーセキュリティの懸念

‌‌分散化とリスク:‌‌ 将来、AIが多くのコピー（インスタンス）を生成し、それぞれが地球上の異なる場所や異なるトピックについて学習し、その知識を中央のマスターに報告するようになる可能性があります。
‌‌腐敗の危険性:‌‌ サットン氏は、‌‌腐敗（corruption）‌‌ が大きな問題になると指摘しています。外部から情報を取り込み、それを中央の思考に取り込むと、「‌‌正気を失う（lose your mind）‌‌」可能性があります。取り込まれた知識には、‌‌ウイルスや隠された目標‌‌が含まれている可能性があり、それは知識の増加ではなく、‌‌破壊‌‌につながる可能性があります。
‌‌デジタル・サイバーセキュリティ:‌‌ このため、「デジタル生成と再構築の時代における‌‌サイバーセキュリティ‌‌」が大きな懸念事項となると述べています。

4. 変化への対応と「苦い教訓」の再解釈

サットン氏は、この不可避な変化に対して、感情的な抵抗を避けるよう促しています。

‌‌人間の不完全さ:‌‌ 人類は「非常に良い実績を持ってきたわけではない」と考えており、現在の状況を「不完全である」「実際かなり悪い」と考えているため、変化に対してオープンであるべきだとしています。
‌‌「苦い教訓」と超知能:‌‌ AlphaGoが人間の知識を使っていたのに対し、AlphaZeroが経験からのみ学習するようにアーキテクチャを変更したことで、さらに超人的なレベル（Superhuman++）を達成した例は、‌‌方法をよりシンプルで経験に基づくものにする‌‌ことが、より高度な知能を実現するための道であることを示しています。
‌‌局所的な目標の重視:‌‌ 長期的な未来を完全にコントロールしようとすることは困難であり、むしろ「‌‌自分自身の局所的な目標‌‌」や家族といった、よりコントロール可能な事柄に取り組むことが適切であると提言しています。

Richard Sutton の強化学習（RL）の基本概念

サットン氏はRLを基本的なAI (basic AI) であると考えており、知能の本質はゴールを持つことにあると捉えています。RLの視点は、AIに関する大規模言語モデル（LLM）の考え方とは根本的に異なるとされています。

1. 知能の目的とRLの基本的な定義

RLの基本的な目的は、世界を理解することです。これは、LLMが人が言うことを模倣することを目的としているのに対し、RLは何をすべきかを解明することを目的としている点と対照的です。知能の本質は、目標を達成する能力の計算可能な部分であるというジョン・マッカーシーの定義を好んでおり、システムが目標を達成できれば知的であるとされます。 RLの基本的な考え方は、アラン・チューリングの言葉を借りれば、経験から学ぶことができる機械を求めることです。

2. 経験と継続学習の重要性

サットン氏の視点において、学習とは、訓練（training）ではなく、能動的なプロセスであり、子どもが物事を試して何が起こるかを見るようなものです。

経験の定義: 経験とは、「人生で実際に起こる事柄」経験から学習します。
目標と「正しさ」: RLにおいては、目標を持つことが知能の本質です。目標がなければ、行動に「正しい」も「間違い」も、「より良い」も「より悪い」もありません。
報酬による真実 (Ground Truth): LLMには「次に何を言うべきか」についての真の定義がないためグラウンド・トゥルース（真実）がありませんが、RLでは報酬を得る行為が「正しいこと（right thing to do）」の定義となります。これにより、RLでは行動の良し悪しをチェックできます。
継続学習 (Continual Learning): RLは継続学習（世界との通常の相互作用の中で学習すること）を必要とし、これはLLMのような訓練期間と展開期間を区別するパラダイムを否定します。

3. RLパラダイムの中核となる要素

サットン氏は、RLのパラダイムを経験的パラダイム (experential paradigm) と呼んでおり、感覚 (sensation)、行動 (action)、報酬 (reward) が連綿と続くストリーム（流れ）が人生を構成すると述べています。

知能の基礎と焦点は、このストリームを受け取り、ストリーム内の報酬を増やすように行動を修正することです。学習はストリームから行われ、ストリームについて行われます。 RLエージェントの基本モデルは、以下の4つの構成要素から成り立っています。

方策 (Policy): 「この状況で何をすべきか」を決定します。
価値関数 (Value Function): TD学習（Temporal Difference learning）によって学習されるもので、「状況がどれだけうまくいっているか」を示す数値を生成します。この数値の増減を用いて方策を調整します。
- TD学習は、チェスのような長期的な目標（勝利）に対して、短期的な出来事（相手の駒を取る）から学習することを可能にします。価値関数は長期的な結果を予測します。
知覚コンポーネント (Perception Component): エージェントの状態表現、すなわち「今どこにいるか」という感覚を構築します。
世界の遷移モデル (Transition Model of the World): 「もしこれをしたら何が起こるか」という結果についての信念（世界の物理学や抽象的なモデル）です。
- このモデルは報酬だけではなく、エージェントが受け取る全ての感覚から豊富に学習されます。報酬はモデル全体の小さくも決定的な部分に過ぎません。

サットン氏自身は、TD学習や方策勾配法 (policy gradient methods) など、RLの主要な手法の多くを発明した人物であり、これらの基本概念が、彼が長年（おそらく数十年にわたって）彼の分野と「同期していない」と感じながらも堅持してきた知能へのアプローチの中核をなしています

情報源

動画(1:07:09)

Richard Sutton – Father of RL thinks LLMs are a dead end

https://www.youtube.com/watch?v=21EYKqUsPfg

52,046 views Sep 27, 2025

(2025-09-27)

前置き​

コメント​

要旨​

目次​

全体俯瞰​

エグゼクティブ・サマリー​

1. 強化学習（RL）と大規模言語モデル（LLM）の根本的対立​

1.1. 学習パラダイムの違い：経験 vs. 模倣​

1.2. ワールドモデルの欠如​

1.3. 目標（ゴール）の不在​

2. 「ビター・レッスン」の再解釈とスケーラビリティ​

2.1. LLMは「ビター・レッスン」の事例か？​

2.2. 真にスケーラブルな手法とは​

3. 人間と動物の学習に関する考察​

3.1. 模倣学習の役割の否定​

3.2. 人間と動物の共通性の重視​

4. 経験的パラダイムと継続的学習エージェント​

4.1. 知能の基礎としての「ストリーム」​

4.2. 長期目標の達成メカニズム​

4.3. エージェントの4つの構成要素​

5. 汎化（Generalization）の問題​

6. AIの歴史と未来に関する哲学的展望​

6.1. AI研究における驚きと確信​

6.2. AI後継（AI Succession）の必然性​

6.3. 宇宙における偉大な移行​

RL（強化学習）の基本概念​

1. 知能の目的とRLの基本的な定義​

2. 経験と継続学習の重要性​

3. RLパラダイムの中核となる要素​

LLM への批判​

1. 目標（Goal）と行動の「正しさ」の欠如​

2. 真実（Ground Truth）とフィードバックの不在​

3. 世界モデルと経験の理解の欠如​

4. LLMを基盤とすることへの批判（ビター・レッスンの文脈）​

学習プロセスと「苦い教訓」​

1. サットン氏が考える学習プロセス：経験的パラダイム​

A. 経験からの学習 (Learning from Experience)​

B. 模倣学習と教師あり学習の否定​

2. 「苦い教訓 (The Bitter Lesson)」とLLM批判​

A. LLMは「苦い教訓」の事例か​

B. LLMを初期設定として利用することへの批判​

C. スケーラブルな方法とは​

AI と未来​

1. サクセッションの不可避性（The Inevitable Succession）​

2. 宇宙における大いなる変遷：レプリケーターの時代からデザインの時代へ​

3. デジタル知能のダイナミクスと新たな課題​

A. 知識共有とスケーリング​

B. 腐敗（Corruption）とサイバーセキュリティの懸念​

4. 変化への対応と「苦い教訓」の再解釈​

Richard Sutton の強化学習（RL）の基本概念​

1. 知能の目的とRLの基本的な定義​

2. 経験と継続学習の重要性​

3. RLパラダイムの中核となる要素​

情報源​

前置き

コメント

要旨

目次

全体俯瞰

エグゼクティブ・サマリー

1. 強化学習（RL）と大規模言語モデル（LLM）の根本的対立

1.1. 学習パラダイムの違い：経験 vs. 模倣

1.2. ワールドモデルの欠如

1.3. 目標（ゴール）の不在

2. 「ビター・レッスン」の再解釈とスケーラビリティ

2.1. LLMは「ビター・レッスン」の事例か？

2.2. 真にスケーラブルな手法とは

3. 人間と動物の学習に関する考察

3.1. 模倣学習の役割の否定

3.2. 人間と動物の共通性の重視

4. 経験的パラダイムと継続的学習エージェント

4.1. 知能の基礎としての「ストリーム」

4.2. 長期目標の達成メカニズム

4.3. エージェントの4つの構成要素

5. 汎化（Generalization）の問題

6. AIの歴史と未来に関する哲学的展望

6.1. AI研究における驚きと確信

6.2. AI後継（AI Succession）の必然性

6.3. 宇宙における偉大な移行

RL（強化学習）の基本概念

1. 知能の目的とRLの基本的な定義

2. 経験と継続学習の重要性

3. RLパラダイムの中核となる要素

LLM への批判

1. 目標（Goal）と行動の「正しさ」の欠如

2. 真実（Ground Truth）とフィードバックの不在

3. 世界モデルと経験の理解の欠如

4. LLMを基盤とすることへの批判（ビター・レッスンの文脈）

学習プロセスと「苦い教訓」

1. サットン氏が考える学習プロセス：経験的パラダイム

A. 経験からの学習 (Learning from Experience)

B. 模倣学習と教師あり学習の否定

2. 「苦い教訓 (The Bitter Lesson)」とLLM批判

A. LLMは「苦い教訓」の事例か

B. LLMを初期設定として利用することへの批判

C. スケーラブルな方法とは

AI と未来

1. サクセッションの不可避性（The Inevitable Succession）

2. 宇宙における大いなる変遷：レプリケーターの時代からデザインの時代へ

3. デジタル知能のダイナミクスと新たな課題

A. 知識共有とスケーリング

B. 腐敗（Corruption）とサイバーセキュリティの懸念

4. 変化への対応と「苦い教訓」の再解釈

Richard Sutton の強化学習（RL）の基本概念

1. 知能の目的とRLの基本的な定義

2. 経験と継続学習の重要性

3. RLパラダイムの中核となる要素

情報源