Frieve(小林由幸) : このままAIが発展するだけでAGI達成可能な理由
前置き
先日は悲観的にな見通しを取り上げた(*1)ので、今回は楽観的な見通しを取り上げる。話者は SONY の AI 研究者(*2)。
(*1)
Andrej Karpathy : LLM とAIエージェントの現状と将来を語る
(*2)
ソニーグループポータル | 機械学習を誰もが使える当たり前の技術に https://www.sony.com/ja/SonyInfo/technology/stories/entries/2021_kobayashi/
要旨
AIのスケーリング則とAGI達成戦略
この動画の書き起こしは、AIの急速な発展がスケール則、すなわち計算リソースやデータ量などの資源を投入し続ければ性能が向上するという経験則に基づき、汎用人工知能(AGI)の達成が技術的なブレークスルーなしに可能であるという見解を解説しています。
話し手は、このスケール則によりAIの性能が人間を超越する可能性を指摘し、特にマルチモーダルAIのような多様なデータ種類を統合することで、さらなる飛躍的な進化が期待されると論じています。
研究開発者に対しては、将来的に巨大なAIモデルに置き換えられるであろう小手先の技術開発を避け、スケール則を活用するか、その恩恵を受ける応用開発に注力するよう推奨しています。ただし、資源の枯渇やコストの高騰といった限界についても触れつつ、AIの効率化技術の進展により、スケール則に基づく成長がしばらく継続するだろうと予測しています。
目次
- 前置き
- 要旨
- AIのスケール則とAGI達成への道筋
- AI性能を規定する「スケール則」:原理、発展、そしてAGIへの道筋
- AGI 達成の主要因 : スケール則
- AGI 実現に向け た課題と限界
- 研究開発とビジネス戦略
- 情報源
AIのスケール則とAGI達成への道筋
エグゼクティブサマリー
本ブリーフィングは、AI分野における「スケール則(Scaling Law)」が、汎用人工知能(AGI)の達成において中心的な役割を果たすという見解をまとめたものである。核心的な主張は、AGIの実現には新たな技術的ブレークスルーは不要であり、現在のディープラーニング技術の延長線上、すなわちAIモデルの規模(スケール)を拡大し続けることで十分に達成可能であるという点にある。
スケール則とは、計算資源(コンピュート)、学習データ量、モデルのパラメータ数を増大させると、AIの性能(誤差の低減)が予測可能な形で、かつ天井知らずに向上するという経験則である。この法則は、近年ではAIを構築する際の「学習時」リソースだけでなく、AIを利用する際の「推論時」リソース(思考時間や参照情報量)にも適用されることが判明しており、AIの能力向上をさらに加速させている。
特に重要な進展として「モーダルスケーリング」が挙げられる。これは、テキストや画像だけでなく、動画、音声、ロボットの動作データなど、多種多様なデータ(モダリティ)を統合して学習させるアプローチである。これにより、異なる種類の情報間で知識が相互補完され、AIはより汎用的で高度な能力を獲得し、物理世界とのインタラクションといった従来困難だったタスクの実現に道を開く。
スケーリング戦略の最大の課題は、指数関数的に増大するコストと資源(データ、電力)の制約である。しかし、この課題に対し、アルゴリズムやハードウェアの「効率化」も同時に進行しており、性能向上のペースは当面維持されると予測される。この状況は、かつてのムーアの法則と同様に、技術革新が限界を押し上げる構図を描き出している。
このパラダイムシフトは、AI研究開発者に対して戦略的な転換を迫る。特定のタスクに特化した小規模なAIや、細かなアルゴリズムの改善といった従来型の研究の多くは、将来的に巨大なスケールを持つ汎用AIに代替され、「無用の長物」となる可能性が高い。したがって、今後のAI開発における最も有効な戦略は、以下のいずれかに集約される。
- 巨大テック企業のように、スケールをさらに加速させるための基盤技術(効率化、資源配分最適化)開発に注力する。
- 大多数の研究者や開発者は、最先端の巨大AIモデルを「使いこなす」ことに専念し、応用分野で新たな価値を創出する。
結論として、スケール則はAGIへの最も確実な道筋を示しており、AIに関わるすべての関係者は、この巨大な潮流を前提とした戦略を立てることが極めて重要である。
1. AGI達成の鍵:スケール則
1.1. 技術的ブレークスルーは不要
AGIの実現を巡っては、現在のAI技術の延長線上で達成可能か、あるいは何らかの根本的な技術的ブレークスルーが必要かで研究者の間でも見解が分かれている。本稿の基調となる主張は前者であり、「現在の技術の延長線上でAGIは達成できる」というものである。その根拠となるのが「スケール則」という経験則の存在である。
「個人 的 な 見解 と し て は 何 ら 難しい こと なく 今 の 技術 の 延長 戦 上 で AGI 達成 でき ちゃ う って 思っ て ます。 で、 なん で そう 思う か って 言う と やっぱり 先ほど お 話し た スケール 速 です ね。」
1.2. スケール則の基本原理
スケール則(スケーリングロー)は、2017年頃からディープラーニングの世界で認知され始め、2020年には論文として定式化された経験則である。
基本式: L ≈ a * N^(-α) + b
| 変数 | 説明 |
|---|---|
| L (Loss) | AIの誤差。AIがどれだけ間違えるかを示す指標。 |
| N (Resources) | 投下される資源。AIのサイズ(パラメータ数)、学習データ量、計算量(コンピュート)など。 |
| α, a | モデルやデータによって決まる定数。αはグラフの傾き、aは切片に相当。 |
| b (Bayes Error) | 理論的な性能限界。本質的に解決不可能な曖昧さによる誤差。 |
この法則の要点は、AIに投下する資源(N)を増やせば増やすほど、誤差(L)が対数グラフ上で直線的に減少、つまりAIが賢くなり続けるという点にある。
ディープラーニング以前との違い: 従来の機械学習技術では、データを増やしても性能向上が比較的早い段 階で頭打ち(プラトー)になる傾向があった。しかし、ディープラーニングに基づく現代のAIは、理論的限界(b)に達するまで、資源を投入し続ける限り性能が向上し続けるという特性を持つ。これは、AIが人間の性能を超えても、さらに賢くなり続ける可能性を示唆するものである。
「この ディープ ライニング と いう の は 本当 に この 限界 この ベース 誤差 に 近づく まで どこ まで も 性能 が 上がる。 この 資源 を 与え て あげれ ば 与え て あげる だけ 性能 が 上がっ て い く って いう ところ が 全然 違う。」
2. スケール則の進化と多角化
当初のスケール則は、主にAIモデルの学習段階における資源に焦点を当てていたが、2022年から2024年にかけて、その概念は大きく拡張された。
2.1. 学習時から推論時への拡張
AIの性能は、モデルを構築する「学習時」だけでなく、実際にモデルを「利用(推論)する時」に投下する計算資源によっても向上することが明らかになった。
| 種類 | 内容 | 人間への例え |
|---|---|---|
| 推論時計算(反復探索) | 質問に対して即座に答えるのではなく、AIに「考える時間 」を与える。この時間が長いほど、回答の質が向上する。 | 難しい問題に対して、じっくり時間をかけて考える。 |
| 長いコンテキストウィンドウ / RAG | AIが回答を生成する際に、大量の外部情報を参照できるようにする。 | テストの際に、教科書やインターネットを参照する(オープンブック試験)。 |
これらの技術により、既存のAIモデルの性能を、推論時の工夫によってさらに引き上げることが可能になった。
2.2. モーダルスケーリング:能力の飛躍的拡大
スケール則における最も重要な進展の一つが、多種多様なデータ形式(モダリティ)を統合して学習させる「モーダルスケーリング」である。
- 対象モダリティ: テキスト、画像、音声、動画、3Dデータ、ロボットの動作データ、加速度・ジャイロセンサーデータなど。
- 相乗効果: 異なるモダリティのデータを同時に学習させることで、知識が相互に補完され、単一のモダリティで学習するよりも高い性能が発揮される。
- 例: 「月面で宇宙飛行士が馬に乗る」というテキスト(言語)から、対応する画像(視覚)を生成できる。これは言語と画像の概念がAI内部で結びついているために可能となる。
- 汎用性への貢献: このアプローチにより、AIは物理的な身体性や世界の構造をより深く 理解できるようになる。これにより、従来は専用AIが必要だったロボット制御や自動運転といったタスクも、巨大な汎用モデルで対応可能になると期待される。
- 課題: テキストや画像と異なり、ロボットのセンサーデータのような特殊なマルチモーダルデータを大量に収集することは、非常に手間とコストがかかる「泥臭い作業」である。
「マルチ モーダル モデル に なる と、 例えば 未来 の 何か を 予測 し て くださ いっ て 言っ た 時 に AI は それ を 映像 化 さ れ た 世界 で も 想像 し て、 しかも それ を 自分 の 中 で 反数 し て より 確か らしい 結果 に し て 返し て くれる こと が できる よう に なる。」
3. スケーリングのコストと持続可能性
スケール則に従うAIの性能向上は、膨大なコストと資源消費を伴う。
3.1. 指数関数的に増大するコスト
スケール則の傾き(α)は比較的小さく(例:0.08)、性能をわずかに向上させるためにも、莫大な資源の追加投入が必要となる。
- 性能向上とコスト: AIの誤差を半減させるためには、資源を約5,800倍に増やす必要がある。近年の年 間13%の性能向上でさえ、資源を毎年5.7倍にするペースが求められる。
- 地球規模の投資: AI専用の学習クラスターは、今や世界最速のスーパーコンピュータを凌駕する規模となっている。2030年までには、AI計算資源への累計投資額が7兆ドル(約1000兆円)規模に達するとの予測もある。
- 持続可能性への懸念: AIが必要とする電力消費量は年々増加しており、地球の資源的限界に達しつつあるという指摘がなされている。
3.2. 効率化による限界の克服
一方で、2025年頃には、単純な資源投入だけでなく、技術的な「効率化」が性能向上に大きく寄与していることが明らかになった。
- 効率化の要因: より少ない計算で学習できるアルゴリズム、電力効率の高い半導体ロジックなど、AI研究者による継続的な改善努力。
- 予測を上回る成長: この効率化のおかげで、AIの性能は当初のスケール則の予測を上回るペースで向上している。
- 成長の持続: この効率化のペースが今後も維持されれば、資源の限界が懸念されつつも、AIの指数関数的な成長はまだ数年続くと考えられる。
- 例: AIモデルのサイズは2018年から2025年(GPT-5)までの間に3万倍に増加した。これは1年半で10倍になるペースに相当し、生物の進化ではありえない速度である。
「単純 に どんどん 計算 資源 と か を 増やし てる だけ じゃ なく て、 いろんな 効率 化 の 技術 も 同時 に 開発 さ れ てる から な ん です よ ね。」
4. スケール則がもたらす課題と限界
スケール則は強力な指針であるが、万能ではなく、いくつかの限界や課題も存在する。
4.1. 資源のボトルネック
スケーリングを継続する上で、特定の資源が不足することが最大の障害となる。
- データの枯渇問題: AIの性能向上ペースが速すぎるため、学習に必要となる高品質なデータの生成が追いついていない。特にインターネット上のテキストデータは枯渇しつつあると言われている。
- 資源のミスマッチ: スケール則は、全ての資源(データ、計算量、パラメータ)がバランス良く供給されることを前提とする。どれか一つでも不足すると、それがボトルネックとなり全体の性能向上が阻害される。
4.2. その他の潜在的限界
| 限界の種類 | 内容 |
|---|---|
| 理論的限界(ベイズ誤差) | データに本質的に含まれる 曖昧さやノイズ。例えば、ある事象に対する人間の意見が分かれる場合、AIが全員を納得させる単一の正解を出すことは原理的に不可能。 |
| 演算精度の限界 | 計算の効率化のために演算精度を下げてきたが、これが将来的に性能の頭打ちの原因となる可能性がある。 |
| アーキテクチャの限界 | 現在主流のTransformerアーキテクチャが、世の中の全ての情報を効率的に表現できるとは限らない。未発見の情報を捉える新しいアーキテクチャが登場すれば、さらなる性能向上の可能性がある。 |
5. AI研究開発者への戦略的提言
スケール則の存在は、AI分野の研究開発のあり方を根本的に変える。
5.1. 「無用の長物」となる研究の回避
スケール則の進展により、これまで有効とされてきた多くのAI技術が陳腐化する可能性が高い。
- 代替される研究: 特定の課題を解決するために作られた特化型アルゴリズムや、小手先の工夫を凝らした技術の多くは、数年後にはより高性能な汎用AIに単純な指示を与えるだけで代替されてしまう。
- 例: かつてStable Diffusionで必要とされた複雑なプロンプトエンジニアリングや制御技術は、より新しい画像生成AIの登場で多くが不要になった。
- 避けるべき行動:
- 将来スケールで解決される問題に対し、特化型のアルゴリズムを開発しない。
- 資源配分の最適化を検討せず、安易に目先のアーキテクチャ改善に走らない。
「今 の AI の 限界 は ここ だっ て 今 の AI の 限界 だけ を 見 て その ため に は こんな コ 先 の 工夫 が 必要 です と かっ て 言っ て て も それ 2、 3 年 後 に は いら なく なっ てる ん です よ。」
5.2. 推奨される3つの道
AI研究開発者が取るべき道は、以下の3つに大別される。
| パス | 対象者 | 内容 |
|---|---|---|
| 1. スケールの推進 | 世界トップレベルの企業・研究機関 | スケールをより効率的に、スムーズに進めるための基盤研究(効率化、資源配分、データ収集など)に集中する。 |
| 2. 本質的限界の探求 | 一部の基礎研究者 | スケールだけでは解決できない本質的な問題(理論的限界など)を探求する。成功すれば大きなインパクトがあるが、困難な道。 |
| 3. 応用研究への集中 | 大多数の研究者・開発者 | 最も推奨される戦略。 巨大企業が開発した最先端のAIモデルを「道具」として徹底的に活用し、実用的なアプリケーションやサービスを開発して価値を創出する。 |
5.3. スケール則に乗るということ
「スケール則に乗る」とは、この巨大なパラダイムを前提とし、自身の研究開発をそれに最適化させることを意味する。
- AI研究者: 最新の巨大AIモデルを使いこなし、その能力の限界や新たな可能性を探求することに専念する。
- 他分野の研究者: 自身の専門分野の研究を加速・効率化するために、最先端AIを徹底的に活用する(コード生成、データ分析、論文執筆支援など)。
これは、創造性を放棄することではなく、AIという強力な増幅器を用いて、自らの能力を最大限に引き出すための現代的な研究開発スタイルである。
「AI 研究 開発 者 AI は とにかく 最新 の AI モデル の 使いこなし に 洗念 する。 一体 この 最新 の AI を 活用 すれ ば 何 が できる の か って いう の を 掘り まく る っていう の が 1 番 お すすめ です。」
AI性能を規定する「スケール則」:原理、発展、そしてAGIへの道筋
1. はじめに:AI開発の羅針盤となるスケール則
現代のAI開発パラダイムにおいて、「スケール則(Scaling Laws)」は中心的な羅針盤としての役割を担っています。かつてAIの性能向上は、画期的なアルゴリズムの発見といった予測不能なブレークスルーに依存すると考えられていました。しかしスケール則の発見は、その常識を覆しました。AIの性能は、投入される計算資源(コンピュート、データ、モデルサイズ)の量によって、驚くほど正確に予測可能であるという革命的な変化が起きたのです。この法則は、一部の研究者の経験則から、今や巨大AIモデル開発の戦略そのものを規定する基本原理へと昇華しました。
本解説書は、このAI開発の根幹をなす「スケール則」について、その基本的な定義から最新の発展 、そして内在する経済的・理論的な課題までを体系的に解説します。さらに、この巨大な潮流の中でAI技術者が取るべき戦略的指針を提示することを目的とします。
まずは、スケール則がどのような原理に基づいているのか、その基本的な定義と構成要素から掘り下げていきましょう。
2. スケール則の基本原理
スケール則とは、AIの性能を予測するための強力な経験則です。この法則は2017年頃からディープラーニングの研究者の間で認識され始め、2020年には明確な数式を伴う論文として定式化されました。その核心は、「AIモデルに投入する資源を増やせば増やすほど、その性能は予測可能な形で向上し続ける」という点にあります。
この単純な法則の発見は、AI研究の歴史における決定的な分岐点となりました。2017年から2020年にかけて、このスケール則の可能性に賭け、巨大なAIの学習に舵を切った研究者たちはその後大成功を収めました。一方で、小規模なモデルで「小手先の工夫」を重ねる従来の研究スタイルに留まった者たちは、スケールの圧倒的な力の前で成果が伸び悩み、後塵を拝することになったのです。このパラダイムシフトの認識こそが、現代AIを理解する第一歩となります。
2.1. スケール則の定義と数式
スケール則は、以下の数式によってシンプルに表現されます。これは、AIの性能(誤差の小ささ)が、投入資源の量にべき乗則で従うことを示しています。
L = a * N^(-α) + b
この数式の各要素は、次のように解説できます。
- L (ロス): AIの「誤差」を指します。つまり、「どれだけ間違えるか」を示す指標であり、この値が小さいほどAIの性能は高いと言えます。
- N (資源): AIの学習に投入される資源の総称です。具体的には、後述するモデルのパラメータ数、計算量、データセットサイズなどが含まれます。
- -α (スケーリング指数): 資源(N)の投入に対する性能向上の効率を示します。両対数グラフ上では、性能向上を示す直線の「傾き」に相当します。
- b (理論的限界/ベーズ誤差): これ以上は性能が向上しない、本質的な誤差の下限値です。例えば、人によって答えが異なる主観的な問題など、原理的に曖昧な問題が持つ誤差などがこれにあたります。
この数式が示す最も重要な点は、資源(N)を増やし続ける限り、理論的限界(b)に達するまで誤差(L)が予測可能に減少し続けるということです。
2.2. スケールを駆動する3つの主要資源
スケール則における主要な資源「N」は、主に以下の3つの要素から構成されます。これらは、人間の学習プロセスに例え ると直感的に理解できます。
- パラメータ (Parameters):
- AIの「脳のサイズ」に相当します。パラメータ数が多いほど、モデルはより複雑で解像度の高い知識を表現・記憶することができます。人間の脳のサイズには物理的な限界がありますが、AIはGPUメモリを増やすことで、原理的には際限なく脳のサイズを大きくできます。
- 計算量 (Compute):
- AIの「勉強時間」に例えられます。同じ教材(データ)と脳のサイズ(パラメータ)であっても、より多くの時間をかけて学習(計算)することで、知識の定着度や精度が向上します。人間の一生における勉強時間は限られていますが、AIは何千年分もの学習を短期間で実行可能です。
- データセットサイズ (Dataset Size):
- AIが利用する「教材の量」です。より多くの、そして多様な教材(データ)に触れることで、知識の幅と正確性が高まります。人間が一生で読める本の量には限りがありますが、AIはインターネット上の膨大なテキストや動画をすべて学習の糧とすることができます。
2.3. ディープラーニング以前との決定的差異
このスケール則の特性こそが、現代のディープラーニング技術を過去の機械学習手法と一線を画す決定的な要因となっています。旧来の機械学習手法でも、データを増や すと性能が向上する傾向は見られましたが、比較的早い段階で性能向上が頭打ちになる「天井」が存在しました。
一方で、ディープラーニングに基づくモデルは、理論的限界に限りなく近づくまで、資源を投入し続ける限り性能が向上し続けます。この「天井知らず」の特性が、人間を超える性能を持つ汎用人工知能(AGI)の実現可能性を強く示唆する根拠となっているのです。
3. スケール則の進化と拡張
初期のスケール則は、主にAIを構築する「学習時」に投入される資源に焦点を当てていました。しかし近年の研究では、この概念がAIを実際に利用する「推論時」の計算や、学習データの「種類(モダリティ)」にまで拡張され、性能向上を加速させる新たな道筋が拓かれています。
3.1. 学習時から推論時へ:実行時に賢くなるAI
新たに発見された重要なスケーリングの次元が「推論時計算(Inference-time Compute)」です。これは、学習済みのAIを実行する際に資源を投入することで、その場で性能を引き上げるアプローチです。人間が問題を解くプロセスに例えると分かりやすいでしょう。
- 反復 探索(考える時間): 質問に対して即答するのではなく、AIが内部で答えを何度も検証・精緻化する時間を与えることで、正解率が向上します。これは、私たちが難問に対して「少し考えさせてください」と時間をかけることで、より良い答えにたどり着くプロセスに似ています。最近のAIが質問後に「考えています…」と表示するのは、まさにこの原理を活用しているのです。
- 参照情報の拡張(オープンブックテスト): 長い文脈(コンテキストウィンドウ)を扱えるようにしたり、RAG(Retrieval-Augmented Generation)技術を用いたりすることで、AIは推論時に大量の外部情報を参照できます。これは、テストを受ける際に自分の記憶だけを頼りにするのではなく、教科書やインターネットを自由に参照できる「オープンブックテスト」のようなものです。参照できる情報が多いほど、より正確で詳細な回答を生成できます。
3.2. モーダルスケーリング:次なるフロンティア
スケール則の最もエキサイティングな進化が「モーダルスケーリング」です。これは、AIの汎用性を飛躍的に高める鍵となります。「モーダル」とはデータの種類を指し、モーダルスケーリングとは、テキスト、画像、音声、動画、3Dデータ、ロボットの動作といった多種多様なデータを同時に学習させるアプローチです。
この手法の強 力さは、単に扱えるデータの種類が増えること以上に、異なるモーダル間の相互補完関係にあります。例えば、言語モデルが「月」や「馬」、「宇宙飛行士」という概念をテキストと画像の双方から学習することで、「月面で馬に乗る宇宙飛行士」という、現実には存在しない新しい概念を画像として創造できるようになります。
さらに重要なのは、これがAIに豊かな内部「思考」プロセスをもたらす点です。マルチモーダルAIは、ある問いに対して、頭の中で未来の出来事を映像としてシミュレートし、その結果を言語化して回答を生成するといった、モーダルを横断した高度な推論が可能になります。これは、単一モーダルの学習では到達できない抽象的レベルでの理解であり、物理世界を理解する「世界モデル」や、人間のように様々なタスクをこなすAGIの実現に不可欠な要素です。
4. スケーリングの経済的現実と持続可能性
スケール則はAIの性能向上を約束する一方で、その裏には指数関数的に増大するコストという厳しい現実が存在します。この経済的・物理的な持続可能性は、AI開発における重大な課題となっています。