Google DeepMindの先駆者デイビッド・シルバー、超知能スタートアップ設立のため退社

AIの新時代：David SilverがDeepMindを離れ「Ineffable」超知能を追求

人工知能の状況にとって地殻変動とも言える出来事として、AlphaGoの主任研究者でありGoogle DeepMindの中核的人物であるDavid Silverが、独立した新しいベンチャー、Ineffable Intelligenceを立ち上げるために退任を発表しました。金曜日に確認されたこの動きは、大手テック企業からの最近の有名な退職の一例であり、生成式AI（Generative AI）から自律的で目標志向の超知能の追求へと業界がシフトしつつあることを示しています。

Silverは「AlphaGoの父」と広く見なされており、DeepMindで十年以上を過ごしました。そこでの彼の強化学習（Reinforcement Learning） (RL) に関する研究は、この分野の軌跡を根本的に変えました。彼の新しいスタートアップは、現在業界が熱狂している大規模言語モデル（Large Language Models、LLMs）への執着を回避し、代わりに「アルバータ学派（Alberta School）」の哲学に賭けます。すなわち、相互作用と報酬から学ぶエージェントだけが真の人工汎用知能（Artificial General Intelligence、AGI）へ到達する唯一の実行可能な道である、という考え方です。

言語の限界とIneffable Intelligenceの台頭

Silverの新研究所名であるIneffable Intelligenceは、現状への直接的な哲学的挑戦を意味します。現在のAIブームは人間の言語をマスターするシステム、すなわち系列内の次の単語を確率的に予測するシステムによって牽引されていますが、Silverの主張は、知性の最も重要な側面は「言語化できない（ineffable）」ものであり、言語だけでは捉えられない、というものです。

「言語は経験の圧縮であり、経験そのものではない」とSilverは発表後の記者会見で述べました。「超知能に到達するためには、AlphaZeroが行ったのと同様に、試行錯誤と発見を通じて基礎から学ぶエージェントを構築しなければなりません。私たちは静的なデータセットの時代を越え、無限の経験の時代へと移行しています。」

このスタートアップは、チャットボットや生成メディアではなく、長期計画と新たな科学的発見が可能な**強化学習（Reinforcement Learning、RL）**エージェントに専念する意向です。これはSilverの有名な2021年の論文、Reward is Enough が主張した「報酬最大化こそがすべての知的行動の出現を説明するのに十分である」という考えと一致します。

分岐する道：「Neolab」トレンド

Silverの退任は、最先端の研究者たちが統合された企業ラボを離れ、機敏でミッションドリブンなスタートアップを立ち上げる、いわゆる「neolab」現象の一部です。このトレンドは、どの道が最善かについてAIコミュニティが分裂していることを反映しています。OpenAIやGoogleのような企業がトランスフォーマーをスケールすることに注力する一方で、Silverや元OpenAIチーフサイエンティストのIlya Sutskeverのような研究者は、代替的なアーキテクチャに賭けています。

Ineffable Intelligenceは、ロンドンやサンフランシスコで出現しているエリート研究ラボの増加するグループに加わり、現在LLMsが抱える推論と信頼性のボトルネックを解決することを目指しています。

Table: The Strategic Divide in Modern AI Development

Feature	Generative AI (LLMs)	Reinforcement Learning (RL)
Core Objective	Predict the next token in a sequence	Maximize cumulative future reward
Learning Source	Static datasets (internet text/images)	Dynamic interaction with environments
Capabilities	Summarization, translation, content creation	Planning, strategy, novel discovery
Limitations	Hallucinations, lack of true grounding	High computational cost for simulation
Primary Goal	Human-mimicry	Superhuman optimization

アルバータ学派の影響

David Silverのアプローチは、彼の師であるRichard Suttonの影響を受けた「アルバータ学派（Alberta School）」に深く根ざしています。この学派は、人手でラベル付けされたデータに依存しない「計算上スケーラブル」な手法を重視します。

Google DeepMind在職中、Silverはこれらの原則を適用してAlphaGoを作り上げました。AlphaGoは2016年に世界チャンピオンのLee Sedolを破って世界を驚かせ、その後、人間の棋譜から学ぶことなくチェス、将棋、囲碁を制したAlphaZeroやMuZeroへと続きました。Ineffable Intelligenceは、MuZero方式の計画アルゴリズムを材料科学、数学、ロボティクスなど「地上の真実（ground truth）」のフィードバックが得られる実世界ドメインへと押し進めることが期待されています。

業界への影響

Ineffable Intelligenceの結成は、次のAI覇権争いが誰が最大のテキストコーパスを持つかではなく、誰がエージェントが学習するための最も効果的な環境を構築できるかで争われることを示唆します。

「システム2」思考へのシフト： LLMは「システム1」思考（速く直感的な応答）に優れていますが、SilverのRLアプローチは複雑な工学的・医療的問題を解くために不可欠な「システム2」思考（遅く、熟慮された推論と探索）をターゲットにしています。
データ壁の解決： 業界では高品質な人間のテキストデータが枯渇しつつあると警告されていますが、RLエージェントは自己対戦やシミュレーションを通じて自らデータを生成するため、理論的には無限にスケール可能です。
人材の移動： Silverの名声は主要ラボから多くのRL専門家を惹きつけると見られており、意思決定理論や制御システムに熟練した研究者を巡る人材争奪戦を引き起こす可能性があります。

結論

David Silverの退任は単なる人事異動以上の意味を持ち、分野の未来に対する意志表明でもあります。Ineffable Intelligenceに賭けることで、Silverは超知能への道はインターネット全体を読み尽くすことではなく、シミュレートされた世界であれ現実世界であれ、世界を経験し、報酬を一つずつ積み重ねてそれを習得することにあると主張しています。AIの盛り上がりが成熟するにつれ、強化学習が言語モデルが約束したがまだ完全には達成していない推論能力を実現できるかどうか、業界は注視していくでしょう。