AI News

Google、Gemini 3 Deep ThinkとAletheiaで科学的発見を再定義

Google DeepMindが、人類の最も複雑な科学的課題を解決することを目的とした画期的な進歩のスイートを公開したことで、今週、人工知能の展望が劇的に変化しました。このリリースの最前線にあるのは、推論時スケーリング(inference-time scaling)を活用して競合他社を凌駕するアップグレードされた推論モデルであるGemini 3 Deep Thinkと、数学オリンピック(Math Olympiad)の問題解決から自律的で出版可能な研究の生成へと見事に移行した専門のAIエージェントであるAletheiaです。

この二重のリリースは、AIが単なる補助を超えて独立した発見の領域へと移行する極めて重要な瞬間を象徴しており、確立されたベンチマークに挑戦し、理論物理学(theoretical physics)、高度な数学、および創薬において自律エージェントが達成できることの新しい基準を打ち立てました。

Gemini 3 Deep Think:「より長く考える」技術の習得

これらの新しい機能の中核にあるのは、強化された**Gemini 3 Deep Think**です。Googleは、モデルの推論モードを根本的に再設計し、「推論時スケーリング」として知られる手法に焦点を当てました。このアプローチにより、モデルはクエリフェーズ中により多くの計算リソースを割り当て、回答を決定する前に複数の推論パスを探索するために、事実上「より長く考える」ことが可能になります。

このアーキテクチャの転換の結果は驚異的です。直接の比較において、Gemini 3 Deep Thinkは、OpenAIのGPT-5.2やAnthropicのClaude Opus 4.6を含む主要な競合他社を、さまざまな厳格なベンチマークで凌駕したと報告されています。このモデルの習熟度は、深い論理的演繹とマルチモーダルな理解を必要とするタスクで特に顕著です。

パフォーマンスのハイライト:

  • ARC-AGI-2: 抽象的推論を必要とする視覚的パズルでトップレベルのスコアを達成。
  • CMT-Benchmark: 理論物理学で50.5%を記録し、複雑な科学的概念の深い理解を実証。
  • 効率性: 2026年1月のDeep Thinkのイテレーションは、2025年の前身と比較して、オリンピックレベルの問題に必要な計算量を100分の1に削減しました。

この効率性の向上は極めて重要です。モデルが情報を処理する方法を最適化することで、Googleは高度な推論を実用的なアプリケーションで利用可能にし、エンジニアがコードを通じて物理システムをモデル化したり、研究者が膨大で不完全なデータセットを解釈したりすることを可能にしました。

Aletheia:最初の真のAI数学者

Gemini 3 Deep Thinkが推論のバックボーンを提供する一方で、**Aletheia**はこの力の専門的な応用を体現しています。競技数学と専門的な研究の間の「評価のギャップ」を埋めるように設計されたAletheiaは、オープンエンドな数学的問題の曖昧さをナビゲートできるAIエージェントです。

Unlike traditional solvers that excel at well-defined questions, Aletheia operates through a sophisticated Agentic Loop(エージェンティック・ループ). This architecture mimics the workflow of a human mathematician, breaking the problem-solving process into distinct phases.

エージェンティック・アーキテクチャ

精度を確保し、大規模言語モデル(Large Language Models: LLMs)に共通する「ハルシネーション(hallucinations)」を減らすために、Aletheiaは三部構成のシステムを採用しています。

  1. 生成器(Generator): 与えられた研究問題に対して候補となる解決策と証明戦略を提案します。
  2. 検証器(Verifier): 提案に論理的な欠陥や引用の誤りがないかを精査する、非公式な自然言語メカニズムです。
  3. 修正器(Reviser): 出力が厳格な論理基準を満たすまで、検証器によって特定されたエラーを反復的に修正します。

この職務の分離により、システムは自らの間違いを察知できるようになりました。これは、以前は形式科学におけるAIにとって大きな障害でした。さらに、AletheiaはGoogle検索を利用して引用を確認し、ソースを捏造するのではなく、現実世界の数学文献を参照することを保証します。

ベンチマークの歴史:Aletheia vs. 既存分野

Aletheiaのエージェンティック・アプローチの影響は、自動化された数学的推論のゴールドスタンダードとされるベンチマーク、IMO-ProofBench Advancedにおけるそのパフォーマンスによって最もよく説明されます。

表1:数学的ベンチマークにおける比較パフォーマンス

ベンチマーク 従来のSOTA Aletheiaのパフォーマンス 改善係数
IMO-ProofBench Advanced 65.7% 95.1% +29.4%
FutureMath Basic (PhDレベル) < 60% (推定) 最先端(State-of-the-Art) 大幅な飛躍
Erdősの未解決問題 0件解決 4件を自律的に解決 無限の利得

IMO-ProofBench Advancedにおける95.1%の精度への飛躍は、単なる漸進的な改善ではありません。これは、AIが以前はエリートの人間の専門家のみに限定されていたレベルの証明ベースの数学を、現在では確実に処理できることを示唆するパラダイムシフトです。

解決不可能な問題を解く:自律的な研究の突破口

Aletheiaの能力の真の試練は、試験に合格することではなく、新しい知識を生成することにあります。**Google DeepMind**は、このエージェントがすでに数学の分野でいくつかの「初」を達成したと報告しています。

最も注目すべきは、Aletheiaが算術幾何学における「固有重み(eigenweights)」として知られる構造定数を計算する、Feng26と呼ばれる研究論文を自律的に生成したことです。この論文は人間の介入なしに作成され、「レベルA2」の自律性(本質的に自律的で出版可能な品質)に分類されています。

さらに、多産なポール・エルデシュ(Paul Erdős)によって提示された未解決の数学的問題のリストである有名な**Erdős conjectures**(エルデシュ予想)に投入された際、Aletheiaは63の技術的に正しい解を発見し、以前は未解決だった4つの問題を完全に解決しました。人間の知識体系に独自の真実を寄与するこの能力は、科学者の協力パートナーとしてのこのモデルの可能性を裏付けています。

数学を超えて:IsoDDEによる創薬の加速

Gemini 3 Deep Thinkの進歩は、抽象的な数学を超えて、生化学という具体的な世界にまで及んでいます。Aletheiaと並んで、Googleはその子会社であるIsomorphic Labsから新しいツール**IsoDDE**(Isomorphic Drug Design Engine)を発表しました。

IsoDDEはAlphaFoldの遺産に基づいて構築されており、予測精度においてAlphaFold 3を2倍上回っています。その主な突破口は、かつてない精度で薬物の**結合親和性(binding affinity)**を予測できる能力です。薬物分子が付着できるタンパク質構造内の隠れた「ポケット」を特定することにより、IsoDDEは抗体や巨大な生物学的構造を含む複雑な生物学的システムの治療法を設計するためのスケーラブルなフレームワークを提供します。

AI自律性の新しい基準の定義

これらのリリースに伴い、Google DeepMindはAIの寄与を分類するための標準化された方法も推進しています。同社は、自律走行車に使用されるレベルをモデルにした、新しい**AI自律性の分類学(Taxonomy for AI Autonomy)**を提案しました。

  • レベル0(主に人間): AIによる新規性は無視できる程度(例:標準的なオリンピック・ソルバー)。
  • レベル1(協働): AIが「全体像」の戦略を提供するが、人間が厳格な証明を行う。
  • レベル2(本質的に自律的): AIが最小限または全く人間の監視なしに出版可能な研究を生成する(例:Feng26論文)。

このフレームワークは、単に情報を検索するAIと、それを創造するAIを区別するために必要な用語を業界に提供します。Gemini 3 Deep ThinkとAletheiaが科学誌にその知見を掲載し始めるにつれ、人間と機械による発見の境界線はますます曖昧になり、イノベーションが加速する新しい時代の到来を告げることになるでしょう。

フィーチャー