MITの研究者が分布外シナリオにおける機械学習モデルの重大な失敗を特定

MITの研究、機械学習における「ライン上の精度（accuracy-on-the-line）」仮定を覆す

マサチューセッツ工科大学（MIT）の研究者による画期的な研究が昨日発表され、機械学習評価の基本的な前提に異議を唱えました。集計指標（aggregated metrics）に基づいて「最先端（state-of-the-art）」と広く見なされているモデルが、新しい環境に展開された際に壊滅的に失敗することが明らかになりました。

この研究はNeural Information Processing Systems（NeurIPS 2025）で発表され、2026年1月20日にMIT Newsで公開されました。研究は、現在のAIシステムのベンチマーク方法における重大な脆弱性を暴露します。Associate Professor Marzyeh GhassemiとPostdoc Olawale Salaudeenが率いるチームは、上位の性能を示すモデルがしばしば偽の相関（spurious correlations）—データ内の隠れた近道—に依存しており、医療診断やヘイトスピーチ検出のような実世界の応用で信頼できず危険になる可能性があることを実証しました。

「Best-to-Worst」逆説

長年にわたり、AIコミュニティは「ライン上の精度（accuracy-on-the-line）」の仮定のもとで運用してきました。この原則は、モデル群が訓練データ（分布内（in-distribution））での性能に基づいてベストからワーストへランク付けされると、そのランクは新しい未見データ（分布外（out-of-distribution））に適用しても維持されるというものです。

MITチームの発見はこの仮定を実質的に粉砕しました。彼らの分析は、平均精度（average accuracy）が高いことが特定のサブポピュレーションにおける重大な失敗を覆い隠すことが多いことを示しています。驚くべきケースのいくつかでは、元の訓練データで「ベスト」と判断されたモデルが、新しいデータの6～75パーセントで最悪の性能を示したことが判明しました。

「大量のデータでモデルを訓練し、平均で最良のモデルを選んだとしても、新しい設定ではその『最良モデル』が最悪のモデルになり得ることを示しています」と、Laboratory for Information and Decision Systems（LIDS）の主要研究者であるMarzyeh Ghassemiは述べています。

医療AI：ハイリスクのケーススタディ

これらの発見の影響は、アルゴリズムの信頼性が生死に関わる医療分野で最も深刻です。研究者たちは、胸部X線から病変（pathologies）を診断するために訓練されたモデルを調査しました。これは医療におけるコンピュータビジョン（computer vision）の標準的な応用です。

モデルは平均では堅牢に見えましたが、詳細な分析により、それらが本当の解剖学的特徴ではなく「偽の相関（spurious correlations）」に依存していることが明らかになりました。例えば、モデルは特定の病院の放射線マークを病気の有病率と結び付けることを学習してしまい、そうした特定のマークがない別の病院のX線に適用すると予測性能が崩壊しました。

医用画像における主要な発見：

全体的な診断性能が向上しているように見えるモデルは、実際には胸水（pleural effusions）や心胸郭拡大（enlarged cardiomediastinum）のような特定の状態を持つ患者に対してより悪い性能を示しました。
偽の相関はモデルに強固に埋め込まれており、単にデータを増やすだけではモデルが誤った特徴を学習するリスクは軽減されませんでした。
年齢、性別、人種などの人口統計学的要因が医療所見と偽に相関することが多く、偏った意思決定につながっていました。

OODSelect：新しい評価パラダイムの導入

この体系的な失敗に対処するため、研究チームはOODSelect（Out-of-Distribution Select）と呼ばれる新しいアルゴリズム的アプローチを開発しました。このツールは、「ライン上の精度（accuracy-on-the-line）」の仮定が破綻するデータのサブセットを特定することにより、モデルをストレステストするよう設計されています。

筆頭著者のOlawale Salaudeenは、目標はモデルに便利な統計的近道ではなく因果関係を学習させることだと強調しました。「我々はモデルに患者の解剖学的特徴を見てからそれに基づいて判断することを学んでほしい」とSalaudeenは述べました。「しかし実際には、決定と相関しているデータ内のあらゆるものがモデルに利用され得ます。」

OODSelectは「最も誤算された例」を分離することで機能し、開発者が分類が難しいエッジケースと偽の相関による真の失敗とを区別できるようにします。

評価手法の比較：

Metric Type	Traditional Aggregated Evaluation	OODSelect Evaluation
Focus	データセット全体にわたる平均精度（average accuracy）	特定の脆弱なサブポピュレーションでの性能
Assumption	ランキングの保持（Accuracy-on-the-line）	ランキングの破壊（BestがWorstになり得る）
Risk Detection	低（少数派の失敗を覆い隠す）	高（偽の相関を浮き彫りにする）
Outcome	一般的なベンチマークに最適化	堅牢性と信頼性に最適化
Application	初期モデル選定	展開前の安全性監査

医療を超えて：普遍的な示唆

研究は医用画像を強く参照しましたが、研究者はがん組織病理学やヘイトスピーチ検出など他の重要な領域でも発見を検証しました。テキスト分類タスクでは、モデルはトレーニングデータで有毒性と相関する特定のキーワードや言語パターンにしがちであり、異なるオンラインコミュニティや文脈におけるヘイトスピーチの微妙さを捉えられないことが多々ありました。

この現象は、AIにおける「信頼性」危機がハイリスクな物理的ドメインに限られた問題ではなく、深層学習モデルが相関と因果をどのように取り込むかに内在する問題であることを示唆しています。

AI信頼性の今後の方向性

この研究の公開は、AI安全基準にとって転換点となります。MITチームはOODSelectのコードを公開し、コミュニティがより堅牢なベンチマークを構築するのに役立つ特定のデータサブセットを特定しました。

研究者らは、特に規制された産業で機械学習モデルを展開する組織に対し、集計統計に依存するのをやめることを勧めています。代わりに、モデルが失敗するサブポピュレーションを積極的に探し出す厳密な評価プロセスを採用することを提唱しています。

AIシステムが重要なインフラにますます統合されるにつれて、「成功した」モデルの定義は変化しています。リーダーボードで最高スコアを達成するだけではもはや十分ではありません。新しい卓越性の基準は、分布の変化に関係なく、すべてのユーザーに対して、あらゆる環境で信頼できるモデルであることを要求しています。