
マサチューセッツ工科大学(MIT)の研究者による画期的な研究が昨日発表され、機械学習評価の基本的な前提に異議を唱えました。集計指標(aggregated metrics)に基づいて「最先端(state-of-the-art)」と広く見なされているモデルが、新しい環境に展開された際に壊滅的に失敗することが明らかになりました。
この研究はNeural Information Processing Systems(NeurIPS 2025)で発表され、2026年1月20日にMIT Newsで公開されました。研究は、現在のAIシステムのベンチマーク方法における重大な脆弱性を暴露します。Associate Professor Marzyeh GhassemiとPostdoc Olawale Salaudeenが率いるチームは、上位の性能を示すモデルがしばしば偽の相関(spurious correlations)—データ内の隠れた近道—に依存しており、医療診断やヘイトスピーチ検出のような実世界の応用で信頼できず危険になる可能性があることを実証しました。
長年にわたり、AIコミュニティは「ライン上の精度(accuracy-on-the-line)」の仮定のもとで運用してきました。この原則は、モデル群が訓練データ(分布内(in-distribution))での性能に基づいてベストからワーストへランク付けされると、そのランクは新しい未見データ(分布外(out-of-distribution))に適用しても維持されるというものです。
MITチームの発見はこの仮定を実質的に粉砕しました。彼らの分析は、平均精度(average accuracy)が高いことが特定のサブポピュレーションにおける重大な失敗を覆い隠すことが多いことを示しています。驚くべきケースのいくつかでは、元の訓練データで「ベスト」と判断されたモデルが、新しいデータの6~75パーセントで最悪の性能を示したことが判明しました。
「大量のデータでモデルを訓練し、平均で最良のモデルを選んだとしても、新しい設定ではその『最良モデル』が最悪のモデルになり得ることを示しています」と、Laboratory for Information and Decision Systems(LIDS)の主要研究者であるMarzyeh Ghassemiは述べています。
これらの発見の影響は、アルゴリズムの信頼性が生死に関わる医療分野で最も深刻です。研究者たちは、胸部X線から病変(pathologies)を診断するために訓練されたモデルを調査しました。これは医療におけるコンピュータビジョン(computer vision)の標準的な応用です。
モデルは平均では堅牢に見えましたが、詳細な分析により、それらが本当の解剖学的特徴ではなく「偽の相関(spurious correlations)」に依存していることが明らかになりました。例えば、モデルは特定の病院の放射線マークを病気の有病率と結び付けることを学習してしまい、そうした特定のマークがない別の病院のX線に適用すると予測性能が崩壊しました。
医用画像における主要な発見:
この体系的な失敗に対処するため、研究チームはOODSelect(Out-of-Distribution Select)と呼ばれる新しいアルゴリズム的アプローチを開発しました。このツールは、「ライン上の精度(accuracy-on-the-line)」の仮定が破綻するデータのサブセットを特定することにより、モデルをストレステストするよう設計されています。
筆頭著者のOlawale Salaudeenは、目標はモデルに便利な統計的近道ではなく因果関係を学習させることだと強調しました。「我々はモデルに患者の解剖学的特徴を見てからそれに基づいて判断することを学んでほしい」とSalaudeenは述べました。「しかし実際には、決定と相関しているデータ内のあらゆるものがモデルに利用され得ます。」
OODSelectは「最も誤算された例」を分離することで機能し、開発者が分類が難しいエッジケースと偽の相関による真の失敗とを区別できるようにします。
評価手法の比較:
| Metric Type | Traditional Aggregated Evaluation | OODSelect Evaluation |
|---|---|---|
| Focus | データセット全体にわたる平均精度(average accuracy) | 特定の脆弱なサブポピュレーションでの性能 |
| Assumption | ランキングの保持(Accuracy-on-the-line) | ランキングの破壊(BestがWorstになり得る) |
| Risk Detection | 低(少数派の失敗を覆い隠す) | 高(偽の相関を浮き彫りにする) |
| Outcome | 一般的なベンチマークに最適化 | 堅牢性と信頼性に最適化 |
| Application | 初期モデル選定 | 展開前の安全性監査 |
研究は医用画像を強く参照しましたが、研究者はがん組織病理学やヘイトスピーチ検出など他の重要な領域でも発見を検証しました。テキスト分類タスクでは、モデルはトレーニングデータで有毒性と相関する特定のキーワードや言語パターンにしがちであり、異なるオンラインコミュニティや文脈におけるヘイトスピーチの微妙さを捉えられないことが多々ありました。
この現象は、AIにおける「信頼性」危機がハイリスクな物理的ドメインに限られた問題ではなく、深層学習モデルが相関と因果をどのように取り込むかに内在する問題であることを示唆しています。
この研究の公開は、AI安全基準にとって転換点となります。MITチームはOODSelectのコードを公開し、コミュニティがより堅牢なベンチマークを構築するのに役立つ特定のデータサブセットを特定しました。
研究者らは、特に規制された産業で機械学習モデルを展開する組織に対し、集計統計に依存するのをやめることを勧めています。代わりに、モデルが失敗するサブポピュレーションを積極的に探し出す厳密な評価プロセスを採用することを提唱しています。
AIシステムが重要なインフラにますます統合されるにつれて、「成功した」モデルの定義は変化しています。リーダーボードで最高スコアを達成するだけではもはや十分ではありません。新しい卓越性の基準は、分布の変化に関係なく、すべてのユーザーに対して、あらゆる環境で信頼できるモデルであることを要求しています。