AI News

MITの研究、機械学習における「ライン上の精度(accuracy-on-the-line)」仮定を覆す

マサチューセッツ工科大学(MIT)の研究者による画期的な研究が昨日発表され、機械学習評価の基本的な前提に異議を唱えました。集計指標(aggregated metrics)に基づいて「最先端(state-of-the-art)」と広く見なされているモデルが、新しい環境に展開された際に壊滅的に失敗することが明らかになりました。

この研究はNeural Information Processing Systems(NeurIPS 2025)で発表され、2026年1月20日にMIT Newsで公開されました。研究は、現在のAIシステムのベンチマーク方法における重大な脆弱性を暴露します。Associate Professor Marzyeh GhassemiとPostdoc Olawale Salaudeenが率いるチームは、上位の性能を示すモデルがしばしば偽の相関(spurious correlations)—データ内の隠れた近道—に依存しており、医療診断やヘイトスピーチ検出のような実世界の応用で信頼できず危険になる可能性があることを実証しました。

「Best-to-Worst」逆説

長年にわたり、AIコミュニティは「ライン上の精度(accuracy-on-the-line)」の仮定のもとで運用してきました。この原則は、モデル群が訓練データ(分布内(in-distribution))での性能に基づいてベストからワーストへランク付けされると、そのランクは新しい未見データ(分布外(out-of-distribution))に適用しても維持されるというものです。

MITチームの発見はこの仮定を実質的に粉砕しました。彼らの分析は、平均精度(average accuracy)が高いことが特定のサブポピュレーションにおける重大な失敗を覆い隠すことが多いことを示しています。驚くべきケースのいくつかでは、元の訓練データで「ベスト」と判断されたモデルが、新しいデータの6~75パーセントで最悪の性能を示したことが判明しました。

「大量のデータでモデルを訓練し、平均で最良のモデルを選んだとしても、新しい設定ではその『最良モデル』が最悪のモデルになり得ることを示しています」と、Laboratory for Information and Decision Systems(LIDS)の主要研究者であるMarzyeh Ghassemiは述べています。

医療AI:ハイリスクのケーススタディ

これらの発見の影響は、アルゴリズムの信頼性が生死に関わる医療分野で最も深刻です。研究者たちは、胸部X線から病変(pathologies)を診断するために訓練されたモデルを調査しました。これは医療におけるコンピュータビジョン(computer vision)の標準的な応用です。

モデルは平均では堅牢に見えましたが、詳細な分析により、それらが本当の解剖学的特徴ではなく「偽の相関(spurious correlations)」に依存していることが明らかになりました。例えば、モデルは特定の病院の放射線マークを病気の有病率と結び付けることを学習してしまい、そうした特定のマークがない別の病院のX線に適用すると予測性能が崩壊しました。

医用画像における主要な発見:

  • 全体的な診断性能が向上しているように見えるモデルは、実際には胸水(pleural effusions)や心胸郭拡大(enlarged cardiomediastinum)のような特定の状態を持つ患者に対してより悪い性能を示しました。
  • 偽の相関はモデルに強固に埋め込まれており、単にデータを増やすだけではモデルが誤った特徴を学習するリスクは軽減されませんでした。
  • 年齢、性別、人種などの人口統計学的要因が医療所見と偽に相関することが多く、偏った意思決定につながっていました。

OODSelect:新しい評価パラダイムの導入

この体系的な失敗に対処するため、研究チームはOODSelect(Out-of-Distribution Select)と呼ばれる新しいアルゴリズム的アプローチを開発しました。このツールは、「ライン上の精度(accuracy-on-the-line)」の仮定が破綻するデータのサブセットを特定することにより、モデルをストレステストするよう設計されています。

筆頭著者のOlawale Salaudeenは、目標はモデルに便利な統計的近道ではなく因果関係を学習させることだと強調しました。「我々はモデルに患者の解剖学的特徴を見てからそれに基づいて判断することを学んでほしい」とSalaudeenは述べました。「しかし実際には、決定と相関しているデータ内のあらゆるものがモデルに利用され得ます。」

OODSelectは「最も誤算された例」を分離することで機能し、開発者が分類が難しいエッジケースと偽の相関による真の失敗とを区別できるようにします。

評価手法の比較:

Metric Type Traditional Aggregated Evaluation OODSelect Evaluation
Focus データセット全体にわたる平均精度(average accuracy) 特定の脆弱なサブポピュレーションでの性能
Assumption ランキングの保持(Accuracy-on-the-line) ランキングの破壊(BestがWorstになり得る)
Risk Detection 低(少数派の失敗を覆い隠す) 高(偽の相関を浮き彫りにする)
Outcome 一般的なベンチマークに最適化 堅牢性と信頼性に最適化
Application 初期モデル選定 展開前の安全性監査

医療を超えて:普遍的な示唆

研究は医用画像を強く参照しましたが、研究者はがん組織病理学やヘイトスピーチ検出など他の重要な領域でも発見を検証しました。テキスト分類タスクでは、モデルはトレーニングデータで有毒性と相関する特定のキーワードや言語パターンにしがちであり、異なるオンラインコミュニティや文脈におけるヘイトスピーチの微妙さを捉えられないことが多々ありました。

この現象は、AIにおける「信頼性」危機がハイリスクな物理的ドメインに限られた問題ではなく、深層学習モデルが相関と因果をどのように取り込むかに内在する問題であることを示唆しています。

AI信頼性の今後の方向性

この研究の公開は、AI安全基準にとって転換点となります。MITチームはOODSelectのコードを公開し、コミュニティがより堅牢なベンチマークを構築するのに役立つ特定のデータサブセットを特定しました。

研究者らは、特に規制された産業で機械学習モデルを展開する組織に対し、集計統計に依存するのをやめることを勧めています。代わりに、モデルが失敗するサブポピュレーションを積極的に探し出す厳密な評価プロセスを採用することを提唱しています。

AIシステムが重要なインフラにますます統合されるにつれて、「成功した」モデルの定義は変化しています。リーダーボードで最高スコアを達成するだけではもはや十分ではありません。新しい卓越性の基準は、分布の変化に関係なく、すべてのユーザーに対して、あらゆる環境で信頼できるモデルであることを要求しています。

フィーチャー
ThumbnailCreator.com
AI搭載のツールで、美しくプロフェッショナルなYouTubeサムネイルを素早く簡単に作成できます。
Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
VoxDeck
視覚革命をリードするAIプレゼンテーションメーカー
BGRemover
SharkFoto BGRemoverでオンラインで簡単に画像の背景を削除できます。
Qoder
Qoderは、ソフトウェアプロジェクトの計画、コーディング、テストを自動化するAI駆動のコーディングアシスタントです。
FixArt AI
FixArt AI はサインアップ不要で、無料かつ制限なしの画像・動画生成用AIツールを提供します。
Elser AI
テキストと画像をアニメ風アート、キャラクター、音声、短編映画に変換するオールインワンのウェブスタジオ。
FineVoice
文字を感情に変える — 数秒で表現力豊かなAIボイスをクローン、デザイン、作成しよう。
Flowith
Flowithは、無料の🍌Nano Banana Proやその他の効果的なモデルを提供するキャンバスベースのエージェント型ワークスペースです...
Skywork.ai
Skywork AIは、生産性を向上させるための革新的なAIツールです。
SharkFoto
SharkFoto は、動画、画像、音楽を効率的に作成・編集するためのオールインワンの AI 搭載プラットフォームです。
Funy AI
想像をアニメに!画像やテキストからAIでビキニやキスの動画を生成。AI着せ替え機能も搭載。登録不要、完全無料!
Pippit
Pippitの強力なAIツールでコンテンツ作成を向上させましょう!
Yollo AI
AIパートナーとチャット&創作。画像から動画作成、AI画像生成機能も搭載。
AI Clothes Changer by SharkFoto
SharkFoto の AI Clothes Changer は、フィット感、質感、ライティングまでリアルに再現した服を瞬時にバーチャル試着できます。
KiloClaw
ホステッドの OpenClaw エージェント:ワンクリックでデプロイ、500以上のモデル、セキュアなインフラ、自動化されたエージェント管理をチームと開発者に提供します。
SuperMaker AI Video Generator
SuperMakerを使って、驚くべき動画、音楽、画像を簡単に作成できます。
AnimeShorts
最先端のAI技術を使用して、魅力的なアニメ短編を簡単に作成できます。
UNI-1 AI
UNI-1は視覚的推論と高忠実度の画像合成を組み合わせた統合画像生成モデルです。
Text to Music
テキストや歌詞を、AI生成のボーカル、楽器、マルチトラック書き出しを含むフルのスタジオ品質の楽曲に変換します。
Kirkify
Kirkify AI はミーム作成者向けに、特徴的なネオングリッチ美学を備えた顔入れ替えのバイラルミームを瞬時に生成します。
Video Sora 2
Sora 2 AIはテキストや画像を数分で短く物理的に正確なソーシャル/eコマース向けビデオに変換します。
Iara Chat
Iara Chat: AIによる生産性とコミュニケーションのアシスタント。
Free AI Video Maker & Generator
無料 AI 動画メーカー&ジェネレーター – 無制限、登録不要
Lyria3 AI
テキストのプロンプト、歌詞、スタイルから高音質で完全に制作された曲を瞬時に作成するAI音楽ジェネレーター。
Tome AI PPT
AI搭載のプレゼン作成ツール。数分でプロフェッショナルなスライドデッキを生成、整形、エクスポートします。
Paper Banana
学術テキストを即座に投稿準備が整った方法図や正確な統計図に変換する、AI搭載ツールです。
Atoms
マルチエージェント自動化によりコード不要で数分でフルスタックのアプリやウェブサイトを構築するAI駆動プラットフォーム。
AI Pet Video Generator
AI駆動のテンプレートと即時HD書き出しを使って、写真からバイラルで共有しやすいペット動画を作成します。SNS向けに最適化されています。
Palix AI
クリエイター向けのオールインワンAIプラットフォーム。統一されたクレジットで画像、動画、音楽を生成できます。
Ampere.SH
無料の管理された OpenClaw ホスティング。$500 の Claude クレジットで 60 秒で AI エージェントをデプロイできます。
HookTide
あなたの声を学習してコンテンツ作成・エンゲージメント・パフォーマンス分析を行うAI搭載のLinkedIn成長プラットフォームです。
Hitem3D
Hitem3Dは単一の画像をAIで高解像度かつプロダクション対応の3Dモデルに変換します。
Seedance 20 Video
Seedance 2 は、一貫したキャラクター、マルチショットの物語表現、2K のネイティブ音声を提供するマルチモーダルな AI 動画ジェネレーターです。
GenPPT.AI
AI駆動のPPT作成ツール。数分でスピーカーノートとグラフ付きのプロフェッショナルなPowerPointプレゼンテーションを作成、整形、エクスポートします。
Veemo - AI Video Generator
Veemo AIは、テキストや画像から高品質な動画と画像を素早く生成するオールインワンプラットフォームです。
ainanobanana2
Nano Banana 2 は、正確なテキストレンダリングと被写体の一貫性を保ちながら、4~6秒でプロ品質の4K画像を生成します。
Create WhatsApp Link
分析機能、ブランドリンク、ルーティング、マルチエージェントチャット機能を備えた無料のWhatsAppリンク&QRジェネレーター。
Gobii
Gobii はチームが 24 時間 365 日稼働する自律型デジタルワーカーを作成し、ウェブ調査やルーティンタスクを自動化できるようにします。
AI FIRST
自然言語を通じてリサーチ、ブラウザ作業、ウェブスクレイピング、ファイル管理を自動化する会話型AIアシスタント。
AirMusic
AirMusic.aiは、テキストプロンプトからスタイルやムードのカスタマイズ、ステム(分離トラック)出力をサポートする高品質なAI音楽トラックを生成します。
GLM Image
GLM Image は自己回帰モデルと拡散モデルを組み合わせたハイブリッド方式で、高忠実度のAI画像を生成し、優れたテキストレンダリングを実現します。
TextToHuman
AIテキストを瞬時に自然で人間らしい文体に書き直す無料のAI人間化ツール。サインアップ不要。
Manga Translator AI
AI Manga Translatorは漫画画像をオンラインで瞬時に複数の言語に翻訳します。
WhatsApp Warmup Tool
AI 搭載の WhatsApp ウォームアップツールは、大量メッセージ送信を自動化しつつアカウント停止を防ぎます。
Remy - Newsletter Summarizer
Remyはメールを短くて分かりやすい洞察にまとめることでニュースレター管理を自動化します。
FalcoCut
FalcoCut:動画翻訳、アバタービデオ、音声クローン、フェイススワップ、短尺動画生成のためのウェブベースAIプラットフォーム。
Seedance 2 AI
画像、映像、音声、テキストを組み合わせて映画風の短編を生成するマルチモーダルAIビデオジェネレーター。
LTX-2 AI
オープンソースのLTX-2は、テキストや画像プロンプトからネイティブな音声同期付きの4K動画を高速に生成し、本番対応可能です。
Telegram Group Bot
TGDesk は、リード獲得、エンゲージメント向上、コミュニティの成長を支援するオールインワンの Telegram グループボットです。
SOLM8
呼びかけて会話するAI彼女。記憶を持つリアルな音声会話。彼女といるとどの瞬間も特別に感じる。
Vertech Academy
Vertechは、学生と教師が効果的に学び、教えるために設計されたAIプロンプトを提供します。

MITの研究者が分布外シナリオにおける機械学習モデルの重大な失敗を特定

MITの研究者は、最も高性能な機械学習モデルが新しいデータ環境に適用されると最悪の性能を示すことがあり、医療分野のAIやその他の重要な用途で発生する偽の相関から生じる隠れたリスクを明らかにしていると示しています。