
一項由 Massachusetts Institute of Technology(MIT)的研究人員發表的突破性研究,於昨日挑戰了機器學習評估中的一項基本信念,揭示出以彙總指標被普遍認為「最先進」的模型,在部署到新環境時可能發生災難性失效。
該研究在 Neural Information Processing Systems(NeurIPS 2025)會議上發表,並於 2026年1月20日刊登於 MIT News,揭露了目前人工智慧(AI)系統在基準測試方式上的一個關鍵弱點。由資訊與決策系統實驗室(Laboratory for Information and Decision Systems,LIDS)主要研究者 Marzyeh Ghassemi 與博士後 Olawale Salaudeen 領導的團隊示範指出,排名前列的模型常常依賴於虛假相關(spurious correlations),也就是資料中的隱藏捷徑,這使得它們在像醫學診斷和仇恨言論檢測(hate speech detection)等真實應用中變得不可靠甚至具有危險性。
多年來,AI 社群一直基於「Accuracy-on-the-line」的假設在運作。這個原則主張,如果一組模型在訓練資料(in-distribution)上從最佳到最差被排序,那麼當這些模型被應用到新的、未見資料(out-of-distribution)時,這個排序也會被保留。
MIT 團隊的研究結果實際上已經推翻了這一假設。他們的分析顯示,高平均準確率往往掩蓋了在特定子族群(subpopulations)中的嚴重失敗。在一些令人震驚的案例中,在原始訓練資料上被認為是「最佳」的模型,竟然在新資料的 6% 到 75% 中成為表現最差的模型。
「我們證明即便你在大量資料上訓練模型,並選出平均表現最好的模型,在新的情境下這個『最佳模型』也可能變成最差,」資訊與決策系統實驗室的主要研究者 Marzyeh Ghassemi 說。
這些發現對醫療保健領域的影響最為嚴重,因為演算法的可靠性關乎生死。研究人員檢驗了用於從胸部 X 光判讀病變的模型——這是醫療影像領域的標準應用。
雖然這些模型在平均表現上看似穩健,但更細緻的分析顯示它們依賴的是虛假相關(spurious correlations),而非真實的解剖學特徵。例如,一個模型可能學會將特定醫院的影像標記與某疾病的盛行率相關聯,而非直接辨識出病變本身。當模型應用到來自沒有那些特定標記的另一家醫院的 X 光片時,預測能力便崩潰。
醫學影像中的關鍵發現:
為了應對這種系統性失效,研究團隊開發了一種名為 OODSelect(Out-of-Distribution Select)的新演算法方法。此工具旨在透過特別識別那些「Accuracy-on-the-line」假設失效的資料子集來對模型進行壓力測試。
主要作者 Olawale Salaudeen 強調,目標是迫使模型學習因果關係,而非便捷的統計捷徑。「我們希望模型學會觀察病人的解剖特徵,然後基於那些特徵做出決策,」Salaudeen 表示。「但事實上,資料中任何與決策相關聯的東西都可能被模型利用。」
OODSelect 的運作方式是分離出「被最誤判的樣本」,使開發者能區分出那些難以分類的邊緣案例與因虛假相關造成的真正失敗。
評估方法比較:
| Metric Type | Traditional Aggregated Evaluation | OODSelect Evaluation |
|---|---|---|
| Focus | Average accuracy across the entire dataset | Performance on specific, vulnerable subpopulations |
| Assumption | Ranking preservation (Accuracy-on-the-line) | Ranking disruption (Best can be worst) |
| Risk Detection | Low (Masks failures in minority groups) | High (Highlights spurious correlations) |
| Outcome | Optimized for general benchmarks | Optimized for robustness and reliability |
| Application | Initial model selection | Pre-deployment safety auditing |
雖然該研究大量引用醫學影像的案例,研究人員已在其他關鍵領域驗證了他們的發現,包括癌症組織病理學(cancer histopathology)與仇恨言論檢測(hate speech detection)。在文字分類任務中,模型常常抓住與訓練資料中毒性相關的特定關鍵字或語言模式,卻無法掌握不同線上社群或語境中仇恨言論的微妙差別。
這一現象顯示,AI 的「可信度」危機並不限於高風險的物理領域,而是深深根植於深度學習模型如何處理相關性與因果性的方式。
這項研究的發表標誌著 AI 安全標準的轉折點。MIT 團隊已釋出 OODSelect 的程式碼,並標示出特定的資料子集,協助社群建立更穩健的基準(benchmarks)。
研究人員建議,部署機器學習(machine learning)模型的組織——尤其是在受監管產業中——應超越彙總統計數據。相反地,他們主張實施一個嚴謹的評估流程,積極尋找模型失敗的子族群(subpopulations)。
隨著人工智慧系統越來越多地整合進關鍵基礎設施,對「成功」模型的定義也在改變。僅僅在排行榜(leaderboard)上取得最高分已不再足夠;新的卓越標準要求模型必須在每個使用者、每種環境中都能可靠運作,無論分佈如何改變。