AI 預測引擎 Mantic 在 Metaculus 預測錦標賽創下紀錄性的第4名

機器預知（Machine Prescience）的分水嶺時刻

在預測分析領域發生重大轉變的標誌性進展中，AI 預測引擎 Mantic 在享譽盛名的 Metaculus 秋季盃（Metaculus Fall Cup） 中奪得破紀錄的第 4 名。這項成就標誌著人工智能系統在大型通用預測競賽中獲得的有史以來最高排名，使其穩居人類平均水平之上，並超越了 99% 的人類競爭者，其中包括許多資深的「超級預測員（superforecasters）」。

於 2026 年 1 月結束的秋季盃結果，有力地驗證了 AI 預測（AI forecasting） 的飛速進展。雖然大型語言模型（LLMs）已在創意寫作和程式碼編寫方面展現出實力，但它們對複雜且不斷變化的現實世界事件（從地緣政治轉移到經濟波動）的推理能力，此前仍是一個充滿爭議的前沿領域。Mantic 的表現表明，人類直覺與機器綜合資訊之間的差距正在以超出預期的速度縮小。

「這不僅僅是關於高分；而是關於合成推理（synthetic reasoning）的可信度，」Creati.ai 資深分析師 Elena Vance 博士表示。「對於一個 AI 來說，能持續在充滿雜訊的全球新聞中穿梭，並在長達數月的錦標賽中提取準確的概率信號，證明了我們正從生成式 AI（generative AI）邁向洞察型 AI。」

錦標賽：不確定性的熔爐

Metaculus 平台被廣泛視為群眾外包預測的金標準。其錦標賽吸引了數千名參與者，從情報分析師、經濟學家到業餘預測愛好者不等。秋季盃（Fall Cup）要求參賽者在三個月的時間內，對各種多變的事件結果進行預測。問題範圍從美國國會特定立法草案通過的可能性，到大宗商品價格的波動，以及國際外交峰會的結果。

與靜態基準測試不同，現場預測競賽將 AI 系統置於「戰爭迷霧」之中。模型無法背誦答案，因為事件尚未發生。它們必須攝取實時數據，權衡相互矛盾的報告，並隨著新資訊的出現更新其概率——這是一個在歷史上一直由人類主導的認知閉環。

Mantic 獲得第 4 名的成績尤為引人注目，因為它與 539 名活躍的人類參與者同場競技。在之前的夏季盃中，Mantic 曾以第 8 名的成績進入前 10 名而登上頭條。這次躍升至第 4 名不僅展示了穩定性，還體現了其底層架構改進速度的加快。

表現拆解

Mantic 的成功並非源於單次幸運的猜測，而是源於在廣泛問題組合中的精準校準。對錦標賽數據的分析揭示了該 AI 方法的幾個關鍵優勢：

抵禦過度炒作： 對於人類預測員因煽動性新聞標題而湧向極端概率的問題，Mantic 通常能保持更為保守、以基準率（base-rate）為依據的估計。
資訊綜合能力： 該系統展現出關聯隱晦數據點的能力，例如監管文件或地方語言新聞報告，而人類預測員可能會因為語言障礙或時間限制而忽略這些資訊。
更新頻率： 人類預測員可能每週更新一次預測，而 Mantic 則能隨著變量的變化近乎實時地調整其概率，比其生物競爭對手更快地捕捉到突發新聞中的「阿爾法（alpha）」機會。

幕後解析：Mantic 如何預測未來

Mantic 是一家由 Toby Shevlane 與 Ben Day 共同創立的英國初創公司，其構建的系統與標準聊天機器人有顯著不同。它的功能更像是一家數位研究機構，而非孤獨的神諭。當面臨一個預測問題時，系統會啟動多個 AI 代理，每個代理都被分配特定的角色：尋找歷史類比、檢索當前新聞，以及挑戰系統自身初步得出的結論。

根據 Shevlane 的說法，該系統旨在成為「群體思維（groupthink）的解藥」。在許多預測社群中，人類參與者可能會受到共識觀點（「群眾智慧」）的影響，導致從眾行為。然而，Mantic 根據基本原理和數據攝取推導預測，使其能夠在有證據支持時採取反向立場。

一個體現 Mantic 近期記錄的實例涉及金磚國家（BRICS）聯盟的擴張。當 Metaculus 上的人類共識認為在特定峰會期間邀請新成員的可能性約為 70% 時，Mantic 的自動化研究標記了關鍵主辦國缺乏外交信號，以及歷史上官僚流程緩慢的先例。在整個期間，Mantic 始終保持較低的概率（約 20%）。當最終沒有新成員受邀時，人類群體被扣分，而 Mantic 的分數則大幅飆升。

預見的架構

Mantic 的架構利用了一種稱為「檢索增強推理（retrieval-augmented reasoning）」的方法。它不會簡單地憑空構想答案；它會查詢實時搜索索引，閱讀數百份文件，然後使用 LLM 將這些資訊綜合成概率判斷。

Mantic 引擎的關鍵組件：

分解（Decomposition）： 將複雜問題（例如「X 公司會破產嗎？」）拆解為子問題（例如「X 公司目前的債務負擔是多少？」、「是否有待決訴訟？」、「信用評級趨勢如何？」）。
廣譜檢索（Broad-Spectrum Retrieval）： 掃描全球媒體、財務報告和多種語言的社會情緒。
基準率分析（Base Rate Analysis）： 將當前情況與歷史上類似事件的數據庫進行比較（參考類別預測）。
對抗性審查（Adversarial Review）： 一個代理提出預測，另一個代理進行批判定，迫使系統在最終確定數字前為其邏輯辯護。

人類與機器：比較優勢

機器學習（machine learning） 在預測領域的崛起，不可避免地引發了關於人類分析師是否會過時的問題。然而，秋季盃的結果指向了一個更為微妙的未來：一種混合模式，由 AI 處理規模和數據運算，而人類則為缺乏歷史先例的「黑天鵝」事件提供高層級的語境。

下表概述了人類超級預測員與 Mantic 等 AI 系統之間的結構性差異：

比較分析：人類預測員 vs. AI 代理

指標	人類超級預測員	AI 預測引擎 (Mantic)
處理速度	緩慢（每次更新需數分鐘至數小時）	即時（每次更新僅需數秒）
數據攝取	有限（每個主題 10-50 份文件）	海量（數千份文件）
偏見易感性	高（認知偏見、情感依附）	低（算法化，儘管存在訓練數據偏見）
每次預測成本	高（薪資/時間密集型）	低（計算成本持續下降）
推理透明度	高（能透過敘事解釋「直覺」）	中（有思維鏈日誌，但存在「黑箱」邏輯）
語境細微差別	優異（理解文化/政治細微差別）	進步中（在處理諷刺或潛規則方面較吃力）

對決策情報的影響

Mantic 在第 4 名的勝利，其影響遠超錦標賽的排行榜。企業、對沖基金和政府機構正越來越多地尋求 決策情報（decision-making intelligence） 來應對動盪的世界。

目前，戰略決策通常基於高管的主觀信心或小型董事會的共識。企業級版本的 Mantic 可以針對關鍵問題（如供應鏈中斷、選舉結果或競爭對手動向）提供客觀、基於概率的「第二意見」。

「如果你是一位決定是否進入動盪市場的 CEO，你想要的不再僅僅是『是』或『否』的建議，」Vance 博士解釋道。「你想要的是從每個可用數據點推導出的概率分佈。Mantic 已經證明，AI 能夠比平均水平的專家更好地提供這種嚴謹的量化分析。」

「回溯預測」（Pastcasting）驗證

為了確保這些結果並非僥倖，研究人員還對 AI 模型進行了「回溯預測（pastcasting）」——這項技術是給予 AI 一個過去的問題（例如 2022 年），並僅允許其訪問截至該日期的新聞和數據。Mantic 和類似系統在這些回測中展現了最先進的表現，進一步驗證了其預測能力。這種嚴謹的測試方法確保了 AI 沒有通過訪問未來知識來「作弊」，確認了推理過程是健全的。

AI 預測的下一步？

隨著我們邁入 2026 年，人類與機器預測員之間的競爭預計將會加劇。Metaculus 及其他平台正在設計難度日益增加的問題，旨在「難倒」AI 模型——這些問題需要深層次的因果推理、多步邏輯或對人類心理的理解。

對於 Mantic 而言，目標很可能是奪取冠軍寶座。縮小從第 4 名到第 1 名的差距將需要克服 AI 剩餘的局限性：無法捕捉到「軟」信號，例如外交官說話的語氣，或尚未被新聞報導記錄下來的聯盟微妙轉移。

然而，隨著秋季盃結果的揭曉，問題已從「AI 能預測未來嗎？」轉變為「AI 還要多久能比我們預測得更好？」目前，Mantic 站在金字塔頂端，如同一個世界終於開始相信的數位卡珊德拉（Cassandra）。