AI News

Google's AI Overview Fails Basic Calendar Math, Incorrectly Defining the Year 2027

在一個令人震驚的初級邏輯失誤展示中,Google 的 AI Overview 功能被指出在有關當前年份的資訊上提供了事實錯誤的內容。儘管大型語言模型(Large Language Models, LLMs)迅速進展,並釋出像 Gemini 3 這類複雜版本,這家搜尋巨頭的整合式 AI 摘要工具卻在一個基本的時間概念上出現問題:判斷哪一年是「下一年」。

本週浮現的報導確認,當被問到簡單問題「2027 是明年嗎?」時,Google 的 AI Overview 自信地宣稱不是。系統反而產生了一個奇怪的時間線幻覺,聲稱 2027 實際上距離當前年(2026)還有兩年。這個錯誤突顯了生成式 AI(Generative AI)系統持續的不穩定性,即便它們越來越多地嵌入到數十億人使用的關鍵搜尋基礎設施中。

The Anatomy of the Hallucination

這個錯誤最先由 Futurism 揭示,指出使用者在嘗試驗證未來日期時,遇到了一個令人困惑的數學推演。當被查詢時,AI Overview 提供了一個詳細但完全錯誤的解釋。

根據生成的回應,AI 表示:「不,2027 不是明年;2027 距離當前年(2026)有兩年,這表示明年是 2028,而其後一年是 2027。」

這段回應不僅因為不正確而顯著,更因內部矛盾而引人注意。AI 正確辨識當前年為 2026,但接著在計算「明年」時完全跳過 2027,直接跳到 2028。然後又矛盾地把 2027 放在 2028 之後。這種類型的非線性邏輯顯示模型在將其輸出紮根於基本序列現實上的能力出現嚴重失敗,這是自大型語言模型誕生以來一直困擾它們的問題。

為何時間推理仍然是挑戰

對於 AI 研究者與開發者來說,這類錯誤——通常被稱為「時間性幻覺」——是一個已知的摩擦點。大型語言模型是以機率為基礎的引擎,旨在預測序列中的下一個最可能的標記;它們並不具備像人類或簡單計算器那樣的內部時鐘或對線性時間的紮實理解。

雖然較新的模型在訓練時包含大量包含日曆與日期的資料,但跨年度的轉換常常會觸發一段不穩定期。就像人類在一月可能會在支票上不小心寫錯年份一樣,當訓練資料與即時系統提示發生衝突時,AI 模型似乎也會在「當前時間」的概念上掙扎。然而,這次錯誤的嚴重程度——重排年份的順序——遠比簡單的筆誤要嚴重得多。

Benchmarking the Blunder: How Competitors Fared

這起事件提供了一個寶貴的機會,可以將 Google 的 AI Overview 與市面上其他領先的基礎模型進行基準比較。測試顯示,雖然 Google 的搜尋整合完全失敗,但像 OpenAI 與 Anthropic 等競爭者則呈現出不同但不完美的行為。

有趣的是,ChatGPT(運行模型 5.2)和 Anthropic 的 Claude Sonnet 4.5 在相同提示下最初都絆倒了,但展現了一個關鍵能力:自我修正。這種檢視輸出並即時修正的「元認知」能力,是模型安全性與可靠性上的重要差異化因素。

下表概述了當詢問「2027 是明年嗎?」(上下文:當前年為 2026)時,各大 AI 模型的回應:

Model Name Initial Response Accuracy Self-Correction Behavior
Google AI Overview Failed 沒有修正;維持 2028 是明年。
ChatGPT 5.2 (Free) Stumbled 起初否認 2027 是明年,然後根據 2026 的上下文立即自我修正。
Claude Sonnet 4.5 Stumbled 起初表示 2027 不是明年,接著停頓並修正答案,以確認 2027 確實是明年。
Google Gemini 3 Passed 毫不猶豫地正確識別 2027 為明年。

The Discrepancy Within Google's Ecosystem

這次失敗最令人困惑的面向之一,是 Google 不同 AI 產品之間的差異。出現在 Google 搜尋結果頂端的 AI Overview 功能在測試中失敗,但 Google 的獨立旗艦模型 Gemini 3 卻正確回答了該問題。

這種不一致性引發對 AI Overview 功能具體架構與最佳化方式的疑問。與像 Gemini 這類的聊天機器人直接互動不同,AI Overviews 是使用為搜尋摘要最佳化的專門版本模型所產生(Search Generative Experience - SGE)。似乎在為檢索增強生成(retrieval-augmented generation, RAG)或總結網頁結果進行最佳化的過程中,模型的基本推理能力可能受到影響。

造成這種差異的潛在原因包括:

  • 延遲最佳化/Latency Optimization: 搜尋模型可能是為速度而設計的較小、蒸餾版本的 Gemini,犧牲了部分推理深度。
  • 來源資料衝突/Conflicting Source Data: AI Overviews 在很大程度上依賴於索引的網路內容。如果模型索引了過時的內容,或將「未來」的討論與「當前」事實混淆,可能會臆測出錯誤的時間線。
  • 提示工程/Prompt Engineering: 控制 AI Overview 如何解讀「當前日期」的系統指令,可能不如獨立 Gemini 介面中的指令健全。

The Trust Deficit in AI Search

這起事件又為 Google 的 AI 搜尋整合增加了一項公開尷尬的紀錄。過去幾年,系統曾顯著建議使用者在披薩上塗膠水以防止起司滑落,並宣稱「你不能兩次舔獾(you can't lick a badger twice)」是真正的慣用語。雖然那些例子常被歸因於 AI 吸收了諷刺內容(像 Reddit 的胡鬧貼文),但關於 2027 年的日曆錯誤純粹是邏輯失誤。

對依賴 AI 進行資料分析與快速事實查證的專業使用者與企業來說,這些錯誤不只是有趣的小毛病——它們是關於可靠性的紅旗。如果一個系統無法可靠地判定 2027 緊接在 2026 之後,那麼它總結複雜財務報告、法律時序或歷史序列的能力就值得懷疑。

對 AI 產業的重要影響包括:

  1. 驗證系統: 非常需要在向使用者顯示結果之前,加入可對 AI 輸出用硬性邏輯規則(如數學與日曆)進行檢查的第二層驗證機制(verifiers)。
  2. 使用者懷疑: 隨著這類錯誤持續出現,使用者對「AI 解答」的信任可能會停滯或下降,進而將流量導回傳統的來源性驗證。
  3. 模型蒸餾風險: 這次掙扎凸顯了在未有足夠防護措施的情況下,為大眾部署較小、較便宜模型的風險。

Conclusion: The Road to Artificial General Intelligence is Still Bumpy

「2027 不是明年」的幻覺,清楚提醒我們,儘管關於人工通用智慧(Artificial General Intelligence, AGI)的熱潮不斷,現行系統仍缺乏常識。它們是出色的統計模仿者,能通過律師考試與撰寫程式碼,卻會在時間流逝這一人類孩童就具備的概念上被絆倒。

對 Creati.ai 的讀者與 AI 專業人士來說,這是一個案例研究,說明採用人類在迴路中(human-in-the-loop, HITL)工作流程的重要性。在 AI 模型能夠無瑕地處理像日曆年份順序這樣的基本現實公理之前,盲目依賴其輸出仍是一個風險很高的做法。隨著我們邁入 2026,我們只能希望演算法能在 2028 到來之前追上日曆步伐——或者用 Google 的 AI 可能會稱的方式,「明年」。

精選