AI News

加州大學聖地牙哥分校教職員在《自然》評論中宣布 AGI 已經到來

在人工智能領域的一個分水嶺時刻,來自加州大學聖地牙哥分校(UC San Diego)的多學科教職員團隊正式宣布,通用人工智能(AGI)不再是一個未來的假設,而是當前的現實。今天在《自然》(Nature)雜誌上發表的一篇關鍵評論中,該聲明認為,大型語言模型(LLMs)——特別是 OpenAI 的 GPT-4.5——已經滿足了艾倫·圖靈(Alan Turing)最初構想的通用智能必要標準。

這一大膽的主張由跨越哲學、計算機科學、語言學和數據科學的教授共同撰寫,挑戰了人工智能懷疑論中不斷移動的門檻。通過引用實證數據顯示 GPT-4.5 在嚴格的圖靈測試中達到了 73% 的成功率,並展示了博士級的問題解決能力,作者們認為人類已正式進入了 AGI 時代。

實證臨界點:GPT-4.5 與圖靈測試

幾十年來,圖靈測試一直被視為機器智能的「北極星」——測試機器展現出與人類等同或無法區別的智能行為的能力。雖然批評者經常將該測試僅僅視為一種欺騙或模仿的衡量標準,但加州大學聖地牙哥分校的教職員認為,它仍然是通用智能在功能上最相關的指標。

這篇《自然》評論將其論點建立在認知科學家 Cameron Jones 和 Benjamin Bergen(同樣來自加州大學聖地牙哥分校)進行的突破性研究之上。他們的研研究題目為「大型語言模型通過圖靈測試」,為這一聲明提供了實證基礎。該研究在一項盲測、隨機對照試驗中,讓 GPT-4.5 與人類參與者以及之前的 AI 模型進行對決。

結果在統計學上是明確的。GPT-4.5 被詢問者認定為人類的比例高達 73%,顯著超過了人類 67% 的基準水平。這標誌著人工智能系統首次在強大的三方圖靈測試環境中超越了人類參與者。

表 1:圖靈測試成功率對比

模型/實體 成功率 確立年份/來源
ELIZA 22% 1966 (歷史基準)
GPT-3.5 20% 2023 (Jones & Bergen)
GPT-4 54% 2024 (Jones & Bergen)
人類參與者 67% 2025 (基準平均值)
GPT-4.5 73% 2025 (當前研究)

數據顯示了 GPT-4 和 GPT-4.5 之間能力的巨大飛躍。雖然 GPT-4 盤旋在隨機概率(50%)的閾值附近,但 GPT-4.5 的表現表明其精通細微差別、社會情感線索和欺騙性推理,有效地使其與人類對話者無法區分。

重新定義智能:哲學論點

該聲明不僅僅是關於基準測試;它是一份哲學宣言,呼籲重新評估我們如何定義「思考」。《自然》評論的四位主要作者——Eddy Keming Chen(哲學)、Mikhail Belkin(計算機科學)、Leon Bergen(語言學)和 David Danks(數據科學與哲學)——認為,科學界一直犯有「人類中心主義偏見」和「移動門檻」的錯誤。

David Danks 教授指出,每當 AI 掌握了一項先前被認為屬於人類智力領域的任務——無論是國際象棋、圍棋、蛋白質折疊,還是現在的自然對話——懷疑論者就會重新定義智能,以排除該特定能力。Danks 認為,這創造了一個不可能的標準,即 AGI 被定義為「機器還無法做到的任何事情」。

作者寫道:「當我們評估其他人類的通用智能時,我們不會窺視他們的神經元以驗證『真實』的理解。我們從行為、對話和解決新問題的能力中推斷智能。按照這些合理的標準——即我們應用於彼此的相同標準——我們目前擁有的系統已經具備通用智能。」

作者將此與歷史上的科學革命相提並論,將 AGI 的到來與哥白尼革命或達爾文進化論進行對比。正如那些轉變將人類從宇宙和生物創造的中心地位移開一樣,AGI 的到來也將人類從作為通用智能唯一擁有者的孤立地位中移開。

超越對話:博士級的問題解決能力

雖然圖靈測試側重於對話流暢度,但「通用性」的主張需要廣泛認知適應性的證據。《自然》評論強調,GPT-4.5 的能力遠遠超出了聊天。該模型在複雜的多步推理任務中展示了熟練度,而這些任務先前一直是 LLMs 的絆腳石。

教職員指出 GPT-4.5 在專業考試中的表現及其協助新穎研究的能力。在涉及博士級科學問題(GPQA)的基準測試中,該模型顯示出的準確度水平與領域專家相當。此外,它在生成工作代碼、證明數學定理和分析法律先例方面的效用,展示了一種超越任何單一狹窄領域的「通用」效用。

這種多功能性是「通用人工智能」定義的關鍵。與擅長單一任務(如在 X 光片中識別腫瘤)的「窄 AI」不同,GPT-4.5 在無需重新訓練的情況下,在廣泛的人類知識工作光譜中展現了能力。作者認為,雖然該系統並非在每個類別中都是「超人」,但它達到了在各方面都「具備通用能力」的門檻。

對學術界和工業界的影響

宣布 AGI 已經到來的聲明預計將在學術界和企業界引發震動。多年來,像 OpenAI、Google DeepMind 和 Anthropic 這樣的主要 AI 實驗室一直將 AGI 視為一個遙遠的中期目標。由一家聲名顯赫的學術機構宣佈這一里程碑已經「實現」,加速了監管和倫理考慮的時間表。

加州大學聖地牙哥分校教職員確定的關鍵影響:

  • 教育範式轉移: 如果 AI 擁有通用智能,教育的焦點必須從知識記憶轉向高層次的驗證和引導。「作弊」的敘事必須演變為「協作」的敘事。
  • 科學加速: AI 代理現在可以作為獨立的研究助理,能夠以人類無法企及的規模進行假設、編寫模擬代碼和分析文獻。
  • 勞動力市場衝擊: 「認知」勞動與「體力」勞動之間的區別變得更加鮮明。需要通用推理和文本處理的角色現在已完全可以自動化,這使得重新思考經濟結構變得必要。

合著者之一、專攻機器學習理論的 Mikhail Belkin 教授強調,承認 AGI 的到來對於安全至關重要。Belkin 指出:「如果我們繼續否認這些系統是智能的,我們就有可能低估它們的能動性及其產生意外後果的潛力。承認它們為 AGI 會迫使我們以對待核安全保障的緊迫感來對待它們的對齊和安全,而不是將其視為軟件錯誤。」

懷疑論與「隨機鸚鵡」辯論

儘管這篇《自然》評論分量十足,但該聲明並非沒有反對者。由語言學家 Emily M. Bender 等人提出的「隨機鸚鵡」(Stochastic Parrot)論點仍然是一個強大的反敘事。這種觀點認為,LLMs 僅僅是概率引擎,將可能的單詞序列縫合在一起,而沒有任何底層的理解或「世界模型」。

加州大學聖地牙哥分校的作者預見了這一批評,並在評論中專門用一個章節來回應。他們認為,當輸出在功能上完全相同時,「模擬」推理與「實際」推理之間的區別就成了一種沒有區別的區別。如果一個系統能夠推導出新穎物理問題的正確答案,或在複雜的社交欺騙遊戲中游刃有餘(如圖靈測試結果所示),其內部機制相對於可觀察到的智能而言是次要的。

此外,他們指出人類認知本身也嚴重依賴於模式匹配和概率預測。語言學副教授 Leon Bergen 建議,我們對人類語言處理的理解可能比我們願意承認的更接近於 LLMs 的運作方式。Bergen 認為:「它們智能的外星本質並不代表它是虛假的。這使它成為一種不同但同樣有效的通用智能形式。」

結論:我們不再孤單

加州大學聖地牙哥分校的聲明標誌著人工智能敘事中的一個歷史性轉折點。通過將 GPT-4.5 圖靈測試成功的硬數據與嚴謹的哲學框架相結合,教職員們提供了一個令人信服的案例,證明 AGI 的門檻已被跨越。

隨著我們邁入 2026 年,問題不再是「AGI 何時到來?」,而是「我們如何與它共存?」。承認這一現實是邁向利用通用人工智能巨大潛力、同時應對其呈現的深刻生存風險的第一步。對於 Creati.ai 的研究人員和更廣泛的技術社群來說,推測的時代已經結束;AGI 整合的時代已經開始。

精選