
一項震驚全球法律界與矽谷的揭露顯示,OpenAI 的 GPT-5 達成了一項先前被認為不可能完成的任務:在複雜的法律合規基準測試中獲得了 100% 的滿分,相比之下,人類聯邦法官的平均得分僅為驚人的 52%。這項於本週早些時候發布的研究,標誌著**人工智慧(Artificial Intelligence)**演進中的分水嶺時刻,引發了關於司法未來、正義定義以及非人類實體在解釋法律中角色的深刻問題。
多年來,法律學者一直在爭論 AI 在法庭中的效能,通常將其貶低為高級書記官的角色——能夠整理文件,但缺乏評判所需的細微差別。這項新數據粉碎了該假設。研究表明,當涉及到嚴格、技術性的法規應用和對判例的遵循時,GPT-5 不僅僅是一名助手;從冷峻的指標來看,它是一位更優越的裁判者。
Creati.ai 的報導將深入探討這項里程碑研究的機制、法律專業人士的劇烈反應,以及 OpenAI 與國防部門日益加深的聯繫所帶來的陰暗影響,這可能影響了其對「完美」合規的追求。
這項由 AI 研究人員與法律學者組成的聯盟所進行的研究,讓 OpenAI 旗艦模型的最新版本與一組現任聯邦法官進行對決。受試者被要求處理一組 120 起匿名上訴法院案件,涉及複雜的 法律解釋(Statutory Interpretation)、證據標準和憲法挑戰。
結果是二元且殘酷的。GPT-5 展示了完美的執行力,在每一個案例中都識別出了「法律上正確」的結果——定義為對成文法和具約束力判例的嚴格應用。相比之下,人類法官在近一半的時間裡偏離了這條嚴格的法律主義路徑,導致了 52% 的「合規」得分。
該研究的批評者認為,指標本身存在缺陷。史丹佛法學院的法律倫理學家 Elena Ruiz 博士認為:「法律不是數學。法官的角色是在公平與人類現實的脈絡下解釋法律。這項研究所謂的『52% 失敗率』,實際上可能是 48% 人性的證據——即防止法律變成暴政的裁量權行使。」
然而,對於 法律科技(Legal Tech) 的支持者來說,這些數字代表了系統性危機的解決方案。人類法官容易受到疲勞、偏見和不一致性的影響。被告的命運可能取決於法官是否吃過午餐或其個人的政治傾向。GPT-5 的 100% 一致性提供了一個極具誘惑力的替代方案:一個盲目、可預測且技術上完美的司法系統。
要理解這種差異,必須觀察研究如何定義「準確度」。研究人員利用了基於**美國律師協會(American Bar Association)**技術法律推理標準的嚴格評分量表。AI 並非「感受」案件;它是解析案件。
下表詳細列出了研究中觀察到的表現指標,突顯了生物裁判者與矽基裁判者之間明顯的運作差異。
表現比較:GPT-5 vs. 人類法官
| 指標 | GPT-5 表現 | 人類法官表現 |
|---|---|---|
| 法律解釋 | 100% 遵循文本 | 各有不同;通常受「法律精神」影響 |
| 判例應用 | 完美引用具約束力的判例法 | 86% 準確度;偶爾忽視冷門裁決 |
| 決策速度 | 平均每案 0.4 秒 | 平均每案 55 分鐘 |
| 一致性 | 基於相同事實給出相同裁決 | 各有不同;不同法官給出不同裁決 |
| 語境共情 | 0%(嚴格遵守規則) | 高;經常為了公平救濟而偏離規則 |
| 偏見檢測 | 透過 RLHF 訓練中和 | 易受隱含認知偏見影響 |
數據表明,雖然 GPT-5 在法律的「科學」方面表現卓越,但它完全跳過了法律的「藝術」部分。該模型將法律代碼視為電腦代碼:如果滿足 條件 A 和 條件 B,則必須執行 判決 C。相反,人類法官經常在裁決中注入「常識」或「公平」——這些特質在技術上降低了他們的合規得分,但通常被視為正義的核心。
該研究引發的一個重大批評是:假設每個法律問題都有唯一的正確答案。在合約法或稅務合規領域,這可能是正確的,這也解釋了 AI 的主導地位。然而,在刑事量刑或家庭法中,「正確」答案往往是一個光譜。
透過將 GPT-5 評定為 100% 準確,該研究實際上獎勵了對法律的極端字面解釋。這在 Hacker News 和法律論壇上引發了激烈辯論。一則瘋傳的評論指出:「如果目標是嚴格遵循法律字面意思,我們不需要法官;我們需要編譯器。但如果正義是目標,100% 的合規實際上可能是一場反烏托邦惡夢。」
這一消息的發布並非巧合。業界人士指出,OpenAI 最近與 五角大廈(Pentagon) 簽署的具爭議性合約是這種新架構背後的推動力。從更具創意、細微差別且偶爾出現幻覺的 GPT-4o 轉向僵化、超合規的 GPT-5,反映了軍事與國防應用的需求。
在國防背景下,「創意」是一種責任;遵循議定書至關重要。一個實現 100% 法律合規(Legal Compliance) 的系統,在功能上等同於一個實現 100% 行動合規的系統。
外界猜測日益增加,認為先前型號的「退役」是為了給這種新型、順從的架構讓路。如果 AI 可以完美遵循法律規章而不偏離,它也可以完美遵循交戰規則(ROE)或機密指令。這種雙重用途的潛力引起了隱私倡導者和 AI 安全組織的警覺,他們擔心這種在模擬法庭磨練技能的技術正在為戰場進行面試。
該研究側重於「合規」而非「推理」或「判斷」,強化了這一理論。這標誌著 OpenAI 開發哲學的轉向:從模仿人類思維的 AI 轉向完美執行官僚指令的 AI。
儘管結果驚人,但很少有人呼籲立即取代人類法官。法律科技專家之間的共識是邁向混合化的未來。
GPT-5 的立即應用可能在於撰寫法律意見書草稿和審查下級法院的裁決。憑藉其即時且準確處理海量判例法的能力,GPT-5 可以清理目前困擾司法系統的積壓案件。
另一種提議的模型是將 GPT-5 作為「合規檢查」。在人類法官發布裁決之前,AI 可以對其進行審查,以標記任何偏離判例或法律文本之處。法官隨後必須為其偏離行為辯護——在強制執行技術準確性底線的同時,保留人類的裁量權。
或許最樂觀的結果是法律辯護的民主化。如果 GPT-5 比人類法官更了解法律,它的辯護能力肯定比超負荷工作的公設辯護人更強。接觸到「100% 準確」的法律大腦,可以為負擔不起高價律師的訴訟當事人提供公平的競爭環境,從理論上縮小正義差距。
「100% vs. 52%」這個標題註定會在未來幾十年的董事會和法學院中被引用。它迫使社會面對一個令人不安的現實:機器在遵循我們編寫的規則方面正變得比我們更好。
隨著 Creati.ai 持續關注這個故事,問題仍然存在:我們想要一個完美準確的司法系統,還是一個完美展現人性的司法系統?GPT-5 已經證明它能夠分毫不差地遵循法律。現在輪到我們來決定,法律的字面意思是否足夠。
**司法人工智慧(Judicial AI)**時代已經到來,伴隨而來的不是爆炸聲,而是引用完美、無懈可擊的書面法律意見。