AI News

「深度工作(Deep Work)」的新標準

人工智慧(Artificial Intelligence)的格局再次發生變化,標誌著企業和專業 AI 應用的一個決定性時刻。Anthropic 正式發布了 Claude Opus 4.6,這款模型不僅挑戰、而且有效地取代了 Google 的 Gemini 3 Flash 在複雜、高風險專業工作領域的地位。雖然 Google 在 2026 年初憑藉速度和多模態流動性主導了對話,但 Anthropic 的最新版本加倍投入了開發者和企業最關心的領域:推理深度、可靠性和代理能力(Agentic capability)。

在過去的幾個月裡,AI 行業一直由 Google 的 Gemini 生態系統與 OpenAI 的 GPT 系列之間的「拉鋸戰」所定義,其中 Gemini 3 Flash 最近憑藉其速度和海量上下文處理的結合而佔據榜首。然而,Claude Opus 4.6 的發布改變了那些依賴 AI 進行認知勞動的組織的考量。

來自早期採用者的報告和基準測試分析證實,雖然 Gemini 3 Flash 在速度和多模態集成方面仍是一個奇蹟——能以前所未有的輕鬆處理影片和音訊——但 Claude Opus 4.6 已奪得了「深度工作(Deep Work)」的桂冠。兩者的區別至關重要:Gemini 的角色是高速助手,而 Opus 4.6 的功能則像是一名勝任的初級工程師或分析師,展現出在長周期內規劃、執行和自我修正的頑強能力。

業界的反應非常迅速。PromptLayer 團隊在詳細評論中指出:「Opus 4.6 是『能把事辦成』的 Claude。」這種觀點在開發者群體中得到了共鳴,該模型處理龐大程式碼庫和複雜法律文件而「不偏離主題」的能力,為實用性樹立了新的基準。

基準測試:Opus 4.6 讓 Gemini 望塵莫及

關於 Claude Opus 4.6 最具說服力的論點在於原始性能數據,特別是在模擬現實世界 電腦使用(computer use) 和編碼任務而非抽象問答的基準測試中。

兩項特定的基準測試脫穎而出:Terminal-Bench 2.0OSWorld。Terminal-Bench 衡量 AI 處理複雜編碼環境和命令行界面的能力——本質上是它作為軟體工程師的表現。 OSWorld 則測試模型操作電腦操作系統以完成任務的能力。

在這兩個領域,Opus 4.6 都建立了領先地位。在 Terminal-Bench 2.0 上,該模型獲得了 65.4% 的分數,較其前代產品有了重大飛躍,並與 Gemini 3 Flash 等競爭模型拉開了明顯差距。更令人印象深刻的是它在 OSWorld 上的 72.7% 得分,這表明 Anthropic 在「電腦使用」方面取得了巨大進步——即 AI 自主導覽界面、點擊按鈕和管理應用程序的能力。

以下是 Claude Opus 4.6 與當前前沿模型在關鍵指標上的對比分析:

關鍵性能指標對比(2026 年 2 月)

基準測試 / 指標 Claude Opus 4.6 Gemini 3 Flash GPT-5.2 Claude Opus 4.5
Terminal-Bench 2.0(編碼代理) 65.4% ~58% 59.8% 59.8%
OSWorld(電腦使用) 72.7% <70% N/A <60%
GDPval-AA(經濟任務 Elo) 1606 N/A 1462 1416
ARC-AGI v2(推理) 68.8% N/A N/A 37.6%
MRCR v2(長上下文檢索) 76% 18.5%

數據顯示出一個明顯的趨勢:對於需要「代理能力(Agency)」——即獨立採取行動解決問題的能力——的任務,Opus 4.6 目前無人能敵。ARC-AGI v2 分數的大幅提升(從上一版本的 37.6% 提高到 68.8%)表明模型在處理其訓練數據中未曾見過的全新、多步驟推理問題方面發生了質的轉變。

超越原始 Token:一致性的架構

Claude Opus 4.6 最顯著的技術成就之一不僅在於其上下文視窗(Context window)的大小,還在於它如何管理這些上下文。Gemini 3 Flash 和 Opus 4.6 都擁有 100 萬個 token 的上下文視窗,理論上允許它們攝取海量數據。然而,純粹的容量往往會導致「遺忘中間內容(lost in the middle)」的現象,即模型會忘記埋藏在文本深處的細節。

Anthropic 引入了一項名為 上下文壓縮(Context Compaction) 的功能。這種機制會自動總結較舊的對話歷史,以在長時間的對話中保持連貫性。該模型並非簡單地將上下文視窗視為原始緩衝區,而是主動管理其記憶,確保在長編碼環節或法律審查開始時提供的關鍵指令,不會在用戶達到 500,000 個 token 標記時因幻覺而消失。

PromptLayer 報告的內部測試顯示,在 MRCR v2 檢索測試中,Opus 4.6 達到了 76% 的準確度,較 Opus 4.5 的 18.5% 有了驚人的提升。這種可靠性使得 100 萬 token 的視窗在企業應用中具有實際用途,例如審計財務記錄或重構舊有程式碼庫——在這些任務中,單個細節的缺失都可能是災難性的。

代理能力:從聊天機器人到協作者

Opus 4.6 的發布恰逢開發者與大型語言模型(LLM)互動方式的廣泛轉變。我們正從「提示工程(Prompt engineering)」轉向「代理編排(Agent orchestration)」,而 Anthropic 專門針對這一未來調整了該模型。

一項關鍵創新是引入了 代理團隊(Agent Teams)。此功能允許一個主導 AI 代理拆解一個複雜專案(例如構建一個全端 Web 應用程序),並將子任務委派給並行運行的其他模型實例。與以往單個模型嘗試線性處理任務所有方面不同,代理團隊模仿了人類的工作流程,由一名經理協調專業人員。

這種能力由 適應性思考(Adaptive Thinking) 模式 驅動,該模式取代了舊的「擴展思考」功能。用戶現在可以將推理強度從「低」調整到「最高」。對於簡單的查詢,模型會立即響應;對於複雜的架構決策,它可以暫停、進行更深層次的「思考」,並在編寫第一行程式碼之前生成一個更穩健的計劃。

使用該模型的開發者報告稱,Opus 4.6 比其競爭對手更加主動。它不會等待下一個提示,而是識別必要的子任務,提出澄清性問題,並推動專案完成。一位早期測試者指出,該模型在第一次嘗試時就解決了 87.5% 的編碼任務,而之前的版本僅為 62.5%。

企業和開發者生態系統

在對高可靠性 AI 有需求的各大科技巨頭中,採用速度非常快。NotionGitHubReplit 都是首批發布合作夥伴,將 Opus 4.6 整合到了其核心產品中。

  • Notion 利用它驅動一個表現「更像協作者而非工具」的助手。
  • GitHub Copilot 在上下文感知至關重要的複雜、多步驟程式碼生成中使用該模型。
  • Replit 利用其代理規劃能力幫助用戶在雲端 IDE 環境中構建軟體。

除了編碼,Anthropic 還在積極瞄準通用業務工作流。此次更新包括對 Claude in Excel 的重大增強,允許進行自然語言試算表生成和複雜的數據分析,足以媲美人類數據分析師。此外,Claude in PowerPoint 的預覽展示了模型生成投影片大綱和建議視覺化的能力,直接攻擊微軟 Copilot 在辦公生產力領域的堡壘。

安全專家也在 Opus 4.6 中找到了一個強大的盟友。在一次審計能力的演示中,Anthropic 團隊使用該模型掃描開源倉庫,成功識別出超過 500 個先前未知的嚴重漏洞。僅憑這項能力就足以讓許多網路安全公司支付該模型的費用。

定價與可用性

儘管性能大幅提升,Anthropic 的標準層級 API 定價仍保持競爭力:

  • 輸入(Input):每百萬 token 5 美元
  • 輸出(Output):每百萬 token 25 美元

然而,對於使用超過 200k token 擴展上下文能力的用戶,將面臨溢價($10/$37.50),這反映了管理海量活動記憶的計算強度。對於個人「Pro」用戶,訂閱費用維持在每月 20 美元,但由於模型增加了每個 token 的計算量,新推理功能的重度用戶可能會比以前更快達到訊息上限。

權衡:速度 vs. 深度

雖然 Claude Opus 4.6 在專業任務上取得了勝利,但也並非沒有權衡。早期評論的主要批評是其在創意寫作風格上的退步。用於磨練模型邏輯和編碼能力的強化學習技術似乎削弱了其文筆。

追求「奇幻故事」或高度風格化創意內容的用戶可能會發現,與 Claude 4.5 或 Gemini 生動的輸出相比,Opus 4.6 的輸出「更簡潔、更實事求是」。對於創意作家來說,舊款模型或競爭對手可能仍是更好的選擇。

此外還有速度因素。Gemini 3 Flash 名副其實,提供近乎實時的響應和原生影片處理能力,而 Opus 4.6 並未嘗試在這些方面匹配。如果使用場景需要分析實況影片流或低延遲聊天,Google 仍然是更優的選擇。

結論:分層化的市場

Claude Opus 4.6 的發布標誌著 AI 市場正向不同的專業化領域趨於成熟。我們不再尋找一個「統治所有領域的模型」,相反,我們看到了分層化:Google Gemini 主導高速、多模態的消費者領域,而 Anthropic 的 Claude 則牢牢確立了自己作為深度、認知和專業工作首選引擎的地位。

對於 Creati.ai 的讀者——開發者、工程師和企業領袖——選擇正變得越來越清晰。如果您的工作流涉及複雜的問題解決、大規模編碼或數據密集型分析,Claude Opus 4.6 就是您工具箱中新的必備工具。它可能寫不出最富有詩意的詩篇,但它很可能會編寫出驅動發布該詩篇平台的程式碼。

精選