Anthropic 的 Claude Opus 4.6 在專業 AI 任務上勝過 Google Gemini

「深度工作（Deep Work）」的新標準

人工智慧（Artificial Intelligence）的格局再次發生變化，標誌著企業和專業 AI 應用的一個決定性時刻。Anthropic 正式發布了 Claude Opus 4.6，這款模型不僅挑戰、而且有效地取代了 Google 的 Gemini 3 Flash 在複雜、高風險專業工作領域的地位。雖然 Google 在 2026 年初憑藉速度和多模態流動性主導了對話，但 Anthropic 的最新版本加倍投入了開發者和企業最關心的領域：推理深度、可靠性和代理能力（Agentic capability）。

在過去的幾個月裡，AI 行業一直由 Google 的 Gemini 生態系統與 OpenAI 的 GPT 系列之間的「拉鋸戰」所定義，其中 Gemini 3 Flash 最近憑藉其速度和海量上下文處理的結合而佔據榜首。然而，Claude Opus 4.6 的發布改變了那些依賴 AI 進行認知勞動的組織的考量。

來自早期採用者的報告和基準測試分析證實，雖然 Gemini 3 Flash 在速度和多模態集成方面仍是一個奇蹟——能以前所未有的輕鬆處理影片和音訊——但 Claude Opus 4.6 已奪得了「深度工作（Deep Work）」的桂冠。兩者的區別至關重要：Gemini 的角色是高速助手，而 Opus 4.6 的功能則像是一名勝任的初級工程師或分析師，展現出在長周期內規劃、執行和自我修正的頑強能力。

業界的反應非常迅速。PromptLayer 團隊在詳細評論中指出：「Opus 4.6 是『能把事辦成』的 Claude。」這種觀點在開發者群體中得到了共鳴，該模型處理龐大程式碼庫和複雜法律文件而「不偏離主題」的能力，為實用性樹立了新的基準。

基準測試：Opus 4.6 讓 Gemini 望塵莫及

關於 Claude Opus 4.6 最具說服力的論點在於原始性能數據，特別是在模擬現實世界電腦使用（computer use）和編碼任務而非抽象問答的基準測試中。

兩項特定的基準測試脫穎而出：Terminal-Bench 2.0 和 OSWorld。Terminal-Bench 衡量 AI 處理複雜編碼環境和命令行界面的能力——本質上是它作為軟體工程師的表現。 OSWorld 則測試模型操作電腦操作系統以完成任務的能力。

在這兩個領域，Opus 4.6 都建立了領先地位。在 Terminal-Bench 2.0 上，該模型獲得了 65.4% 的分數，較其前代產品有了重大飛躍，並與 Gemini 3 Flash 等競爭模型拉開了明顯差距。更令人印象深刻的是它在 OSWorld 上的 72.7% 得分，這表明 Anthropic 在「電腦使用」方面取得了巨大進步——即 AI 自主導覽界面、點擊按鈕和管理應用程序的能力。

以下是 Claude Opus 4.6 與當前前沿模型在關鍵指標上的對比分析：

關鍵性能指標對比（2026 年 2 月）

基準測試 / 指標	Claude Opus 4.6	Gemini 3 Flash	GPT-5.2	Claude Opus 4.5
Terminal-Bench 2.0（編碼代理）	65.4%	~58%	59.8%	59.8%
OSWorld（電腦使用）	72.7%	<70%	N/A	<60%
GDPval-AA（經濟任務 Elo）	1606	N/A	1462	1416
ARC-AGI v2（推理）	68.8%	N/A	N/A	37.6%
MRCR v2（長上下文檢索）	76%	高	高	18.5%

數據顯示出一個明顯的趨勢：對於需要「代理能力（Agency）」——即獨立採取行動解決問題的能力——的任務，Opus 4.6 目前無人能敵。ARC-AGI v2 分數的大幅提升（從上一版本的 37.6% 提高到 68.8%）表明模型在處理其訓練數據中未曾見過的全新、多步驟推理問題方面發生了質的轉變。

超越原始 Token：一致性的架構

Claude Opus 4.6 最顯著的技術成就之一不僅在於其上下文視窗（Context window）的大小，還在於它如何管理這些上下文。Gemini 3 Flash 和 Opus 4.6 都擁有 100 萬個 token 的上下文視窗，理論上允許它們攝取海量數據。然而，純粹的容量往往會導致「遺忘中間內容（lost in the middle）」的現象，即模型會忘記埋藏在文本深處的細節。

Anthropic 引入了一項名為 上下文壓縮（Context Compaction） 的功能。這種機制會自動總結較舊的對話歷史，以在長時間的對話中保持連貫性。該模型並非簡單地將上下文視窗視為原始緩衝區，而是主動管理其記憶，確保在長編碼環節或法律審查開始時提供的關鍵指令，不會在用戶達到 500,000 個 token 標記時因幻覺而消失。

PromptLayer 報告的內部測試顯示，在 MRCR v2 檢索測試中，Opus 4.6 達到了 76% 的準確度，較 Opus 4.5 的 18.5% 有了驚人的提升。這種可靠性使得 100 萬 token 的視窗在企業應用中具有實際用途，例如審計財務記錄或重構舊有程式碼庫——在這些任務中，單個細節的缺失都可能是災難性的。

代理能力：從聊天機器人到協作者

Opus 4.6 的發布恰逢開發者與大型語言模型（LLM）互動方式的廣泛轉變。我們正從「提示工程（Prompt engineering）」轉向「代理編排（Agent orchestration）」，而 Anthropic 專門針對這一未來調整了該模型。

一項關鍵創新是引入了 代理團隊（Agent Teams）。此功能允許一個主導 AI 代理拆解一個複雜專案（例如構建一個全端 Web 應用程序），並將子任務委派給並行運行的其他模型實例。與以往單個模型嘗試線性處理任務所有方面不同，代理團隊模仿了人類的工作流程，由一名經理協調專業人員。

這種能力由 適應性思考（Adaptive Thinking）模式 驅動，該模式取代了舊的「擴展思考」功能。用戶現在可以將推理強度從「低」調整到「最高」。對於簡單的查詢，模型會立即響應；對於複雜的架構決策，它可以暫停、進行更深層次的「思考」，並在編寫第一行程式碼之前生成一個更穩健的計劃。

使用該模型的開發者報告稱，Opus 4.6 比其競爭對手更加主動。它不會等待下一個提示，而是識別必要的子任務，提出澄清性問題，並推動專案完成。一位早期測試者指出，該模型在第一次嘗試時就解決了 87.5% 的編碼任務，而之前的版本僅為 62.5%。

企業和開發者生態系統

在對高可靠性 AI 有需求的各大科技巨頭中，採用速度非常快。Notion、GitHub 和 Replit 都是首批發布合作夥伴，將 Opus 4.6 整合到了其核心產品中。

Notion 利用它驅動一個表現「更像協作者而非工具」的助手。
GitHub Copilot 在上下文感知至關重要的複雜、多步驟程式碼生成中使用該模型。
Replit 利用其代理規劃能力幫助用戶在雲端 IDE 環境中構建軟體。

除了編碼，Anthropic 還在積極瞄準通用業務工作流。此次更新包括對 Claude in Excel 的重大增強，允許進行自然語言試算表生成和複雜的數據分析，足以媲美人類數據分析師。此外，Claude in PowerPoint 的預覽展示了模型生成投影片大綱和建議視覺化的能力，直接攻擊微軟 Copilot 在辦公生產力領域的堡壘。

安全專家也在 Opus 4.6 中找到了一個強大的盟友。在一次審計能力的演示中，Anthropic 團隊使用該模型掃描開源倉庫，成功識別出超過 500 個先前未知的嚴重漏洞。僅憑這項能力就足以讓許多網路安全公司支付該模型的費用。

定價與可用性

儘管性能大幅提升，Anthropic 的標準層級 API 定價仍保持競爭力：

輸入（Input）：每百萬 token 5 美元
輸出（Output）：每百萬 token 25 美元

然而，對於使用超過 200k token 擴展上下文能力的用戶，將面臨溢價（$10/$37.50），這反映了管理海量活動記憶的計算強度。對於個人「Pro」用戶，訂閱費用維持在每月 20 美元，但由於模型增加了每個 token 的計算量，新推理功能的重度用戶可能會比以前更快達到訊息上限。

權衡：速度 vs. 深度

雖然 Claude Opus 4.6 在專業任務上取得了勝利，但也並非沒有權衡。早期評論的主要批評是其在創意寫作風格上的退步。用於磨練模型邏輯和編碼能力的強化學習技術似乎削弱了其文筆。

追求「奇幻故事」或高度風格化創意內容的用戶可能會發現，與 Claude 4.5 或 Gemini 生動的輸出相比，Opus 4.6 的輸出「更簡潔、更實事求是」。對於創意作家來說，舊款模型或競爭對手可能仍是更好的選擇。

此外還有速度因素。Gemini 3 Flash 名副其實，提供近乎實時的響應和原生影片處理能力，而 Opus 4.6 並未嘗試在這些方面匹配。如果使用場景需要分析實況影片流或低延遲聊天，Google 仍然是更優的選擇。

結論：分層化的市場

Claude Opus 4.6 的發布標誌著 AI 市場正向不同的專業化領域趨於成熟。我們不再尋找一個「統治所有領域的模型」，相反，我們看到了分層化：Google Gemini 主導高速、多模態的消費者領域，而 Anthropic 的 Claude 則牢牢確立了自己作為深度、認知和專業工作首選引擎的地位。

對於 Creati.ai 的讀者——開發者、工程師和企業領袖——選擇正變得越來越清晰。如果您的工作流涉及複雜的問題解決、大規模編碼或數據密集型分析，Claude Opus 4.6 就是您工具箱中新的必備工具。它可能寫不出最富有詩意的詩篇，但它很可能會編寫出驅動發布該詩篇平台的程式碼。