Anthropic 發布 Claude Opus 4.6，具備 100 萬個 token 的上下文視窗與代理團隊

Anthropic 透過 Claude Opus 4.6 與自主代理團隊（Autonomous Agent Teams）重新定義企業級 AI

Anthropic 正式發布了 Claude Opus 4.6，這是其旗艦模型系列的重大升級，旨在解決人工智慧（Artificial Intelligence）中兩個最持久的瓶頸：有效的長上下文保留（Long-context retention）和自主多代理協調（Autonomous multi-agent coordination）。此更新於 2026 年 2 月 5 日發布，將 Opus 4.6 定位為高風險企業工作流的新業界標準，擁有可用的 **1M 代幣上下文視窗（Context window）以及革命性的代理團隊（Agent Teams）**功能，允許多個 AI 實例並行協作。

對於依賴生成式 AI（Generative AI）進行複雜決策、軟體工程和大規模數據分析的組織而言，Opus 4.6 代表了從實驗性輔助到可靠、自主執行的轉變。

打破「上下文腐爛」障礙

Claude Opus 4.6 的核心功能是其大規模擴展且高度可靠的 1M 代幣上下文視窗。雖然過去其他模型也宣稱擁有百萬代幣的容量，但它們通常受困於「上下文腐爛（Context rot）」——這是一種隨著對話長度增加，模型會「遺忘」或產生幻覺（Hallucination）細節的性能下降現象。

Anthropic 聲稱已有效解決了這個問題。在 MRCR v2 基準測試（一項嚴格的「大海撈針（Needle-in-a-haystack）」測試）的內部測試中，Opus 4.6 在完整的 100 萬代幣深度下達到了 76% 的檢索準確率。相比之下，其前身 Claude Sonnet 4.5 在同一評估中的得分僅為 18.5%。

這一技術飛躍直接轉化為商業價值。企業現在可以將大約 15 到 20 本完整長度的書籍、整個專利組合或海量遺留代碼庫輸入到單個提示中，而不會破壞模型的推理能力。法律事務所可以一次性分析數千頁的案例法，醫藥研究人員可以交叉引用多年的臨床試驗數據，而無需複雜的「分塊（Chunking）」或檢索增強生成（Retrieval-augmented generation，RAG）規避方案。

代理團隊：並行智慧時代

除了模型更新，Anthropic 還推出了 代理團隊（Agent Teams），這是目前在 Claude Code 中進行研究預覽的功能。這項功能超越了單個聊天機器人按順序回答查詢的範式。相反，它允許一個主「編排者（Orchestrator）」代理啟動多個子代理，並分配不同的任務以便同時執行。

這種架構模仿了人類工程團隊。例如，在軟體開發場景中：

編排者將功能請求拆分為多個組件。
代理 A 編寫後端 API 邏輯。
代理 B 開發前端介面。
代理 C 編寫測試套件。

這些代理使用隔離環境（透過 tmux 面板可視化）並行運行，自主溝通更新並合併工作。為了展示該系統的強大功能，Anthropic 透露，一個內部代理團隊成功地從零開始構建了一個基於 Rust 的 C 編譯器，這項任務涉及超過 100,000 行代碼，並需要複雜的問題解決技能，此前被認為是 AI 無法觸及的。

自適應思維與企業控制

Opus 4.6 引入了 自適應思維（Adaptive Thinking），取代了先前版本的手動「擴展思維」配置。模型現在具備元認知（Metacognitive）能力，可以評估用戶提示的複雜程度，並自動決定分配多少「思考時間」（以及計算預算）。

對於企業開發者而言，這消除了設置代幣預算的猜測工作。然而，Anthropic 透過新的**努力程度參數（Effort Parameter）**為用戶保留了控制權，允許組織根據任務的優先級來決定成本性能比：

低（Low）： 用於例行摘要和快速數據格式化。
中（Medium）： 用於標準編碼和寫作任務的平衡性能。
高（High，預設）： 複雜推理的標準。
最高（Max）： 用於關鍵、高價值問題解決的無限制推理。

這種細粒度控制使企業能夠經濟地部署 Opus 4.6，僅將最昂貴的「最高（Max）」推理保留給真正需要的任務，例如識別安全漏洞或戰略市場分析。

基準測試主導地位

在 2026 年的競爭格局中，Claude Opus 4.6 重新確立了 Anthropic 的領導地位。在衡量經濟價值知識工作（金融、法律、戰略）績效的獨立基準測試 GDPval-AA 上，Opus 4.6 的表現比 OpenAI 的 GPT-5.2 高出約 144 Elo 分。

此外，在評估現實世界代理編碼能力的 Terminal-Bench 2.0 上，Opus 4.6 以 65.4% 的得分奪得魁首，領先於專門的編碼模型。這強化了其不僅作為文本生成器，而且作為能夠導航計算機界面並執行複雜命令行任務的功能操作員的效用。

技術比較：Opus 4.6 與同類產品

下表概述了 Claude Opus 4.6 與其前身及當前市場主要競爭對手的對比。

功能類別|Claude Opus 4.6|Claude Sonnet 4.5|GPT-5.2 (OpenAI)
---|---|----
上下文視窗|1,000,000 代幣（測試版）|200,000 代幣|128,000 代幣
長上下文準確度|76% (MRCR v2 @ 1M)|18.5% (MRCR v2 @ 1M)|不適用（受限上下文）
代理能力|原生代理團隊（並行）|順序執行|單個代理 / Codex CLI
推理模型|自適應思維（自動）|標準 / 擴展|思維鏈（Chain-of-Thought）
編碼得分|65.4% (Terminal-Bench 2.0)|59.8% (Terminal-Bench)|64.7% (Terminal-Bench)
定價 (輸入)|$5.00 / 1M 代幣|$3.00 / 1M 代幣|$4.50 / 1M 代幣

結論：全新的工作作業系統

Claude Opus 4.6 的發布不僅僅是規格的提升；它是 AI 融入勞動力方式的結構性變革。透過解決長上下文檢索的可靠性問題並實現並行代理協作，Anthropic 為真正的自主企業工作流提供了基石。

對於 Creati.ai 的讀者和 AI 專業人士來說，訊息很明確：瓶頸不再是模型的閱讀能力或編碼能力，而是我們設計利用這些新型、大規模代理工作流的能力。隨著代理團隊從預覽版走向正式商用，我們預計將看到軟體構建方式、法律調查執行方式以及全球企業管理數據方式的快速轉變。