Google 發表 Gemini 3 Flash 的主動代理視覺：能主動分析並操作影像的 AI

Google 以能動式視覺（Agentic Vision）改造 Gemini 3 Flash 的視覺 AI

Google 已正式公布「能動式視覺（Agentic Vision）」，這是對其輕量級模型 Gemini 3 Flash 的突破性升級，從根本上改變了人工智慧解讀視覺資料的方式。此項新功能於 2026 年 1 月底釋出，將 AI 的視覺能力從被動、靜態的觀察過程，轉變為主動、調查導向的工作流程。透過整合「思考—行動—觀察」循環（Think-Act-Observe），Gemini 3 Flash 現在可以撰寫並執行程式碼，自主檢視、處理與分析影像，其精準度達到傳統多模態模型先前難以企及的程度。

此一發展標誌著生成式 AI（Generative AI）競爭格局的重要轉變，解決了模型處理細節視覺資訊時長期存在的侷限。過去傳統模型在一次處理中，可能會對細小文字或複雜圖表做出「猜測」，而能動式視覺（Agentic Vision）則賦能 AI 如同人類調查者般行動——放大、重新定向並依據視覺證據進行計算。

從靜態觀察到主動檢視的轉變

能動式視覺（Agentic Vision）的核心創新在於擺脫「一次處理」的做法。在先前世代的視覺語言模型（Vision Language Models，VLMs）中，AI 會在單一次前向傳遞中處理整張影像。雖然這對一般描述有效，但面對高資訊密度的情況，例如遠處的街牌、微晶片上的序號或擁擠的技術示意圖時，這種方法經常失靈。

能動式視覺以動態迴圈取代這種靜態方法。當面臨複雜的視覺任務時，Gemini 3 Flash 並非簡單地輸出即時答案。相反地，它會啟動一個結構化的推理流程：

思考（Think）： 模型分析使用者的提示與初始影像，制定出多步驟計畫。
行動（Act）： 它產生並執行 Python 程式碼以主動處理影像。這可能包括裁切特定區域、旋轉視角或套用註記。
觀察（Observe）： 轉換後的影像資料會被附回模型的上下文視窗，讓模型在生成最終回應前重新檢視新證據。

這一遞迴流程讓模型能以像素級資料「落地」其推理，大幅降低幻覺（hallucination）的機率。Google 報告指出，這種主動檢視方法在大多數視覺基準測試上可帶來穩定的 5–10％品質提升，對於需要精確定位與計數的任務，提升幅度尤其顯著。

「視覺草稿板」與以程式碼驅動的推理

能動式視覺最實用的應用之一是所謂的「視覺草稿板」。在被要求執行計數任務時——例如辨識一隻手上有多少根手指或架上有多少件物品——Gemini 3 Flash 現在可利用 Python 繪製邊界框並對每個偵測到的物件指派數字標籤。

此功能解決了生成式 AI 在複雜場景中準確計數上的臭名昭著弱點。透過將計數邏輯交給確定性的程式碼執行，而非僅仰賴機率性的詞元生成，模型能確保更高的準確度。

能動式視覺（Agentic Vision）的主要能力：

Feature	Description	Benefit
能動放大（Active Zooming）	模型自主裁切並調整影像區段大小以檢視細節。	讓模型能在無需使用者介入的情況下讀取小字、序號與遠處物體。
視覺運算（Visual Arithmetic）	解析高密度表格並執行 Python 程式碼，對擷取的資料進行計算。	消除標準大型語言模型在處理財務或科學資料時常見的計算錯誤。
反覆註解（Iterative Annotation）	使用「視覺草稿板」在分析過程中於影像上繪製邊界框與標籤。	以視覺方式驗證計數與定位，降低物件偵測任務中的幻覺。
動態操作（Dynamic Manipulation）	能在分析前旋轉或變換影像以修正方向。	改善對於文件掃描或以奇怪角度拍攝之照片的理解。

技術實作與可用性

將程式碼執行直接整合進視覺管線，使 Gemini 3 Flash 獨樹一幟。透過允許模型使用工具——特別是 Python——來改變其自身的視覺輸入，Google 實質上給了 AI 一把放大鏡與一台計算機。

目前，能動式視覺可透過 Google AI Studio 與 Vertex AI 中的 Gemini API 提供給開發者使用。它也正透過 Gemini 應用程式中的「Thinking」模型選擇向一般使用者逐步推出。雖然當前版本著重於隱式放大與程式碼執行，Google 已規劃路線圖，包含更進階的隱式行為。未來更新目標是自動化複雜的轉換，如旋轉與視覺運算，而不需要使用者在提示中明確提示。

此外，Google 計畫擴充能動式視覺可使用的工具集。即將到來的整合可能允許模型利用網路搜尋與反向影像搜尋，使其能將視覺資料與外部資訊交叉比對，進一步鞏固其對世界的理解。

對企業與開發的影響

對於開發者與企業用戶而言，能動式視覺提供在文件處理與自動檢驗上的更可靠解決方案。仰賴從技術圖紙擷取資料、在照片中驗證合規性或數位化類比紀錄的產業，都能利用模型透過「思考—行動—觀察」循環「反覆確認」其作業的能力。

此次釋出使 Gemini 3 Flash 成為針對能動式工作流程的高度專用工具，在此類場景中，準確性與推理深度優先於純粹速度。隨著 AI 代理變得更自主，主動驗證視覺輸入的能力將是從實驗性原型轉向可靠、可實際運用系統的關鍵。