AI News

Google 以能動式視覺(Agentic Vision)改造 Gemini 3 Flash 的視覺 AI

Google 已正式公布「能動式視覺(Agentic Vision)」,這是對其輕量級模型 Gemini 3 Flash 的突破性升級,從根本上改變了人工智慧解讀視覺資料的方式。此項新功能於 2026 年 1 月底釋出,將 AI 的視覺能力從被動、靜態的觀察過程,轉變為主動、調查導向的工作流程。透過整合「思考—行動—觀察」循環(Think-Act-Observe),Gemini 3 Flash 現在可以撰寫並執行程式碼,自主檢視、處理與分析影像,其精準度達到傳統多模態模型先前難以企及的程度。

此一發展標誌著生成式 AI(Generative AI)競爭格局的重要轉變,解決了模型處理細節視覺資訊時長期存在的侷限。過去傳統模型在一次處理中,可能會對細小文字或複雜圖表做出「猜測」,而能動式視覺(Agentic Vision)則賦能 AI 如同人類調查者般行動——放大、重新定向並依據視覺證據進行計算。

從靜態觀察到主動檢視的轉變

能動式視覺(Agentic Vision)的核心創新在於擺脫「一次處理」的做法。在先前世代的視覺語言模型(Vision Language Models,VLMs)中,AI 會在單一次前向傳遞中處理整張影像。雖然這對一般描述有效,但面對高資訊密度的情況,例如遠處的街牌、微晶片上的序號或擁擠的技術示意圖時,這種方法經常失靈。

能動式視覺以動態迴圈取代這種靜態方法。當面臨複雜的視覺任務時,Gemini 3 Flash 並非簡單地輸出即時答案。相反地,它會啟動一個結構化的推理流程:

  1. 思考(Think): 模型分析使用者的提示與初始影像,制定出多步驟計畫。
  2. 行動(Act): 它產生並執行 Python 程式碼以主動處理影像。這可能包括裁切特定區域、旋轉視角或套用註記。
  3. 觀察(Observe): 轉換後的影像資料會被附回模型的上下文視窗,讓模型在生成最終回應前重新檢視新證據。

這一遞迴流程讓模型能以像素級資料「落地」其推理,大幅降低幻覺(hallucination)的機率。Google 報告指出,這種主動檢視方法在大多數視覺基準測試上可帶來穩定的 5–10% 品質提升,對於需要精確定位與計數的任務,提升幅度尤其顯著。

「視覺草稿板」與以程式碼驅動的推理

能動式視覺最實用的應用之一是所謂的「視覺草稿板」。在被要求執行計數任務時——例如辨識一隻手上有多少根手指或架上有多少件物品——Gemini 3 Flash 現在可利用 Python 繪製邊界框並對每個偵測到的物件指派數字標籤。

此功能解決了生成式 AI 在複雜場景中準確計數上的臭名昭著弱點。透過將計數邏輯交給確定性的程式碼執行,而非僅仰賴機率性的詞元生成,模型能確保更高的準確度。

能動式視覺(Agentic Vision)的主要能力:

Feature Description Benefit
能動放大(Active Zooming) 模型自主裁切並調整影像區段大小以檢視細節。 讓模型能在無需使用者介入的情況下讀取小字、序號與遠處物體。
視覺運算(Visual Arithmetic) 解析高密度表格並執行 Python 程式碼,對擷取的資料進行計算。 消除標準大型語言模型在處理財務或科學資料時常見的計算錯誤。
反覆註解(Iterative Annotation) 使用「視覺草稿板」在分析過程中於影像上繪製邊界框與標籤。 以視覺方式驗證計數與定位,降低物件偵測任務中的幻覺。
動態操作(Dynamic Manipulation) 能在分析前旋轉或變換影像以修正方向。 改善對於文件掃描或以奇怪角度拍攝之照片的理解。

技術實作與可用性

將程式碼執行直接整合進視覺管線,使 Gemini 3 Flash 獨樹一幟。透過允許模型使用工具——特別是 Python——來改變其自身的視覺輸入,Google 實質上給了 AI 一把放大鏡與一台計算機。

目前,能動式視覺可透過 Google AI Studio 與 Vertex AI 中的 Gemini API 提供給開發者使用。它也正透過 Gemini 應用程式中的「Thinking」模型選擇向一般使用者逐步推出。雖然當前版本著重於隱式放大與程式碼執行,Google 已規劃路線圖,包含更進階的隱式行為。未來更新目標是自動化複雜的轉換,如旋轉與視覺運算,而不需要使用者在提示中明確提示。

此外,Google 計畫擴充能動式視覺可使用的工具集。即將到來的整合可能允許模型利用網路搜尋與反向影像搜尋,使其能將視覺資料與外部資訊交叉比對,進一步鞏固其對世界的理解。

對企業與開發的影響

對於開發者與企業用戶而言,能動式視覺提供在文件處理與自動檢驗上的更可靠解決方案。仰賴從技術圖紙擷取資料、在照片中驗證合規性或數位化類比紀錄的產業,都能利用模型透過「思考—行動—觀察」循環「反覆確認」其作業的能力。

此次釋出使 Gemini 3 Flash 成為針對能動式工作流程的高度專用工具,在此類場景中,準確性與推理深度優先於純粹速度。隨著 AI 代理變得更自主,主動驗證視覺輸入的能力將是從實驗性原型轉向可靠、可實際運用系統的關鍵。

精選
ThumbnailCreator.com
利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
VoxDeck
引領視覺革命的AI簡報製作工具
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
InstantChapters
即時生成吸引人的書籍章節。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
Telegram Group Bot
TGDesk 是一款多合一的 Telegram 群組機器人,用於擷取潛在客戶、提升互動並擴展社群。
FalcoCut
FalcoCut:基於網頁的 AI 平台,用於影片翻譯、虛擬人影片、語音複製、換臉與短影片生成。

Google 發表 Gemini 3 Flash 的主動代理視覺:能主動分析並操作影像的 AI

Google 推出結合視覺推理與程式碼執行的突破性功能,讓 AI 能透過 Think-Act-Observe 循環檢查、縮放並操作影像。