
在 MWC 2026 對行動人工智慧的一個決定性時刻,Google 宣布對 Gemini Live 進行具變革性的更新,使其對話式 AI 能夠透過即時視訊與螢幕共享去「看見」並理解世界。此項發展標誌著「Project Astra」願景的商業化實現,將 Gemini Live 從僅限語音互動提升為能即時處理視覺資料的完整多模態體驗。
此更新預定於 2026 年 3 月在 Android 裝置上向 Advanced 訂閱者推出,讓 Google 能夠與競爭對手的多模態模型積極競爭,為使用者提供一個不僅能聽與說,還能觀察並分析實體環境與螢幕內容的數位助理。
這次更新的核心是將即時視覺處理整合進 Gemini Live 介面。先前使用者可以與 Gemini 對話,但除非手動上傳照片,否則 AI 無法掌握使用者的即時環境上下文。隨著新的 即時視訊分析 功能,情況發生了根本性的變化。
使用者現在可以在 Gemini Live 會話中啟用相機,讓 AI 處理連續的視訊串流。這讓互動更為自然與流暢,AI 能夠辨識物體、識讀真實世界中的文字,並在不需使用者拍攝靜態影像的情況下提供情境建議。
實際應用廣泛。Google 在宣布時展示了幾個具說服力的使用情境:
超越實體世界,Google 也透過 螢幕情境 功能,讓 Gemini Live 深入了解數位工作空間。這項功能允許 AI 在對話期間「觀看」使用者的螢幕,橋接背景協助與主動協作之間的差距。
啟用時,使用者可以點選「與 Live 共享螢幕」按鈕,授權 AI 分析正在使用的應用程式或網站。與單純的螢幕截圖分析不同,這個功能支援使用者在操作裝置時持續進行對話。
螢幕共享的主要使用情境:
從先前版本的 Gemini Live 轉變到這個新的多模態版本,代表了功能上的重大飛躍。下表概述了主要差異:
| **功能集 | Gemini Live (2025) | Gemini Live Multimodal (2026)** |
|---|---|---|
| 主要輸入 | 語音與文字 | 語音、文字、即時視訊、螢幕共享 |
| 視覺情境 | 僅限靜態圖片上傳 | 即時連續視訊串流 |
| 互動風格 | 輪替式語音 | 流暢的多模態對話 |
| 延遲 | 標準處理 | 優化低延遲(Project Astra Tech) |
| 螢幕感知 | 有限(基於截圖) | 主動螢幕監控與導航支援 |
此更新主要由 Google 的「Project Astra」所取得的進展驅動,這是一項專注於構建能即時感知、推理與行動的通用 AI 代理的研究計畫。這些功能從研究示範轉為消費者產品,凸顯了 Google 在 生成式 AI(Generative AI) 領域加速的開發週期。
為達成針對視訊所需的低延遲,Google 已優化其 Gemini 2.0 架構。處理連續視訊影格需要龐大的運算能力;Google 採取混合式做法,將部分資料在裝置端處理(透過最新的 Tensor chips),同時將複雜的推理工作卸載到雲端。這可確保當使用者在平移相機時詢問「那棟建築是什麼?」時,回應幾乎是即時的。
隨著這類「隨時觀察」的 AI 功能問世,隱私仍然是首要關切。Google 為這些新功能實施了嚴格的防護措施:
Google 已確認這些功能最初不會提供給 Gemini 的免費等級使用者。此更新預定於 2026 年 3 月推出,僅供 Google One AI Premium 計畫中的 Advanced 訂閱者使用。
此啟動將以 Android 生態系為優先,並計畫與 Pixel 裝置及 Samsung 最新的 Galaxy S 系列深度整合。雖然預期會推出 iOS 版,但在 MWC 的發布上並未給出具體時間表。此策略凸顯 Google 希望以其 AI 實力作為 Android 平台的關鍵差異化競爭力。
隨著數位助理與人類級感知之間的界線逐漸模糊,Gemini Live 的新功能為競爭者設定了高門檻。能夠在說話、展示與共享之間無縫切換,打造出一種最終能符合科幻中「始終察覺」AI 夥伴承諾的 行動助理 體驗。