AI News

Google Gemini Live Evolves into a Truly Multimodal Assistant

在 MWC 2026 對行動人工智慧的一個決定性時刻,Google 宣布對 Gemini Live 進行具變革性的更新,使其對話式 AI 能夠透過即時視訊與螢幕共享去「看見」並理解世界。此項發展標誌著「Project Astra」願景的商業化實現,將 Gemini Live 從僅限語音互動提升為能即時處理視覺資料的完整多模態體驗。

此更新預定於 2026 年 3 月在 Android 裝置上向 Advanced 訂閱者推出,讓 Google 能夠與競爭對手的多模態模型積極競爭,為使用者提供一個不僅能聽與說,還能觀察並分析實體環境與螢幕內容的數位助理。

The Era of "Eyes" for AI

這次更新的核心是將即時視覺處理整合進 Gemini Live 介面。先前使用者可以與 Gemini 對話,但除非手動上傳照片,否則 AI 無法掌握使用者的即時環境上下文。隨著新的 即時視訊分析 功能,情況發生了根本性的變化。

使用者現在可以在 Gemini Live 會話中啟用相機,讓 AI 處理連續的視訊串流。這讓互動更為自然與流暢,AI 能夠辨識物體、識讀真實世界中的文字,並在不需使用者拍攝靜態影像的情況下提供情境建議。

Real-World Applications

實際應用廣泛。Google 在宣布時展示了幾個具說服力的使用情境:

  • Troubleshooting Hardware: 使用者可以將相機對準故障的家電或汽車引擎的特定部位,Gemini Live 能識別元件並即時引導使用者完成維修步驟。
  • Creative Assistance: 在一個陶藝示範中,使用者向 Gemini 展示了一組燒製完成的花瓶。AI 分析質感與形狀,建議能達成特定「中世紀現代風格」美感的釉色。
  • Accessibility: 對於視障使用者,這項功能提供高度反應的描述工具,可即時敘述周遭環境或朗讀標示。

Intelligent Screen Awareness

超越實體世界,Google 也透過 螢幕情境 功能,讓 Gemini Live 深入了解數位工作空間。這項功能允許 AI 在對話期間「觀看」使用者的螢幕,橋接背景協助與主動協作之間的差距。

啟用時,使用者可以點選「與 Live 共享螢幕」按鈕,授權 AI 分析正在使用的應用程式或網站。與單純的螢幕截圖分析不同,這個功能支援使用者在操作裝置時持續進行對話。

螢幕共享的主要使用情境:

  1. Shopping Companion: 在瀏覽線上服飾商店時,使用者可以詢問 Gemini 某件牛仔褲是否與先前看到的襯衫相配,或根據當前流行趨勢請教造型建議。
  2. Complex Navigation: 使用地圖應用或旅遊訂票網站時,使用者可以請 Gemini 找出特定細節——例如「這些飯店中哪一家提供免費早餐且離地鐵最近?」——省去使用者手動在繁複資訊中篩選的步驟。
  3. Educational Support: 學生在檢視複雜圖表或外文文章時,可以分享螢幕,請 Gemini 現場說明概念或翻譯文字。

Comparing Gemini Live Generations

從先前版本的 Gemini Live 轉變到這個新的多模態版本,代表了功能上的重大飛躍。下表概述了主要差異:

**功能集 Gemini Live (2025) Gemini Live Multimodal (2026)**
主要輸入 語音與文字 語音、文字、即時視訊、螢幕共享
視覺情境 僅限靜態圖片上傳 即時連續視訊串流
互動風格 輪替式語音 流暢的多模態對話
延遲 標準處理 優化低延遲(Project Astra Tech)
螢幕感知 有限(基於截圖) 主動螢幕監控與導航支援

The Technology Behind the Vision

此更新主要由 Google 的「Project Astra」所取得的進展驅動,這是一項專注於構建能即時感知、推理與行動的通用 AI 代理的研究計畫。這些功能從研究示範轉為消費者產品,凸顯了 Google 在 生成式 AI(Generative AI) 領域加速的開發週期。

為達成針對視訊所需的低延遲,Google 已優化其 Gemini 2.0 架構。處理連續視訊影格需要龐大的運算能力;Google 採取混合式做法,將部分資料在裝置端處理(透過最新的 Tensor chips),同時將複雜的推理工作卸載到雲端。這可確保當使用者在平移相機時詢問「那棟建築是什麼?」時,回應幾乎是即時的。

Privacy and User Control

隨著這類「隨時觀察」的 AI 功能問世,隱私仍然是首要關切。Google 為這些新功能實施了嚴格的防護措施:

  • Explicit Activation: 相機與螢幕共享模式預設絕不啟動。使用者必須明確點選專用圖示以在會話中啟用「視覺功能」。
  • Visual Indicators: 每當 AI 「正在觀察」螢幕或相機串流時,畫面上會持續顯示明顯的通知。
  • Data Retention: Google 表示在這些即時會話中處理的視訊資料是暫時性的,預設不會永久儲存用於模型訓練,但使用者可以選擇加入以保存其互動記錄。

Rollout and Availability

Google 已確認這些功能最初不會提供給 Gemini 的免費等級使用者。此更新預定於 2026 年 3 月推出,僅供 Google One AI Premium 計畫中的 Advanced 訂閱者使用。

此啟動將以 Android 生態系為優先,並計畫與 Pixel 裝置及 Samsung 最新的 Galaxy S 系列深度整合。雖然預期會推出 iOS 版,但在 MWC 的發布上並未給出具體時間表。此策略凸顯 Google 希望以其 AI 實力作為 Android 平台的關鍵差異化競爭力。

隨著數位助理與人類級感知之間的界線逐漸模糊,Gemini Live 的新功能為競爭者設定了高門檻。能夠在說話、展示與共享之間無縫切換,打造出一種最終能符合科幻中「始終察覺」AI 夥伴承諾的 行動助理 體驗。

精選
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
VoxDeck
引領視覺革命的AI簡報製作工具
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
Anijam AI
Anijam 是一個 AI 原生動畫平台,透過代理式影片創作將點子轉化為精緻的故事。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
Claude API
Claude API for Everyone
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
InstantChapters
即時生成吸引人的書籍章節。
Image to Video AI without Login
免費的影像轉影片 AI 工具,立即將照片轉成平滑且高品質的動畫影片,並且無浮水印。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。

Google Gemini Live 新增影片與螢幕共享功能

Google 宣布 Gemini Live 現在可以透過即時影片和畫面共享看到,將於 2026 年 3 月在 Android 上向 Advanced 訂閱者推出。