
Google 已正式將其最先進的生成式影片模型 Veo 3 整合至 Google Photos,這標誌著用戶與數位圖庫互動方式的重大飛躍。此更新將靜態影像轉化為動態、高保真影片,利用最先進的 AI 技術,從單個靜態幀中預測並生成逼真的動作、光影和紋理變化。
多年來,Google Photos 一直是數十億用戶的靜態存儲庫。隨著 Veo 3 的引入,該平台從被動的檔案庫轉變為主動的創意工作室。這種整合將專業級的影片合成直接帶入消費者行動體驗中,讓以前僅限於專業製作軟體的高端生成式媒體工具變得普及。
此更新的核心是 Veo 3 模型,這是 Google 的旗艦生成式影片 AI。與主要依賴深度映射來創建視差效果(稱為「電影感相片」)的前代產品不同,Veo 3 能夠理解影像的語義上下文。它可以區分流動的河流、搖曳的燭火或微笑的孩童,並為每個主體應用符合物理規律的獨特動作。
該 AI 不僅僅是扭曲像素;它會「幻覺」生成邏輯上銜接原始影像的新幀。例如,如果用戶選擇一張生日蛋糕的照片,Veo 3 可以生成火焰細微的閃爍和升起的煙霧。如果主體是在公園奔跑的寵物,該模型可以合成毛髮和草地的自然運動,創建一段 3-4 秒、感覺像是捕捉到的回憶而非人造效果的連貫影片剪輯。
Google 簡化了用戶界面,使這項強大的技術可以在 Photos 應用的「建立」分頁中輕鬆使用。工作流程旨在追求簡單,普通用戶無需具備提示詞工程(prompt engineering)專業知識。
在選擇照片後,用戶會看到直觀的控制選項。界面目前強調兩種主要的生成模式:
對於進階用戶和 Google AI Premium 訂閱者,該整合提供了細粒度的控制,允許透過文字提示詞來引導生成。用戶可以上傳一張街道場景的照片並輸入「夕陽光效,汽車快速行駛」,Veo 3 將合成所要求的時間變化,同時保持原始照片的結構完整性。
Google 之前的努力與新的 Veo 3 實作之間存在著深遠的差異。下表概述了關鍵的技術區別:
比較:傳統電影感相片 vs. Veo 3 生成式影片
| 功能 | 傳統電影感相片 | Veo 3 生成式影片 |
|---|---|---|
| 核心技術 | 深度圖估算與視差 3D | 生成對抗網路與擴散模型 |
| 動作能力 | 僅限相機平移/縮放(剛性動作) | 複雜物體動畫(液體、火、表情) |
| 幀生成 | 扭曲現有像素;產生間隙 | 合成全新的像素與幀 |
| 上下文感知 | 有限;將物體視為剛性圖層 | 高;理解物理法則與語義動作 |
| 輸出格式 | 短暫的 3D 效果迴圈 | 連貫的、敘事驅動的影片剪輯 |
此更新正立即向美國用戶推出,並計劃在未來幾個月內擴展至全球。Google 採用了分層存取模型,以管理與影片生成相關的高昂運算成本:
這一策略舉措使 Google Photos 進一步深植於 生成式 AI 生態系統中。藉由將 Veo 3 直接嵌入數十億人使用的工具型應用程式中,Google 有效地制衡了如 OpenAI 的 Sora 和 Runway 等需要獨立應用程式的競爭對手。Google 的優勢在於其與用戶數據的鄰近性;照片已經在那裡,等待著被轉化。
由於具備從任何照片生成逼真影片的能力,Google 實施了強大的安全措施。Google Photos 中由 Veo 3 生成的所有影片都嵌入了 SynthID,這是一種可感知且不可感知的浮水印技術。這確保了 AI 生成的內容可以被平台和用戶識別,降低了與深偽(deepfakes)和虛假訊息相關的風險。此外,該模型設有護欄,會拒絕涉及敏感公眾人物或受限內容類別的生成請求。
Veo 3 整合進 Google Photos 標誌著「靜態網路」時代的終結。隨著 AI 工具變得能夠從單個數據點推斷動作和敘事,「照片」的定義正在擴大。它不再僅僅是一個凍結的瞬間,而是一個孕育無限潛在視覺故事的種子。