
在一項決定性的舉動中,Google 正式發表了專為職業數位創作者打造的 AI 電影製作平台 Flow,以鞏固其在生成式媒體(generative media)領域的地位。該平台於最新的硬體與軟體發表會中亮相,Flow 並非單純整合既有工具的包裝,而是一個由 Google 最新基礎模型(foundational models)驅動的完整工作空間:用於影片的 Veo 3 與用於靜態影像的 Imagen 4。
此項發布解決了 AI 創意市場長期存在的分散問題,以往使用者必須在圖像生成、動畫與音效設計等不同服務間切換。Flow 將這些步驟整合到單一、一致的介面中,但真正的重點在於它的多模態(multimodal)能力:Google 的影片生成模型首次原生產出同步音訊,有效縮短了從無聲素材到可用電影內容之間的差距。
推動 Flow 影片能力的引擎是 Veo 3,它是 Google 高保真影片模型的繼任者。雖然 Veo 2 以視覺清晰度令人印象深刻,Veo 3 則引入了一個被稱為「原生音訊生成(native audio generation)」的範式轉變。過去,AI 影片工具需要第二次處理來加入聲音——這常常導致音軌支離破碎或過於通用。
Veo 3 能理解它所生成視覺場景的聲學特性。若使用者提示一個包含賽博朋克街市(cyberpunk street market)的場景,Veo 3 會同步生成影片並合成特定的劇內音效(diegetic sounds):霓虹招牌的嗡嗡聲、人群的遠處喧嘩,以及上方無人機的機械嗡鳴。
這種音視覺一致性(audio-visual coherence)也延伸到對話。Google 展示了 Veo 3 在角色口型對齊(lip-syncing)上的準確能力,這一直是生成式影片的弱點之一。透過同步處理音訊與視訊波形,該模型確保嘴部動作精準對應語音模式,大幅降低了許多競品工具常見的詭異谷(uncanny valley)效應。
支援影片生成流程的是 Imagen 4,這是 Google 文字轉圖像模型(text-to-image model)最新的版本。在 Flow 生態系中,Imagen 4 擔任「概念藝術家」的角色,允許使用者生成高解析度的參考畫格,以在套用動態之前定義專案的美學方向。
Imagen 4 在遵從提示(prompt adherence)和文字渲染方面有顯著改善。過去的模型在影像中的招牌或標籤上常常無法產生可辨認的文字,但 Imagen 4 以近乎完美的準確度處理排版(typography)。這對於商業工作至關重要,例如生成產品 mockup 或需要特定招牌的建立鏡頭。
| Feature | Veo 2 / Imagen 3 | Flow (Veo 3 & Imagen 4) |
|---|---|---|
| Audio Support | 僅輸出無聲(需要外部音訊工具) | 原生生成(音效、環境音、對話) |
| Text Rendering | 經常亂碼或不一致 | 透過 Imagen 4 提供高保真、可辨識的字體排版 |
| Lip Syncing | 原生不支援 | 整合音視覺同步 |
| Resolution | 放大至 1080p | 原生 4K 能力 |
| Workflow | 單次生成 | 使用「Ingredients」的時間軸編輯 |
Google Flow 區別於簡單的「輸入提示、等待結果」生成器,提供一套名為「Ingredients」的基於節點的工作流程系統(node-based workflow system)。此功能允許創作者將影片的元素——角色、風格、背景與燈光——視為獨立且可重用的資產。
使用者不必重複輸入提示以期望一致性,而可上傳由 Imagen 4 生成的角色參考圖像並鎖定為一個「Ingredient」。Veo 3 之後會在多個鏡頭中使用該資產,確保角色的面部特徵與服裝在整個序列中保持一致。這種資產的持久性解決了以往阻礙 AI 影片用於長篇敘事的閃爍(flicker)與身份切換(identity-switching)問題。
此外,Flow 與 Google 的多模態助理 Gemini 深度整合。使用者可以用自然語言操作時間軸,像是要求 Gemini「把燈光改成黃金時刻」或「縮短剪輯節奏」。這降低了複雜剪輯任務的入門門檻,讓創作者能更專注於敘事,而非技術限制。
Flow 定位為創意產業的進階工具。它已立即向 Google AI Ultra 方案的訂閱者推出,並為需更高影格率上限與更快渲染時間的企業使用者提供「Flow Pro」級別。
該平台也與 Google Workspace 完全整合。行銷團隊可以直接從 Flow 匯出資產到 Google Drive 或 Slides,簡化協作審核流程。消費者版本適合快速試驗,而企業版本則透過 SynthID 提供穩健的浮水印功能,將不可察覺的元資料嵌入內容以標註為 AI 生成,這對商業合規與透明度而言是一項關鍵步驟。
結合 Imagen 4 的寫實精準度與 Veo 3 的音視覺同步性,Google Flow 企圖將產業推離 AI 影片的噱頭階段。它讓人得以窺見一個未來:從有了想法到螢幕上看到它——並且擁有完整聲音——之間的摩擦幾乎不存在。