
Google 正式推出 Veo 3.1,這是其生成式AI(Generative AI)影片模型的最新版本,現已直接整合到 Gemini 中。這次更新代表向「mobile-first」(mobile-first)內容創作的重要轉變,特別是能夠生成可直接上傳至社群平台的 9:16 垂直影片,無需後製裁切。透過允許使用者直接對垂直格式發出提示(prompt),Google 正將 Gemini 定位為創作者經濟的綜合工具,挑戰那些仍以橫向為主生成流程的競爭者。
對於數位行銷人員、社群媒體經理與內容創作者而言,這項發展意味著像 TikTok、Instagram Reels 和 YouTube Shorts 這類平台的工作流程將更為精簡。使用者可直接要求垂直格式,省去後續裁切步驟。
Veo 3.1 的主要特色在於其能夠原生理解並生成垂直長寬比的內容。先前的文本到影片模型(text-to-video models)——以及市面上許多競爭模型——通常會生成方形(1:1)或橫向(16:9)格式的影片。要在行動平台上使用這些片段,創作者傳統上必須裁切素材。
這種「先裁切再適配」的做法帶來了幾項技術限制:
Google 對於此更新的說法強調 Veo 3.1 能「透過生成全畫幅垂直影片來優化構圖」。這暗示模型在底層訓練資料或推理過程上已針對垂直構圖慣例進行調整,例如適當的頭頂留白與垂直引導線等,這些對行動端使用者的吸引力至關重要。
產業正快速從適配桌面時代的影片格式,轉向生成行動原生內容。下表說明傳統工作流程與 Veo 3.1 原生生成之間的操作差異。
Table 1: Comparison of AI Video Generation Methodologies
| Feature | Native Vertical Generation (Veo 3.1) | Traditional Landscape Cropping |
|---|---|---|
| Aspect Ratio | Native 9:16 (Vertical) | Native 16:9 (Landscape) converted to 9:16 |
| Pixel Integrity | Retains full resolution of the generated output | Loss of approx. 60-70% of pixels due to cropping |
| Subject Framing | AI optimizes composition for vertical screens (e.g., subject centering) | Subject often moves out of the "safe zone" during motion |
| Production Speed | One-shot generation ready for upload | Requires secondary editing/reframing phase |
| Prompt Adherence | Visual elements generated specifically for vertical space | Peripheral elements in prompt may be lost in crop |
Veo 3.1 的發布時機恰逢 Google 積極主張其在生成影片領域的主導地位。根據多篇引用 LMArena 的報導——這是一個廣為引用、針對大型多模態模型(Large Multimodal Models)的基準測試——Google Veo 的各個版本目前在文本到影片排行榜上佔據前列位置。
這項排名對企業與專業使用者具重要意義。雖然存在許多實驗性模型,但高排名通常代表在提示遵從性、時間連貫性(動作流暢度)與視覺還原度方面的穩定性,這正是創意專業人士所需。將此高效能模型整合進 Gemini,Google 實際上是在把頂級影片合成技術從開發者 API 或封閉測試推向消費者端,實現更民主化的存取。
儘管 Veo 3.1 的技術能力令人印象深刻,產業觀察者也對演算法內容的飽和提出合理質疑——此類內容常被貶稱為「AI slop」。Gemini 使用者現在能輕鬆生成大量垂直影片,這加深了人們對網路內容趨於同質化的擔憂,及機器生成的「吸睛餌」與人工創作內容在能見度上的競爭。
像 Meta 這類平台已在此概念上進行實驗;推出專門捲動 AI 影片的社交介面 Vibes,顯示產業走向。批評者認為 Veo 3.1 等工具雖強大,實際上可能成為這類「無限垃圾」的引擎,透過大量低成本合成媒體淹沒使用者體驗。
然而,從 Creati.ai 的觀點來看,工具本身是中立的;其影響取決於創作者的意圖。對於專業設計師與說故事者而言,Veo 3.1 提供了一種以前所未有的速度生成高品質 B-roll、動態背景與分鏡概念的方式。創意產業的挑戰在於,如何運用這些工具提升敘事價值,而不是僅僅填滿資訊流。
Veo 3.1 與 Gemini 的整合意味著 Google 的 AI 多模態功能正走向更深的融合。使用者很可能可以利用 Gemini 強大的語言能力來發想影片概念、撰寫劇本,然後在同一介面中即刻生成相應的視覺資產。
Key advantages of this ecosystem integration include:
展望 2026 年剩餘時間,垂直影片生成的標準化可視為通往更多進階功能的前奏。我們預期未來更新可能會聚焦於:
Google Veo 3.1 代表生成式影片技術的成熟。藉由超越「做一支影片」的噱頭,並專注於現代網路所需的特定交付格式(特別是 9:16 垂直影片),Google 正把生成式 AI 轉變為實用工具。雖然有關內容飽和的討論仍具相關性,但對於專業創作者而言,其帶來的效用不容忽視:Veo 3.1 減少了創意想法到在全球最大影片平台執行之間的摩擦。