
生成式媒體(Generative Media)的邊界在本週發生了巨大變化。TikTok 的母公司 ByteDance(字節跳動)推出了 Seedance 2.0,這是下一代 AI 影片模型,已被業界人士譽為潛在的「好萊塢殺手」。
最初透過即夢 AI(Jimeng AI)平台向有限的測試群體發布,Seedance 2.0 已在社交媒體平台瘋傳,其產出的電影級片段具有一致的角色、複雜的鏡頭移動,以及最具革命性的——原生同步音訊。此次發布標誌著全球 AI 軍備競賽的重大升級,分析師將其影響與一年前震驚文本大語言模型(LLM)市場的「DeepSeek 時刻」相提並論。
與其往往在時間一致性上掙扎並需要單獨聲音工具的前代產品不同,Seedance 2.0 引入了統一的多模態架構。該模型可同時接受四種不同的輸入類型:文本、圖像、音訊和影片參考。這使得創作者能以前所未有的精度疊加指令——例如,使用文本提示詞描述敘事,使用圖像保持角色一致性,並使用參考影片來規定特定的鏡頭角度。
討論最多的功能是其 「多鏡頭敘事(Multi-Lens Storytelling)」 能力。雖然之前的模型如 OpenAI 的 Sora(目前為 2.0 版本)和快手的可靈(Kling)主要生成單個連續鏡頭,但 Seedance 2.0 可以從單個複雜提示詞生成連貫的多鏡頭序列。它能在不同角度間維持光影、物理特性和角色身份,實際上充當了自動化導演和攝影師。
Seedance 2.0 的關鍵技術規格
| 功能 | 規格 | 描述 |
|---|---|---|
| 解析度 | 高達 2K | 支援電影級 21:9 寬屏比例和標準 16:9 格式。 提供廣播級的視覺忠實度。 |
| 片段時長 | 4秒 - 15秒(可延長) | 基礎生成可創建快速片段; 智慧續寫功能允許更長的敘事流。 |
| 輸入模態 | 四模態 | 同時處理文本、圖像、音訊和影片。 允許從參考素材中進行「風格遷移」。 |
| 音訊同步 | 原生生成 | 生成對嘴口型對白、環境音效, 以及與視覺動作即時匹配的背景配樂。 |
| 生成速度 | 約 60 秒 | 據稱比 Kling 3.0 等競爭模型快 30%。 為創作者實現近乎即時的疊代。 |
AI 影片的「默片」時代似乎即將結束。Seedance 2.0 生成原生音訊(Native audio)的能力是一個關鍵的分水嶺。在 X(原 Twitter)和微博上分享的早期演示顯示,角色在沒有後期配音的情況下能以精確的口型同步說話。該模型還能生成具備情境感知能力的音效——大廳裡迴盪的腳步聲、玻璃杯的碰撞聲或樹間的風聲——這些都與視覺物理特性完美匹配。
這種整合意味著獨立創作者的工作流程將大幅簡化。「製作普通影片的成本將不再遵循影視行業的傳統邏輯,」遊戲科學(Game Science)執行長馮驥在最近關於這一轉變的聲明中指出。通過將影片和音訊生成折疊到單次推理過程中,ByteDance 實際上提供了一個「盒中工作室」解決方案。
Seedance 2.0 的發布產生了即時的財務影響。隨著公告發布,與 AI 內容製作相關的中國媒體和科技公司的股價大幅上漲。此次發布緊隨競爭對手快手的 Kling 3.0 之後,標誌著激烈的國內競爭正在部署速度上迅速超越國際對手。
行業觀察人士指出,雖然美國模型如 Sora 2 仍處於長期的測試階段,但中國公司正積極轉向公開測試。這一策略使他們能夠獲取大量的關注度和用戶數據。甚至知名科技人物也注意到了這一點;Elon Musk 對 Seedance 片段的病毒式傳播發表了評論,簡單地表示:「這發生得很快。」
然而,Seedance 2.0 的強大功能也立即引發了倫理紅線。發布後不久,用戶發現該模型僅憑面部照片就能克隆聲音,實際上允許了未經授權的身份模仿。
為了應對一波隱私疑慮和潛在的監管抵制,ByteDance 緊急停用了這項特定的「面部轉語音」功能。該事件凸顯了高保真生成式 AI(Generative AI)不穩定且具備雙重用途的本質。雖然創作潛力巨大,但深度偽造(Deepfakes)和非自願內容創作的風險仍是大規模公眾部署的關鍵瓶頸。
對於 Creati.ai 社群來說,Seedance 2.0 既是功能強大的工具,也是變革的信號。
隨著 Seedance 2.0 在即夢平台進入測試階段,它發出了一個嚴正的提醒:影片製作的未來不僅僅是即將到來;它已經在渲染之中。