
今週、生成メディアの境界が劇的に変化しました。TikTokの親会社であるByteDance(バイトダンス)は、業界関係者の間で早くも潜在的な「ハリウッド・キラー(Hollywood killer)」として称賛されている次世代AIビデオモデル、Seedance 2.0を発表しました。
Jimeng AIプラットフォームを通じて、当初は限定的なベータグループに向けてリリースされたSeedance 2.0は、SNSプラットフォーム上で瞬く間に拡散されました。一貫したキャラクター、複雑なカメラワーク、そしておそらく最も革命的な点として、ネイティブに同期されたオーディオを備えた映画のようなクリップを生成しています。このリリースは、世界のAI軍拡競争における大きな激化を意味しており、アナリストはその影響を、わずか1年前にテキストベースのLLM市場を震撼させた「DeepSeekモーメント(DeepSeek moment)」になぞらえています。
時間的な一貫性に苦労し、音声には別のツールを必要とすることが多かった従来モデルとは異なり、Seedance 2.0は統合されたマルチモーダル・アーキテクチャを導入しています。このモデルは、テキスト、画像、音声、ビデオのリファレンスという、最大4つの異なる入力タイプを同時に受け入れます。これにより、クリエイターは、物語にはテキストプロンプトを、キャラクターの一貫性には画像を、特定のカメラアングルを指定するには参照ビデオを使用するなど、かつてない精度で指示を重ねることが可能になります。
最も話題となっている機能は、その「マルチレンズ・ストーリーテリング(Multi-Lens Storytelling)」能力です。OpenAIのSora(現在はバージョン2)やKuaishou(快手)のKlingといった従来のモデルが主に単一の連続ショットを生成していたのに対し、Seedance 2.0は単一の複雑なプロンプトから一貫したマルチショットシーケンスを生成できます。異なるアングル間でも照明、物理法則、キャラクターのアイデンティティを維持し、事実上の自動ディレクターおよび撮影監督として機能します。
Seedance 2.0の主な技術仕様
| 機能 | 仕様 | 説明 |
|---|---|---|
| 解像度(Resolution) | 最大2K | 映画のような21:9のアスペクト比と標準的な16:9フォーマットをサポートしています。 放送レベルの視覚的忠実度を提供します。 |
| クリップの長さ | 4秒 - 15秒(延長可能) | 基本生成では短いクリップを作成し、 インテリジェントな継続機能により、より長い物語の流れを可能にします。 |
| 入力モダリティ | クアッドモーダル(Quad-Modal) | テキスト、画像、音声、ビデオを同時に処理します。 参照映像からの「スタイル転送(style transfer)」を可能にします。 |
| オーディオ同期 | ネイティブ生成 | リップシンクされた対話、周囲のサウンドスケープ、 そして視覚的なアクションにリアルタイムで一致するバックグラウンドスコアを生成します。 |
| 生成速度 | 約60秒 | Kling 3.0などの競合モデルよりも30%速いと報じられています。 クリエイター向けのほぼリアルタイムの反復を可能にします。 |
AIビデオの「無声映画」時代は終わりを告げようとしているようです。Seedance 2.0のネイティブ・オーディオを生成する能力は、重要な差別化要因です。X(旧Twitter)やWeiboで共有された初期のデモでは、ポストプロダクションでのアフレコなしに、キャラクターが正確なリップシンクで話す様子が示されています。また、モデルは、ホールに響く足音、グラスが触れ合う音、木々を揺らす風の音など、視覚的な物理現象と完全に一致するコンテキストを認識したサウンドエフェクトも生成します。
この統合は、個人クリエイターにとってワークフローの劇的な削減を示唆しています。Game Science(ゲームサイエンス)のCEOである馮驥(Feng Ji)氏は、この変化に関する最近の声明で、「通常のビデオ制作コストは、もはや映画・テレビ業界の伝統的な論理に従わなくなるだろう」と述べています。ビデオとオーディオの生成を単一の推論パスに集約することで、ByteDanceは事実上「スタジオ・イン・ア・ボックス(studio-in-a-box)」ソリューションを提供しています。
Seedance 2.0のリリースは、即座に財務上の影響を及ぼしました。発表を受けて、AIコンテンツ制作に関連する中国のメディアおよびテクノロジー企業の株価が急騰しました。この発表は、競合するKuaishou(快手)のKling 3.0の直後に行われ、導入スピードにおいて海外の競合他社を急速に追い越している激しい国内競争を象徴しています。
業界のオブザーバーは、Sora 2のような米国を拠点とするモデルが長期のテスト段階に留まっている一方で、中国企業は積極的にパブリックベータへと移行していると指摘しています。この戦略により、彼らは大きなマインドシェアとユーザーデータを獲得することができました。著名なテクノロジー界の人物も注目しており、イーロン・マスク(Elon Musk)氏は拡散されたSeedanceのクリップに対し、「急速に進展している(It's happening fast)」と簡潔にコメントしました。
しかし、Seedance 2.0の強力な能力は、即座に倫理的な懸念を引き起こしました。リリースの直後、ユーザーは顔写真だけで声をクローンできるという、モデルの驚くべき能力を発見しました。これにより、事実上、許可のないアイデンティティの模倣が可能になってしまいます。
プライバシーへの懸念と潜在的な規制の反発の波に応え、ByteDanceはこの特定の「顔から声へ(face-to-voice)」機能を緊急停止しました。この事件は、高忠実度な生成AI(Generative AI)の不安定なデュアルユース(軍民両用)の性質を浮き彫りにしています。創造的な可能性は計り知れませんが、ディープフェイクや非同意のコンテンツ作成のリスクは、大規模な公的展開における依然として重要なボトルネックとなっています。
Creati.aiコミュニティにとって、Seedance 2.0は絶大な力を持つツールであると同時に、破壊的な変化の合図でもあります。
Seedance 2.0がJimengプラットフォームでのベータフェーズを進む中、それは厳しい現実を突きつけています。ビデオ制作の未来は単に近づいているだけでなく、すでに描写(レンダリング)され始めているのです。