Google Gemini 推出支援文字與影像提示的 Lyria 3 模型之 AI 音樂生成功能

Google Gemini 進化：Lyria 3 的到來與多模態音樂生成（Multimodal Music Generation）

2026 年 2 月 18 日 – 生成式媒體（Generative Media）的格局今日發生了劇變，Google 正式將其最先進的音訊模型 Lyria 3 直接整合到 Gemini 生態系統中。這一舉措彌合了視覺靈感與聽覺創作之間的鴻溝，用戶現在不僅可以使用文字提示詞，還可以使用圖像輸入來生成 30 秒的高保真（High-fidelity）音樂曲目。這次更新由 Google DeepMind 提供技術支持，將 Gemini 定位為不僅僅是一個聊天機器人，而是一個全面的創意工作室，挑戰了利基型 AI 音樂平台的統治地位。

在 Creati.ai，我們一直密切關注 Google 音訊研究的軌跡，從早期的 MusicLM 到最初發佈的 Lyria。引入 Lyria 3 代表了在語義理解和音訊保真度方面的重大飛躍，並透過全新的 Nano Banana 視覺模型引入了自動歌詞生成和整合封面藝術創作等功能。

Lyria 3 的力量：DeepMind 的全新音訊標準

此次更新的核心是 Lyria 3 模型。與其前身主要關注器樂連續性或短循環不同，Lyria 3 旨在理解複雜的音樂結構、流派融合和情感細微差別。DeepMind 在海量的授權和公共領域音訊數據集上對該模型進行了訓練，完善了其產生與人類歌手幾乎無異的人聲的能力。

Lyria 3 的與眾不同之處在於其應用於音訊波形的長上下文窗口（Long-context window）。雖然之前的模型通常難以維持長時間的連貫性——在幾秒鐘後就會失去節奏或旋律——但 Lyria 3 在生成的 30 秒片段中始終保持結構完整性。這使得即使在很短的時間內也能有明顯的主歌、副歌和橋段。

Lyria 3 的關鍵技術進步包括：

增強的語義解釋： 該模型能更準確地掌握抽象概念（例如，「霓虹城市中失戀的聲音」）。
人聲發音： 改進的音素生成技術使得多種語言的歌詞清晰易懂。
樂器分離： 生成的音訊具有更好的音軌分離度，聽起來不像早期的生成式音訊（generative audio）嘗試那樣「混濁」。

從像素到旋律：多模態輸入

此次更新中引入的最具創新性的功能或許是使用圖像作為提示詞的能力。這種多模態（Multimodal）能力利用 Gemini 對視覺內容的原生理解，將像素轉化為聲波——這一過程通常被描述為「AI 聯覺（AI synesthesia）」。

用戶可以上傳一張雨夜街道的照片、一張賽博朋克插畫或一張復古肖像，Gemini 將分析視覺元素、情緒、調色板和背景，以創作匹配的音樂曲目。例如，上傳一張繁華咖啡館的照片可能會產生一段帶有背景雜談和柔和爵士鋼琴的低保真（Lo-fi）嘻哈曲目，而一張雷雨的照片則可能觸發一段激烈的管弦樂得分。

工作流整合

該整合在 Gemini 應用程式介面中是無縫的。用戶會看到一個全新的「音訊工作室（Audio Studio）」面板，在那裡他們可以拖放圖像或輸入描述性提示詞。

創意工作流：

輸入： 用戶上傳圖像或輸入提示詞（例如，「一段關於太空旅行的輕快 80 年代合成器流行樂」）。
處理： Gemini 使用 Gemini Vision（針對圖像）分析輸入，並將語義令牌傳遞給 Lyria 3。
生成： 系統生成四個不同的 30 秒變體。
精煉： 用戶可以選擇一個曲目並要求修改，例如「調慢速度」或「加入女聲」。

完整套裝：歌詞與 Nano Banana 封面藝術

Google 正在透過這次更新解決音樂發佈的全流程問題。除了音訊之外，Gemini 現在還提供自動歌詞生成功能。如果用戶提示需要帶有人聲的歌曲，Lyria 3 會生成旋律，而 Gemini 的語言模型則會編寫與請求主題匹配的連貫歌詞。文本生成（歌詞）與音訊生成（演唱）之間的這種同步是一項技術壯舉，減少了在競爭對手模型中經常聽到的「胡言亂語」式的人聲。

此外，Google 還推出了 Nano Banana，這是一個專門為專輯封面優化的輕量級圖像生成模型。當音樂曲目生成時，Nano Banana 會自動生成一張正方形的高解析度封面圖像，在主題上與音樂和歌詞保持一致。

功能比較：Gemini Music vs. 競爭對手

下表概述了 Google 的新產品與目前 AI 音樂生成（AI music generation）市場標準的對比情況。

功能比較	Google Gemini (Lyria 3)	標準生成式 AI（GenAI）音樂工具
核心模型	Lyria 3 (DeepMind)	私有模型 / 基於 Stable Audio
輸入模態	文字與圖像（多模態）	僅文字轉音訊
人聲連貫性	高（整合歌詞生成）	不穩定（通常是胡言亂語）
視覺效果	自動生成封面藝術 (Nano Banana)	無 / 需要單獨工具
水印技術	SynthID（不可察覺）	僅元數據標籤

信任與安全：SynthID 的角色

隨著 AI 生成內容的激增，版權和真實性仍然是關鍵問題。Google 透過在 Lyria 3 生成的每一段曲目中嵌入 SynthID 水印（SynthID watermarking） 來解決這一問題。

SynthID 直接在音訊波形中嵌入不可察覺的數位水印。即使音訊被壓縮、加速或與其他聲音混合，此水印仍可被檢測到。這項技術至關重要，原因有二：

版權保護： 它允許權利持有人和平台識別 AI 生成的內容，確保人類藝術家與機器輸出有所區分。
防止錯誤資訊： 它透過在源頭將音訊標記為 AI 生成，防止創建「深偽（Deepfake）」音訊剪輯（例如公眾人物的虛假演講）。

Google 表示，雖然用戶擁有個人使用其創作內容的權利，但 SynthID 標籤確保了整個數位生態系統的透明度。

市場影響與創作的未來

在 Gemini 中發佈 Lyria 3 標誌著 Google 策略的轉變，旨在主導「專業消費者（Prosumer）」創作者經濟。透過將高端音樂生成與其現有的文本和代碼能力相結合，Google 正在將 Gemini 打造為內容創作者的一站式商店。YouTuber、播客製作人和社交媒體影響者現在擁有了在幾秒鐘內生成免版稅（Royalty-free）、自定義背景音樂和視覺效果的工具。

然而，這一進步也給音樂行業帶來了疑問。雖然 30 秒的限制目前將該工具限制在短音訊（Soundbites）、循環音效（Loops）和廣告配樂（Jingles）上，但 Lyria 3 的品質表明，全長歌曲生成已近在咫尺。

行業反應：

獨立音樂人： 許多人將其視為構思和採樣的強大工具，允許對旋律進行快速原型設計。
庫存音樂平台： 按需生成自定義曲目的能力對傳統的庫存音訊庫構成了直接威脅。
監管機構： SynthID 的實施被視為主動的一步，很可能成為歐盟和美國市場的監管標準。

結論

將 Lyria 3 整合到 Google Gemini 中不僅僅是一次功能更新；它是對多模態創意的一次重新定義。透過將文本、圖像和音訊結合到單一的生成式工作流中，Google 降低了音樂表達的准入門檻。憑藉用於視覺效果的 Nano Banana 和用於安全的 SynthID，這家科技巨頭交付了一個精緻的、專業級的工具，為 2026 年 2 月樹立了新標竿。

隨著 Creati.ai 繼續測試 Lyria 3 的極限，有一件事是明確的：看、寫和聽之間的界限正變得越來越模糊，而 Gemini 目前是觀察這一融合未來的最清晰鏡頭。