Google Gemini, 텍스트 및 이미지 프롬프트를 지원하는 Lyria 3 모델로 AI 음악 생성 출시

Google Gemini 진화: Lyria 3의 등장과 멀티모달 음악 생성 (Multimodal Music Generation)

2026년 2월 18일 – Google이 가장 진보된 오디오 모델인 Lyria 3를 Gemini 에코시스템에 직접 통합함에 따라, 오늘 생성형 미디어 (Generative media)의 지형이 극적으로 변화했습니다. 시각적 영감과 청각적 창작 사이의 간극을 메우는 이번 조치를 통해, 이제 사용자는 텍스트 프롬프트뿐만 아니라 이미지 입력을 사용해서도 30초 분량의 고충실도 (High-fidelity) 음악 트랙을 생성할 수 있게 되었습니다. Google DeepMind가 주도한 이번 업데이트는 Gemini를 단순한 챗봇이 아닌 포괄적인 크리에이티브 스튜디오로 자리매김하게 하며, 니치한 AI 음악 플랫폼들의 지배력에 도전장을 내밀었습니다.

Creati.ai에서는 MusicLM의 초기 시절부터 첫 Lyria 출시까지 Google의 오디오 연구 궤적을 면밀히 모니터링해 왔습니다. Lyria 3의 도입은 의미론적 이해 (Semantic understanding)와 오디오 충실도 측면에서 중대한 도약을 의미하며, 새로운 Nano Banana 시각 모델을 통한 자동 가사 생성 및 통합 커버 아트 제작과 같은 기능을 선보입니다.

Lyria 3의 힘: DeepMind의 새로운 음향 표준

이번 업데이트의 핵심은 Lyria 3 모델입니다. 주로 기악적 연속성이나 짧은 루프에 집중했던 이전 모델들과 달리, Lyria 3는 복잡한 음악 구조, 장르 융합 및 감정적 뉘앙스를 이해하도록 설계되었습니다. DeepMind는 라이선스가 부여된 오디오 및 퍼블릭 도메인 오디오의 방대한 데이터셋으로 이 모델을 학습시켜, 인간 가수와 거의 구별할 수 없는 보컬을 생성하는 능력을 정교화했습니다.

Lyria 3를 차별화하는 요소는 오디오 파형에 적용된 **긴 컨텍스트 창 (Long-context window)**입니다. 이전 모델들은 시간이 지남에 따라 일관성을 유지하는 데 어려움을 겪어 몇 초 후에 리듬이나 멜로디를 잃는 경우가 많았으나, Lyria 3는 생성된 30초 클립 내내 구조적 무결성을 유지합니다. 이를 통해 짧은 시간 안에서도 뚜렷한 절(Verse), 후렴(Chorus), 브릿지(Bridge)를 구성할 수 있습니다.

Lyria 3의 주요 기술적 진보는 다음과 같습니다:

향상된 의미론적 해석: 모델이 추상적인 개념(예: "네온 도시에서의 실연의 소리")을 더욱 정확하게 파악합니다.
보컬 조음: 개선된 음소 생성 덕분에 여러 언어에서 명확하고 이해하기 쉬운 가사가 만들어집니다.
악기 분리: 생성된 오디오는 이전의 생성형 오디오 (generative audio) 시도들보다 트랙 분리가 더 잘 되어 있어 소리가 덜 "뭉개지게" 들립니다.

픽셀에서 멜로디로: 멀티모달 입력

이번 업데이트에서 소개된 가장 혁신적인 기능은 이미지를 프롬프트로 사용하는 기능일 것입니다. 이 멀티모달 (Multimodal) 기능은 시각적 콘텐츠에 대한 Gemini의 선천적인 이해력을 활용하여 픽셀을 음파로 변환하며, 이는 종종 "AI 공감각 (AI synesthesia)"으로 묘사되는 프로세스입니다.

사용자가 비 내리는 거리, 사이버펑크 일러스트레이션 또는 빈티지 초상화 사진을 업로드하면, Gemini는 시각적 요소, 분위기, 색상 팔레트 및 맥락을 분석하여 그에 어울리는 음악 트랙을 작곡합니다. 예를 들어, 북적이는 커피숍 이미지를 업로드하면 배경 소음과 부드러운 재즈 피아노가 어우러진 로파이(Lo-fi) 힙합 트랙이 나올 수 있고, 뇌우 사진은 강렬한 오케스트라 스코어를 유발할 수 있습니다.

워크플로우 통합

이 통합 기능은 Gemini 앱 인터페이스 내에서 원활하게 작동합니다. 사용자에게는 이미지를 드래그 앤 드롭하거나 묘사적인 프롬프트를 입력할 수 있는 새로운 "오디오 스튜디오 (Audio Studio)" 패널이 제공됩니다.

창의적인 워크플로우:

입력: 사용자가 이미지를 업로드하거나 프롬프트를 입력합니다 (예: "우주 여행에 관한 경쾌한 80년대 신스팝 트랙").
처리: Gemini는 Gemini Vision을 사용하여 입력을 분석하고(이미지의 경우) 의미론적 토큰을 Lyria 3에 전달합니다.
생성: 시스템은 네 가지의 뚜렷한 30초 변주곡을 생성합니다.
정교화: 사용자는 트랙을 선택하고 "더 느리게 만들어줘" 또는 "여성 보컬을 추가해줘"와 같은 수정을 요청할 수 있습니다.

완벽한 패키지: 가사 및 Nano Banana 커버 아트

Google은 이번 업데이트를 통해 음악 출시의 전체 파이프라인을 다루고 있습니다. Gemini는 이제 오디오를 넘어 자동 가사 생성 기능을 제공합니다. 사용자가 보컬이 포함된 노래를 요청하면, Lyria 3가 멜로디를 생성하는 동안 Gemini의 언어 모델이 요청된 테마와 일치하는 일관된 가사를 작성합니다. 텍스트 생성(가사)과 오디오 생성(노래) 사이의 이러한 동기화는 경쟁 모델에서 흔히 들리는 "횡설수설하는" 보컬을 줄여주는 기술적 성과입니다.

또한 Google은 앨범 아트워크에 특별히 최적화된 전문 경량 이미지 생성 모델인 **Nano Banana**를 도입했습니다. 음악 트랙이 생성되면 Nano Banana는 음악 및 가사와 주제적으로 일치하는 정사각형의 고해상도 커버 아트 이미지를 자동으로 생성합니다.

기능 비교: Gemini Music vs. 경쟁사

다음 표는 Google의 새로운 서비스가 현재 AI 음악 생성 (AI music generation) 시장 표준과 어떻게 비교되는지 보여줍니다.

기능 비교	Google Gemini (Lyria 3)	표준 생성형 AI 음악 도구
핵심 모델	Lyria 3 (DeepMind)	독자 모델 / Stable Audio 기반
입력 방식	텍스트 및 이미지 (멀티모달)	텍스트-오디오 변환 전용
보컬 일관성	높음 (통합 가사 생성)	가변적 (종종 의미 없는 소리 발생)
시각 자료	자동 생성 커버 아트 (Nano Banana)	없음 / 별도 도구 필요
워터마킹	SynthID (감지 불가능)	메타데이터 태그만 제공

신뢰와 안전: SynthID의 역할

AI 생성 콘텐츠가 확산됨에 따라 저작권과 진위 여부는 여전히 중요한 우려 사항으로 남아 있습니다. Google은 Lyria 3가 생성하는 모든 트랙에 SynthID 워터마킹을 내장하여 이를 해결했습니다.

SynthID는 오디오 파형에 직접 감지 불가능한 디지털 워터마크를 심습니다. 이 워터마크는 오디오가 압축되거나, 속도가 빨라지거나, 다른 소리와 섞이더라도 감지 가능한 상태로 유지됩니다. 이 기술은 다음 두 가지 이유로 매우 중요합니다:

허위 정보 방지: 공인의 가짜 연설과 같은 "딥페이크" 오디오 클립의 생성을 방지하기 위해 출처에서 이를 AI 생성물로 태그합니다.

Google은 사용자가 개인적 용도로 자신의 창작물에 대한 권리를 소유하지만, SynthID 태그가 디지털 에코시스템 전반의 투명성을 보장할 것이라고 밝혔습니다.

시장 영향 및 창작의 미래

Gemini 내 Lyria 3의 출시는 "프로슈머" 크리에이터 경제를 장악하려는 Google 전략의 변화를 암시합니다. 기존의 텍스트 및 코드 기능에 고급 음악 생성을 결합함으로써, Google은 Gemini를 콘텐츠 크리에이터를 위한 원스톱 샵으로 만들고 있습니다. 유튜버, 팟캐스터 및 소셜 미디어 인플루언서들은 이제 몇 초 만에 저작권료가 없는 맞춤형 배경 음악과 시각 자료를 생성할 수 있는 도구를 갖게 되었습니다.

그러나 이러한 발전은 음악 산업에 질문을 던지기도 합니다. 현재 30초 제한은 이 도구를 사운드바이트, 루프 및 징글로 한정시키고 있지만, Lyria 3의 품질은 풀 버전 노래 생성도 머지않았음을 시사합니다.

업계 반응:

독립 뮤지션: 많은 이들이 이를 아이디어 구상 및 샘플링을 위한 강력한 도구로 보고 있으며, 멜로디의 신속한 프로토타이핑을 가능하게 한다고 평가합니다.
스톡 음악 플랫폼: 주문형 맞춤 트랙 생성 능력은 전통적인 스톡 오디오 라이브러리에 직접적인 위협이 됩니다.
규제 기관: SynthID의 구현은 선제적인 조치로 간주되며, EU 및 미국 시장에서 규제 표준이 될 가능성이 높습니다.

결론

Google Gemini에 Lyria 3를 통합한 것은 단순한 기능 업데이트 그 이상입니다. 이는 멀티모달 창의성의 재정의입니다. 텍스트, 이미지, 오디오를 하나의 생성형 워크플로우로 결합함으로써 Google은 음악적 표현의 진입 장벽을 낮췄습니다. 시각 자료를 위한 Nano Banana와 안전을 위한 SynthID를 더해, 이 거대 기술 기업은 2026년 2월의 새로운 기준을 세우는 세련되고 전문적인 수준의 도구를 선보였습니다.

Creati.ai가 Lyria 3의 한계를 계속해서 테스트함에 따라 한 가지는 분명해졌습니다. 보고, 쓰고, 듣는 것 사이의 경계가 점점 더 모호해지고 있으며, Gemini는 현재 이러한 융합되는 미래를 바라볼 수 있는 가장 선명한 렌즈라는 점입니다.