Google DeepMind 推出 Lyria 3 音乐生成模型，开发者可通过 Gemini API 接入

2026/03/26 00:00阅读量 32

Google DeepMind 正式向全球开发者公开预览其最新音乐生成模型 Lyria 3 及 Lyria 3 Pro。该系列模型提供两种变体：Lyria 3 Clip 适用于快速生成 30 秒高质量片段，而 Lyria 3 Pro 可创作长达 3 分钟的完整歌曲，均支持多语言人声与跨风格音乐生成。此外，模型新增节拍控制、时间对齐歌词及图像转音乐等多模态输入功能，并集成 SynthID 数字水印以保障内容溯源。

事件概述

Google DeepMind 宣布其最新的音乐生成模型 Lyria 3 和 Lyria 3 Pro 现已通过 Gemini API 及 Google AI Studio 的新音频体验面向全球开发者开放公共预览。该模型旨在结合深厚的音乐感知能力与结构连贯性，支持开发高保真度的音乐应用。

核心信息

1. 模型变体与性能

开发者可根据生产需求选择以下两种模型变体：

Lyria 3 Pro (lyria-3-pro-preview)：专为全长歌曲生成设计，可创建时长约 3 分钟的专业级曲目。具备专业的结构意识，适合对音质要求极高的场景。
Lyria 3 Clip (lyria-3-clip-preview)：针对速度和批量请求优化，可生成高质量的 30 秒片段。适用于快速原型设计、背景循环及社交媒体素材制作。

两者均支持逼真的表达性人声（涵盖多种全球语言和流派，如流行、放克、摩城等），并提升了声音的自然度与清晰度。

2. 精准控制与多模态输入

Lyria 3 引入了细粒度的控制功能，允许通过自然语言提示精确引导生成过程：

节拍条件控制 (Tempo conditioning)：可高精度设定特定速度（如快板、慢板），确保音乐与应用节奏匹配。
时间对齐歌词 (Time-aligned lyrics)：开发者可在提示词中规划歌曲进程，精确控制歌词在曲目中的起止时间。
多模态图像转音乐 (Multimodal image-to-music)：除文本外，支持上传图像作为输入，利用图像影响音频的情绪、风格和氛围。

3. 应用场景示例

官方在 Google AI Studio 中展示了以下集成案例：

视频背景音乐：用户上传视频后，由 Gemini 3 Flash 分析生成描述性提示词，Lyria 据此创作同步的背景配乐。
智能闹钟：每日清晨播放包含天气、位置、时间及日历事件等实时信息的定制歌曲。

4. 工具与资源

为辅助开发者快速上手，Google 推出了新的 AI Studio 音乐生成功能区：

文本模式 (Text mode)：使用自然语言描述所需音乐，包括节拍、调性等参数。
作曲家模式 (Composer mode)：分段构建歌曲（从前奏到主歌、桥段等），可对每个部分的时机、强度和描述进行独立设置。

开发者可通过文档指南、API 引用、代码片段及 Cookbook 开始集成，并尝试 Lyria Studio、Lyria Rhythm 等演示应用。

值得关注

安全与透明度：所有由 Lyria 3 生成的曲目均包含 SynthID 数字水印技术，即使音频经过修改，用户仍可识别并验证其是否由 Google AI 生成，以维护透明度和信任。
合作背景：该工具的開發与行业专家紧密合作，旨在确保人工智能成为增强人类创造力的助力而非替代。

阅读原文详情