Google DeepMind 推出 Lyria 3 音乐生成模型,开发者可通过 Gemini API 接入

Google DeepMind 正式向全球开发者公开预览其最新音乐生成模型 Lyria 3 及 Lyria 3 Pro。该系列模型提供两种变体:Lyria 3 Clip 适用于快速生成 30 秒高质量片段,而 Lyria 3 Pro 可创作长达 3 分钟的完整歌曲,均支持多语言人声与跨风格音乐生成。此外,模型新增节拍控制、时间对齐歌词及图像转音乐等多模态输入功能,并集成 SynthID 数字水印以保障内容溯源。

事件概述

Google DeepMind 宣布其最新的音乐生成模型 Lyria 3Lyria 3 Pro 现已通过 Gemini APIGoogle AI Studio 的新音频体验面向全球开发者开放公共预览。该模型旨在结合深厚的音乐感知能力与结构连贯性,支持开发高保真度的音乐应用。

核心信息

1. 模型变体与性能

开发者可根据生产需求选择以下两种模型变体:

  • Lyria 3 Pro (lyria-3-pro-preview):专为全长歌曲生成设计,可创建时长约 3 分钟的专业级曲目。具备专业的结构意识,适合对音质要求极高的场景。
  • Lyria 3 Clip (lyria-3-clip-preview):针对速度和批量请求优化,可生成高质量的 30 秒片段。适用于快速原型设计、背景循环及社交媒体素材制作。

两者均支持逼真的表达性人声(涵盖多种全球语言和流派,如流行、放克、摩城等),并提升了声音的自然度与清晰度。

2. 精准控制与多模态输入

Lyria 3 引入了细粒度的控制功能,允许通过自然语言提示精确引导生成过程:

  • 节拍条件控制 (Tempo conditioning):可高精度设定特定速度(如快板、慢板),确保音乐与应用节奏匹配。
  • 时间对齐歌词 (Time-aligned lyrics):开发者可在提示词中规划歌曲进程,精确控制歌词在曲目中的起止时间。
  • 多模态图像转音乐 (Multimodal image-to-music):除文本外,支持上传图像作为输入,利用图像影响音频的情绪、风格和氛围。

3. 应用场景示例

官方在 Google AI Studio 中展示了以下集成案例:

  • 视频背景音乐:用户上传视频后,由 Gemini 3 Flash 分析生成描述性提示词,Lyria 据此创作同步的背景配乐。
  • 智能闹钟:每日清晨播放包含天气、位置、时间及日历事件等实时信息的定制歌曲。

4. 工具与资源

为辅助开发者快速上手,Google 推出了新的 AI Studio 音乐生成功能区:

  • 文本模式 (Text mode):使用自然语言描述所需音乐,包括节拍、调性等参数。
  • 作曲家模式 (Composer mode):分段构建歌曲(从前奏到主歌、桥段等),可对每个部分的时机、强度和描述进行独立设置。

开发者可通过文档指南、API 引用、代码片段及 Cookbook 开始集成,并尝试 Lyria Studio、Lyria Rhythm 等演示应用。

值得关注

  • 安全与透明度:所有由 Lyria 3 生成的曲目均包含 SynthID 数字水印技术,即使音频经过修改,用户仍可识别并验证其是否由 Google AI 生成,以维护透明度和信任。
  • 合作背景:该工具的開發与行业专家紧密合作,旨在确保人工智能成为增强人类创造力的助力而非替代。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。