Descript 如何实现大规模多语言视频配音

2026/03/06 18:00阅读量 11

Descript 利用 OpenAI 的推理模型重新设计了翻译流程，解决了传统视频配音中语义准确但时长不匹配导致语音 unnatural 的核心痛点。通过让模型在生成阶段同时优化语义保真度和时长 adherence（如音节计数），Descript 显著提升了配音的自然度，合格片段比例从 40%-60% 提升至 73%-83%。这一技术突破使得 Descript 能够以批量方式为企业处理整个内容库的翻译与口型同步需求。未来，团队计划进一步融合音频、视频和文本的多模态能力，以更完美地保留原声的语气和非语言特征。

Markdown 内容：Descript 是一款原生 AI 视频编辑器，其核心理念简单明了：如果你能编辑文本，你就应该能够编辑视频。自 Descript 早期以来，AI 一直驱动着产品的各个方面：转录、编辑、音频清理以及日益复杂的创意工作流。多年来，他们基于 OpenAI 构建产品，使用 Whisper 进行转录，并在其协作编辑器 Underlord 中使用 GPT 系列模型。翻译迅速成为一个高影响力的用例。
传统上，视频翻译既慢又昂贵，需要语言专家管理项目、制作机械式的翻译、处理质量控制并生成相应的音频。大型语言模型（LLMs）极大地压缩了这一工作流程，使得大规模高质量翻译成为可能。字幕和配音都需要语义保真度：翻译必须保留原始含义。但在每种情况下，时长遵循（duration adherence）扮演的角色不同。对于字幕来说，它是锦上添花；而对于配音来说，它至关重要，因为如果翻译后的语音太长或太短，即使含义正确，听起来也会不自然。
为了解决这个问题，Descript 重新设计了其翻译管道，利用 OpenAI 的推理模型在生成过程中优化语义保真度和时长遵循，而不是事后修正。在推出后的前 30 天内，带有配音的翻译视频导出量增加了 15%，并且根据不同语言，时长遵循率提高了 13 到 43 个百分点。“配音是 Descript 越来越流行的用例，因此我们正在构建批量处理方式，以满足那些希望翻译并对口型同步整个库的公司需求，”CEO Laura Burkhauser 表示。
翻译是 Descript 最早且最被请求的功能之一。他们最初只提供了字幕翻译，效果不错——但许多用户希望更进一步，获得目标语言的口语音频（配音）。然而，一个问题不断浮现：配音后的音频听起来并不总是对的。“我们听到的头号投诉大概是翻译语言中的语速不自然，”Descript 人工智能产品负责人 Aleks Mistratov 说。
问题的根源在于，不同的语言表达相同概念所需的时间不同。例如，Descript 观察到，平均而言，德语是一种比英语“更长”的语言。为了适应固定的视频片段，翻译后的语音往往需要人为加速或减速。“最终你会得到听起来像花栗鼠或者昏昏欲睡巨人的声音，”Mistratov 解释道。在这种情况下，德语音频要么不得不被不自然地加速，要么需要重写翻译以适应时间预算。
用户只剩下两个选择：手动逐段重新调整音频节奏，或者重写翻译本身以使其适配。这两种方法都需要深入的时间线编辑，并且通常需要接近母语水平的目标语言能力。这对创作者来说是繁琐的，并成为将该功能扩展到大型企业本地化项目的障碍。
团队对如何让配音发挥作用有着清晰的理论。系统不仅需要优化语义意义，还必须意识到时间约束。例如，在将英语翻译成德语时，模型需要理解如何使用更少的单词或简化概念，以便配音音频保持自然。早期的方法首先优化语义保真度，然后尝试事后修正时间。这些翻译通常在语义上是正确的，但经常错过时长约束，整体质量仍然不够好。
“我们进行了增量测试，甚至没有生成任何内容，只是要求模型输出一段文本中的音节数，”Mistratov 说。“早期的模型在这方面根本不行。”可靠的音节计数结果证明至关重要。如果模型不能一致地计算音节，就无法可靠地针对特定的时长窗口。GPT-5 系列模型带来了早期模型所缺乏的推理一致性，特别是在音节计数和约束跟踪等任务上。
有了这一改进，Descript 重新设计了其翻译和配音管道。首先，Descript 的系统根据原始录音中的句子边界、自然停顿和说话模式，将文稿分割成块。每个块保持语义连续性，但足够小，可以作为时间单元进行推理。从这里开始，模型计算该块中的音节数。利用特定语言的语速假设，系统估算翻译后的块应目标的音节数，以保持自然的节奏（即“时长遵循”）。提示要求模型同时优化时长遵循和意义保留。周围的块作为上下文传递，以便模型在片段之间保持语义连贯性。
团队评估了多种配置，以平衡时长遵循、语义保真度、延迟和成本。选定的设置在生产速度下提供了强大的约束遵循能力，实现了无需手动重新调整节奏的大规模翻译。结果是一个翻译管道，其中节奏被视为首要变量，而不是事后修正的对象。
为了制定评估的验收标准，团队进行了听力测试：他们生成了翻译后的音频样本，并以小幅度调整播放速度，询问用户何时语音变得不自然。“任何减速 10% 或加速 20% 的内容，通常听起来仍然自然，”Mistratov 说。超出这个范围，语音就会变得过于失真。早期系统在该指标上表现不佳。根据不同语言，只有 40% 到 60% 的片段落在可接受的节奏窗口内。通过重新设计的管道，这一数字根据不同语言增加到了 73% 到 83%。
团队还使用单独的模型作为裁判，在 1（“完全不同”）到 5（“语义等价”）的评分量表上评估了语义保真度。对于配音，他们决定接受比仅字幕翻译更低的语义阈值，后者无关时长约束。即使做出这种权衡，仍有 85.5% 的片段在语义遵循方面被评为 4 分或 5 分（满分 5 分）。结果是，一个能够在两个相互竞争的约束——时间和意义——之间取得平衡的系统，且具有可衡量的信心。由于这两个指标都是自动化的，Descript 能够持续评估新模型版本和提示变体是否符合相同的基准。
随着翻译从单个视频转向大型内容库，Descript 正在构建更多控制手段来调整翻译，包括在需要时优先严格语义保真度的能力。Descript 内部的翻译只是更广泛的多模态系统的一个层面。翻译后的文本输入到语音生成中，进而驱动口型同步和最终的视频渲染。文本层的改进使得自然节奏成为可能，但整体体验也取决于音频模型在多大程度上保留了语音的语调、韵律和非语言特征。这正是团队看到的下一个前沿领域。
“很多能改进翻译输出的工作将是使管道更加多模态：在决定如何翻译时结合音频、视频和文本，”Mistratov 说。“这应该更好地维持语音的非语言特征，如语气和强调，并保留更多的原始表达方式。”
对于 Descript 来说，更强的推理模型使得配音的复杂性变得可行。通过跨越模型能够可靠平衡节奏与意义之间权衡的门槛，翻译成为了团队可以系统改进并规模化部署的事物。

阅读原文详情

准备好启动您的定制项目了吗？