Descript 如何实现大规模多语言视频配音

Descript 利用 OpenAI 的推理模型重新设计了翻译流程,解决了传统视频配音中语义准确但时长不匹配导致语音 unnatural 的核心痛点。通过让模型在生成阶段同时优化语义保真度和时长 adherence(如音节计数),Descript 显著提升了配音的自然度,合格片段比例从 40%-60% 提升至 73%-83%。这一技术突破使得 Descript 能够以批量方式为企业处理整个内容库的翻译与口型同步需求。未来,团队计划进一步融合音频、视频和文本的多模态能力,以更完美地保留原声的语气和非语言特征。

Markdown 内容:[Descript](http://descript.com/) 是一款原生 AI 视频编辑器,其核心理念简单明了:如果你能编辑文本,你就应该能够编辑视频。自 Descript 早期以来,AI 一直驱动着产品的各个方面:转录、编辑、音频清理以及日益复杂的创意工作流。多年来,他们基于 OpenAI 构建产品,使用 Whisper 进行转录,并在其协作编辑器 Underlord 中使用 GPT 系列模型。翻译迅速成为一个高影响力的用例。 传统上,视频翻译既慢又昂贵,需要语言专家管理项目、制作机械式的翻译、处理质量控制并生成相应的音频。大型语言模型(LLMs)极大地压缩了这一工作流程,使得大规模高质量翻译成为可能。字幕和配音都需要语义保真度:翻译必须保留原始含义。但在每种情况下,时长遵循(duration adherence)扮演的角色不同。对于字幕来说,它是锦上添花;而对于配音来说,它至关重要,因为如果翻译后的语音太长或太短,即使含义正确,听起来也会不自然。 为了解决这个问题,Descript 重新设计了其翻译管道,利用 OpenAI 的推理模型在生成过程中优化语义保真度和时长遵循,而不是事后修正。在推出后的前 30 天内,带有配音的翻译视频导出量增加了 15%,并且根据不同语言,时长遵循率提高了 13 到 43 个百分点。“配音是 Descript 越来越流行的用例,因此我们正在构建批量处理方式,以满足那些希望翻译并对口型同步整个库的公司需求,”CEO Laura Burkhauser 表示。 翻译是 Descript 最早且最被请求的功能之一。他们最初只提供了字幕翻译,效果不错——但许多用户希望更进一步,获得目标语言的口语音频(配音)。然而,一个问题不断浮现:配音后的音频听起来并不总是对的。“我们听到的头号投诉大概是翻译语言中的语速不自然,”Descript 人工智能产品负责人 Aleks Mistratov 说。 问题的根源在于,不同的语言表达相同概念所需的时间不同。例如,Descript 观察到,平均而言,德语是一种比英语“更长”的语言。为了适应固定的视频片段,翻译后的语音往往需要人为加速或减速。“最终你会得到听起来像花栗鼠或者昏昏欲睡巨人的声音,”Mistratov 解释道。在这种情况下,德语音频要么不得不被不自然地加速,要么需要重写翻译以适应时间预算。 用户只剩下两个选择:手动逐段重新调整音频节奏,或者重写翻译本身以使其适配。这两种方法都需要深入的时间线编辑,并且通常需要接近母语水平的目标语言能力。这对创作者来说是繁琐的,并成为将该功能扩展到大型企业本地化项目的障碍。 团队对如何让配音发挥作用有着清晰的理论。系统不仅需要优化语义意义,还必须意识到时间约束。例如,在将英语翻译成德语时,模型需要理解如何使用更少的单词或简化概念,以便配音音频保持自然。早期的方法首先优化语义保真度,然后尝试事后修正时间。这些翻译通常在语义上是正确的,但经常错过时长约束,整体质量仍然不够好。 “我们进行了增量测试,甚至没有生成任何内容,只是要求模型输出一段文本中的音节数,”Mistratov 说。“早期的模型在这方面根本不行。”可靠的音节计数结果证明至关重要。如果模型不能一致地计算音节,就无法可靠地针对特定的时长窗口。GPT-5 系列模型带来了早期模型所缺乏的推理一致性,特别是在音节计数和约束跟踪等任务上。 有了这一改进,Descript 重新设计了其翻译和配音管道。首先,Descript 的系统根据原始录音中的句子边界、自然停顿和说话模式,将文稿分割成块。每个块保持语义连续性,但足够小,可以作为时间单元进行推理。从这里开始,模型计算该块中的音节数。利用特定语言的语速假设,系统估算翻译后的块应目标的音节数,以保持自然的节奏(即“时长遵循”)。提示要求模型同时优化时长遵循和意义保留。周围的块作为上下文传递,以便模型在片段之间保持语义连贯性。 团队评估了多种配置,以平衡时长遵循、语义保真度、延迟和成本。选定的设置在生产速度下提供了强大的约束遵循能力,实现了无需手动重新调整节奏的大规模翻译。结果是一个翻译管道,其中节奏被视为首要变量,而不是事后修正的对象。 为了制定评估的验收标准,团队进行了听力测试:他们生成了翻译后的音频样本,并以小幅度调整播放速度,询问用户何时语音变得不自然。“任何减速 10% 或加速 20% 的内容,通常听起来仍然自然,”Mistratov 说。超出这个范围,语音就会变得过于失真。早期系统在该指标上表现不佳。根据不同语言,只有 40% 到 60% 的片段落在可接受的节奏窗口内。通过重新设计的管道,这一数字根据不同语言增加到了 73% 到 83%。 团队还使用单独的模型作为裁判,在 1(“完全不同”)到 5(“语义等价”)的评分量表上评估了语义保真度。对于配音,他们决定接受比仅字幕翻译更低的语义阈值,后者无关时长约束。即使做出这种权衡,仍有 85.5% 的片段在语义遵循方面被评为 4 分或 5 分(满分 5 分)。结果是,一个能够在两个相互竞争的约束——时间和意义——之间取得平衡的系统,且具有可衡量的信心。由于这两个指标都是自动化的,Descript 能够持续评估新模型版本和提示变体是否符合相同的基准。 随着翻译从单个视频转向大型内容库,Descript 正在构建更多控制手段来调整翻译,包括在需要时优先严格语义保真度的能力。Descript 内部的翻译只是更广泛的多模态系统的一个层面。翻译后的文本输入到语音生成中,进而驱动口型同步和最终的视频渲染。文本层的改进使得自然节奏成为可能,但整体体验也取决于音频模型在多大程度上保留了语音的语调、韵律和非语言特征。这正是团队看到的下一个前沿领域。 “很多能改进翻译输出的工作将是使管道更加多模态:在决定如何翻译时结合音频、视频和文本,”Mistratov 说。“这应该更好地维持语音的非语言特征,如语气和强调,并保留更多的原始表达方式。” 对于 Descript 来说,更强的推理模型使得配音的复杂性变得可行。通过跨越模型能够可靠平衡节奏与意义之间权衡的门槛,翻译成为了团队可以系统改进并规模化部署的事物。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。