字节开源统一框架Bernini:多模态大模型规划视频编辑,先理解再生成

2026/06/02 17:28阅读量 7

字节商业化技术团队开源面向视频生成与编辑的统一框架Bernini,采用多模态大模型(MLLM planner)负责语义理解与规划,再由DiT渲染器(DiT-based renderer)生成高质量视频。该框架支持参考生成、视频编辑等多项任务,能实现天气/风格/视角/动作编辑,以及基于图片和视频参考的一致性生成。在自建评测中,Bernini已进入第一梯队。目前Bernini-R(第二阶段模型)的推理代码和权重已开放。

事件概述

字节商业化技术团队开源统一视频生成与编辑框架 Bernini,旨在解决AI视频编辑中模型“听不懂指令”、可控性差的问题。Bernini的核心思路是先理解再生成:先由多模态大模型规划器(MLLM-based planner)理解文本指令、源视频和参考素材,再由扩散模型(DiT-based renderer)高质量渲染最终画面。

核心能力

Bernini覆盖参考生成视频编辑两大类任务,重点提升可控性:

  • 视频编辑:支持一条指令改变天气、季节、材质和风格;可调整画面的视角、焦点和主体动作,且保持前后帧一致。
  • 参考编辑:允许使用图片或视频作为主体、材质、风格的参考,还可将图像或视频精准植入目标区域(如广告牌、LED屏),保证边界和透视。
  • 参考生成:支持单图生成产品展示视频;支持多元素组合(多张不同参考图合成同一角色);支持同一物体的多角度参考,生成连续镜头时保持一致性;支持场景关键帧生成连续平移镜头。

技术亮点

Bernini将任务拆分为两步:

  1. 语义规划:MLLM planner直接在ViT embedding space中预测目标语义表示(语义草图),明确内容、结构和编辑范围。
  2. 视觉渲染:DiT renderer根据语义规划生成视频,对编辑任务还结合源视频的VAE features保留非编辑区域细节。

针对多参考输入,Bernini引入Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE),为不同视觉片段添加标记,区分参考图、源视频和目标输出。

开源状态

目前率先开源Bernini-R(三阶段训练中的第二阶段模型),包含完整MLLM Planner的版本正在整理中,预计近期开放。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。