字节开源统一框架Bernini:多模态大模型规划视频编辑,先理解再生成
2026/06/02 17:28阅读量 7
字节商业化技术团队开源面向视频生成与编辑的统一框架Bernini,采用多模态大模型(MLLM planner)负责语义理解与规划,再由DiT渲染器(DiT-based renderer)生成高质量视频。该框架支持参考生成、视频编辑等多项任务,能实现天气/风格/视角/动作编辑,以及基于图片和视频参考的一致性生成。在自建评测中,Bernini已进入第一梯队。目前Bernini-R(第二阶段模型)的推理代码和权重已开放。
事件概述
字节商业化技术团队开源统一视频生成与编辑框架 Bernini,旨在解决AI视频编辑中模型“听不懂指令”、可控性差的问题。Bernini的核心思路是先理解再生成:先由多模态大模型规划器(MLLM-based planner)理解文本指令、源视频和参考素材,再由扩散模型(DiT-based renderer)高质量渲染最终画面。
核心能力
Bernini覆盖参考生成和视频编辑两大类任务,重点提升可控性:
- 视频编辑:支持一条指令改变天气、季节、材质和风格;可调整画面的视角、焦点和主体动作,且保持前后帧一致。
- 参考编辑:允许使用图片或视频作为主体、材质、风格的参考,还可将图像或视频精准植入目标区域(如广告牌、LED屏),保证边界和透视。
- 参考生成:支持单图生成产品展示视频;支持多元素组合(多张不同参考图合成同一角色);支持同一物体的多角度参考,生成连续镜头时保持一致性;支持场景关键帧生成连续平移镜头。
技术亮点
Bernini将任务拆分为两步:
- 语义规划:MLLM planner直接在ViT embedding space中预测目标语义表示(语义草图),明确内容、结构和编辑范围。
- 视觉渲染:DiT renderer根据语义规划生成视频,对编辑任务还结合源视频的VAE features保留非编辑区域细节。
针对多参考输入,Bernini引入Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE),为不同视觉片段添加标记,区分参考图、源视频和目标输出。
开源状态
目前率先开源Bernini-R(三阶段训练中的第二阶段模型),包含完整MLLM Planner的版本正在整理中,预计近期开放。
- GitHub:https://github.com/bytedance/Bernini
- Hugging Face:https://huggingface.co/ByteDance/Bernini
- 项目主页:https://bernini-ai.github.io
