字节开源统一框架Bernini：多模态大模型规划视频编辑，先理解再生成

2026/06/02 17:28阅读量 7

字节商业化技术团队开源面向视频生成与编辑的统一框架Bernini，采用多模态大模型（MLLM planner）负责语义理解与规划，再由DiT渲染器（DiT-based renderer）生成高质量视频。该框架支持参考生成、视频编辑等多项任务，能实现天气/风格/视角/动作编辑，以及基于图片和视频参考的一致性生成。在自建评测中，Bernini已进入第一梯队。目前Bernini-R（第二阶段模型）的推理代码和权重已开放。

事件概述

字节商业化技术团队开源统一视频生成与编辑框架 Bernini，旨在解决AI视频编辑中模型“听不懂指令”、可控性差的问题。Bernini的核心思路是先理解再生成：先由多模态大模型规划器（MLLM-based planner）理解文本指令、源视频和参考素材，再由扩散模型（DiT-based renderer）高质量渲染最终画面。

核心能力

Bernini覆盖参考生成和视频编辑两大类任务，重点提升可控性：

视频编辑：支持一条指令改变天气、季节、材质和风格；可调整画面的视角、焦点和主体动作，且保持前后帧一致。
参考编辑：允许使用图片或视频作为主体、材质、风格的参考，还可将图像或视频精准植入目标区域（如广告牌、LED屏），保证边界和透视。
参考生成：支持单图生成产品展示视频；支持多元素组合（多张不同参考图合成同一角色）；支持同一物体的多角度参考，生成连续镜头时保持一致性；支持场景关键帧生成连续平移镜头。

技术亮点

Bernini将任务拆分为两步：

语义规划：MLLM planner直接在ViT embedding space中预测目标语义表示（语义草图），明确内容、结构和编辑范围。
视觉渲染：DiT renderer根据语义规划生成视频，对编辑任务还结合源视频的VAE features保留非编辑区域细节。

针对多参考输入，Bernini引入Segment-Aware 3D Rotary Positional Embedding（SA-3D RoPE），为不同视觉片段添加标记，区分参考图、源视频和目标输出。

开源状态

目前率先开源Bernini-R（三阶段训练中的第二阶段模型），包含完整MLLM Planner的版本正在整理中，预计近期开放。

GitHub：https://github.com/bytedance/Bernini
Hugging Face：https://huggingface.co/ByteDance/Bernini
项目主页：https://bernini-ai.github.io

阅读原文详情

事件概述

核心能力

技术亮点

开源状态

准备好启动您的定制项目了吗？