SentiPulse与人大高瓴开源SentiAvatar：打破3D数字人交互瓶颈，实现自然情感表达

2026/04/08 16:30阅读量 120

SentiPulse联合中国人民大学高瓴人工智能学院推出全球首个交互式3D数字人框架SentiAvatar，旨在解决行业长期存在的动作机械、语义脱节及数据匮乏等核心痛点。该框架通过自建的SuSuInterActs数据集和Motion Foundation Model基础模型，结合plan-then-infill双通道架构，实现了文本到全身动作的精准生成。实测数据显示，SentiAvatar在多项指标上达到国际最优水平（SOTA），并支持0.3秒内生成6秒连贯动作的实时流式交互。目前，该项目已在GitHub开源，相关技术报告同步发布于arXiv。

事件概述

针对3D数字人行业长期受困于“视觉逼真但交互机械”的困境，SentiPulse（思维光谱）携手中国人民大学高瓴人工智能学院正式开源交互式3D数字人框架 SentiAvatar。该框架致力于构建具备自然表达能力和情感反馈的数字人，推动行业从“预设脚本播放”向“深度情感交互”跨越。

核心技术与创新

1. 数据底座突破

为解决中文场景高质量数据缺失问题，团队构建了 SuSuInterActs 数据集：

角色设定：单一角色 SUSU（22岁，性格温柔活泼）。
数据规模：包含2.1万段片段、37小时多模态对话语料。
内容覆盖：涵盖同步语音、行为标注文本、全身动作及面部表情，填补了中文高质量全身动作数据的空白。

2. 模型架构升级

Motion Foundation Model：在预训练阶段引入自研动作基础模型，基于200K+条异质动作序列（约676小时）训练通用运动先验，提升模型对复杂场景的泛化能力。
Plan-then-Infill 双通道并行架构：
- 第一阶段（规划）：LLM语义规划器接收行为标签和稀疏音频Token，输出稀疏关键帧动作序列，支持多轮流式连续生成与无缝跨句过渡。
- 第二阶段（填充）：Body Infill Transformer 在相邻关键帧间填入中间3帧，利用逐帧 HuBERT 连续特征（768维，20FPS）作为条件信号，采用5帧滑动窗口与迭代置信度解码策略（默认6步），确保动作流畅性。

性能表现与实测数据

权威实验显示，SentiAvatar 在自建数据集及行业通用基准上均达到当前国际最优水平（SOTA）：

SuSuInterActs 测试集：文本-动作检索召回率 R@1 达 43.64%，约为行业次优基线的2倍。
BEATv2 评测集：在跨数据集、跨语言场景下，FGD 得分 4.941，BC 得分 8.078，同时刷新两项指标纪录。
实时交互能力：支持 0.3秒内生成6秒动作序列，实现无限轮次的流式交互，彻底解决传统数字人“交互卡顿”与“音画错位”问题。

开源与应用前景

开源状态：SentiAvatar 已正式上线 GitHub 平台，面向全球科研机构与开发者开放；技术报告同步发布于 arXiv。
应用场景：开发者可基于该框架低成本构建专属3D数字人，拓展至游戏交互、影视制作、机器人等领域。
行业意义：通过构建“认知-表达”闭环，SentiAvatar 使数字人能够感知语境、理解情绪并主动反馈，为下一代“数字生命”奠定交互底座。

阅读原文详情