SentiPulse与人大高瓴开源SentiAvatar:打破3D数字人交互瓶颈,实现自然情感表达

2026/04/08 16:30阅读量 5

SentiPulse联合中国人民大学高瓴人工智能学院推出全球首个交互式3D数字人框架SentiAvatar,旨在解决行业长期存在的动作机械、语义脱节及数据匮乏等核心痛点。该框架通过自建的SuSuInterActs数据集和Motion Foundation Model基础模型,结合plan-then-infill双通道架构,实现了文本到全身动作的精准生成。实测数据显示,SentiAvatar在多项指标上达到国际最优水平(SOTA),并支持0.3秒内生成6秒连贯动作的实时流式交互。目前,该项目已在GitHub开源,相关技术报告同步发布于arXiv。

事件概述

针对3D数字人行业长期受困于“视觉逼真但交互机械”的困境,SentiPulse(思维光谱)携手中国人民大学高瓴人工智能学院正式开源交互式3D数字人框架 SentiAvatar。该框架致力于构建具备自然表达能力和情感反馈的数字人,推动行业从“预设脚本播放”向“深度情感交互”跨越。

核心技术与创新

1. 数据底座突破

为解决中文场景高质量数据缺失问题,团队构建了 SuSuInterActs 数据集:

  • 角色设定:单一角色 SUSU(22岁,性格温柔活泼)。
  • 数据规模:包含2.1万段片段、37小时多模态对话语料。
  • 内容覆盖:涵盖同步语音、行为标注文本、全身动作及面部表情,填补了中文高质量全身动作数据的空白。

2. 模型架构升级

  • Motion Foundation Model:在预训练阶段引入自研动作基础模型,基于200K+条异质动作序列(约676小时)训练通用运动先验,提升模型对复杂场景的泛化能力。
  • Plan-then-Infill 双通道并行架构
    • 第一阶段(规划):LLM语义规划器接收行为标签和稀疏音频Token,输出稀疏关键帧动作序列,支持多轮流式连续生成与无缝跨句过渡。
    • 第二阶段(填充):Body Infill Transformer 在相邻关键帧间填入中间3帧,利用逐帧 HuBERT 连续特征(768维,20FPS)作为条件信号,采用5帧滑动窗口与迭代置信度解码策略(默认6步),确保动作流畅性。

性能表现与实测数据

权威实验显示,SentiAvatar 在自建数据集及行业通用基准上均达到当前国际最优水平(SOTA):

  • SuSuInterActs 测试集:文本-动作检索召回率 R@1 达 43.64%,约为行业次优基线的2倍。
  • BEATv2 评测集:在跨数据集、跨语言场景下,FGD 得分 4.941,BC 得分 8.078,同时刷新两项指标纪录。
  • 实时交互能力:支持 0.3秒内生成6秒动作序列,实现无限轮次的流式交互,彻底解决传统数字人“交互卡顿”与“音画错位”问题。

开源与应用前景

  • 开源状态:SentiAvatar 已正式上线 GitHub 平台,面向全球科研机构与开发者开放;技术报告同步发布于 arXiv。
  • 应用场景:开发者可基于该框架低成本构建专属3D数字人,拓展至游戏交互、影视制作、机器人等领域。
  • 行业意义:通过构建“认知-表达”闭环,SentiAvatar 使数字人能够感知语境、理解情绪并主动反馈,为下一代“数字生命”奠定交互底座。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。