爱诗科技获3亿美元C轮融资:押注DiT架构与实时交互视频新范式

爱诗科技近日完成3亿美元C轮融资,创下中国AI视频赛道单笔融资纪录,由鼎晖旗下基金联合领投,产业资本儒意、三七互娱等紧随其后。公司凭借自研DiT架构及“模型-产品”协同迭代策略,在不到三年内实现技术从非共识到资本共识的跨越。其最新发布的R1引擎标志着视频生成从离线渲染转向实时交互,正重塑互动影视与游戏开发行业。

事件概述

爱诗科技(PixVerse)近日宣布完成3亿美元C轮融资,刷新国内AI视频生成领域的单笔融资最高纪录。本轮融资由鼎晖香港基金联合鼎晖VGC、鼎晖百孚领投,中国儒意、三七互娱等产业资本参投,并汇聚了来自全球不同领域的政府引导基金、险资及家族办公室。值得注意的是,爱诗科技从成立到达成同等量级融资仅用时不到三年,而海外竞品Runway耗时七年才完成类似规模融资。

核心技术与战略路径

1. 押注 DiT 架构

在2023年主流方案普遍采用U-Net架构时,爱诗科技率先选择DiT (Diffusion Transformer) 架构作为技术原点。该架构结合了扩散模型与Transformer的注意力机制,能更有效地捕捉视频帧间的长程时空依赖关系,确保动作连贯性与物理规律一致性。尽管初期面临算力消耗大、效果不如成熟方案的挑战,但这一选择在OpenAI发布Sora后得到验证,成为行业公认的正确方向。截至2026年初,爱诗已在DiT架构上积累了超过一年的训练与工程优化经验。

2. “模型 + 产品”双轮驱动

不同于传统“先训好模型再推产品”的路径,爱诗科技将模型训练与产品迭代置于同一闭环中:

  • 数据飞轮:通过 PixVerse(国际版)和拍我 AI(国内版)收集用户真实反馈,实时指导模型优化方向。
  • 成本优势:依托架构与工程能力,其平均每月训练资源消耗控制在千卡级别,成本约为同行的10%。
  • 高频迭代:从2024年1月至2026年1月,连续推出8个主要版本(如V5.6),平均每两个月一次重大升级,涵盖多段生成、局部重绘、准实时生成及Agent创作助手等功能。

关键里程碑与产品演进

时间版本/产品核心突破
2024.01PixVerse 上线网页版首发,开启用户反馈循环
2024.07V2支持多段视频生成与局部重绘
2024.10V3特效模式上线,提升生成确定性
2024.12V3.5生成时间压缩至10秒内
2025.01V4实现“准实时生成”(5-7秒生成5秒视频)
2025.05V4.5参数量与数据集指数级扩张,全球用户达6000万
2025.06拍我 AI国内版同步上线,形成双轨运营
2025.08V5Agent创作助手上线,支持口语化指令
2025.12V5.5分镜+音频一键生成,叙事能力成型
2026.01V5.6 / R1模态大模型发布;推出瞬时响应引擎 (IRE)

未来展望:从“消费品”到“交互界面”

爱诗科技最新发布的R1引擎代表了其战略重心的转移。R1不再局限于一次性离线渲染,而是通过自研的“瞬时响应引擎(IRE)”,将计算步骤压缩至1-4步,实现延迟约2秒的1080P实时交互视频流。用户可在播放过程中实时修改光影、背景或角色走向。

这一技术突破被定义为“世界模型”的雏形,旨在模糊视频与游戏的边界。投资方中的产业资本(如三七互娱)也印证了这一判断:R1有望重构互动影视制作与AI原生游戏开发流程,让非代码创作者也能快速构建交互式内容。目前,PixVerse全球注册用户已突破1亿,MAU超1600万,其V5.6模型在权威机构 Artificial Analysis 榜单中位列全球第二。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。