爱诗科技获3亿美元C轮融资:押注DiT架构与实时交互视频新范式
爱诗科技近日完成3亿美元C轮融资,创下中国AI视频赛道单笔融资纪录,由鼎晖旗下基金联合领投,产业资本儒意、三七互娱等紧随其后。公司凭借自研DiT架构及“模型-产品”协同迭代策略,在不到三年内实现技术从非共识到资本共识的跨越。其最新发布的R1引擎标志着视频生成从离线渲染转向实时交互,正重塑互动影视与游戏开发行业。
事件概述
爱诗科技(PixVerse)近日宣布完成3亿美元C轮融资,刷新国内AI视频生成领域的单笔融资最高纪录。本轮融资由鼎晖香港基金联合鼎晖VGC、鼎晖百孚领投,中国儒意、三七互娱等产业资本参投,并汇聚了来自全球不同领域的政府引导基金、险资及家族办公室。值得注意的是,爱诗科技从成立到达成同等量级融资仅用时不到三年,而海外竞品Runway耗时七年才完成类似规模融资。
核心技术与战略路径
1. 押注 DiT 架构
在2023年主流方案普遍采用U-Net架构时,爱诗科技率先选择DiT (Diffusion Transformer) 架构作为技术原点。该架构结合了扩散模型与Transformer的注意力机制,能更有效地捕捉视频帧间的长程时空依赖关系,确保动作连贯性与物理规律一致性。尽管初期面临算力消耗大、效果不如成熟方案的挑战,但这一选择在OpenAI发布Sora后得到验证,成为行业公认的正确方向。截至2026年初,爱诗已在DiT架构上积累了超过一年的训练与工程优化经验。
2. “模型 + 产品”双轮驱动
不同于传统“先训好模型再推产品”的路径,爱诗科技将模型训练与产品迭代置于同一闭环中:
- 数据飞轮:通过 PixVerse(国际版)和拍我 AI(国内版)收集用户真实反馈,实时指导模型优化方向。
- 成本优势:依托架构与工程能力,其平均每月训练资源消耗控制在千卡级别,成本约为同行的10%。
- 高频迭代:从2024年1月至2026年1月,连续推出8个主要版本(如V5.6),平均每两个月一次重大升级,涵盖多段生成、局部重绘、准实时生成及Agent创作助手等功能。
关键里程碑与产品演进
| 时间 | 版本/产品 | 核心突破 |
|---|---|---|
| 2024.01 | PixVerse 上线 | 网页版首发,开启用户反馈循环 |
| 2024.07 | V2 | 支持多段视频生成与局部重绘 |
| 2024.10 | V3 | 特效模式上线,提升生成确定性 |
| 2024.12 | V3.5 | 生成时间压缩至10秒内 |
| 2025.01 | V4 | 实现“准实时生成”(5-7秒生成5秒视频) |
| 2025.05 | V4.5 | 参数量与数据集指数级扩张,全球用户达6000万 |
| 2025.06 | 拍我 AI | 国内版同步上线,形成双轨运营 |
| 2025.08 | V5 | Agent创作助手上线,支持口语化指令 |
| 2025.12 | V5.5 | 分镜+音频一键生成,叙事能力成型 |
| 2026.01 | V5.6 / R1 | 模态大模型发布;推出瞬时响应引擎 (IRE) |
未来展望:从“消费品”到“交互界面”
爱诗科技最新发布的R1引擎代表了其战略重心的转移。R1不再局限于一次性离线渲染,而是通过自研的“瞬时响应引擎(IRE)”,将计算步骤压缩至1-4步,实现延迟约2秒的1080P实时交互视频流。用户可在播放过程中实时修改光影、背景或角色走向。
这一技术突破被定义为“世界模型”的雏形,旨在模糊视频与游戏的边界。投资方中的产业资本(如三七互娱)也印证了这一判断:R1有望重构互动影视制作与AI原生游戏开发流程,让非代码创作者也能快速构建交互式内容。目前,PixVerse全球注册用户已突破1亿,MAU超1600万,其V5.6模型在权威机构 Artificial Analysis 榜单中位列全球第二。
