Sand.ai 获超亿美元融资,曹越详析视频模型如何通向世界模型
2026/06/29 16:04阅读量 3
Sand.ai 完成超亿美元融资,投资方包括多家一线机构。创始人曹越阐述其技术路线:自回归架构、音画同出、MoE 架构,并认为视频数据是通往世界模型最重要的路径。公司已在应用端推出音乐 Agent 产品 VidMuse,三个月达成千万美元 ARR。
事件概述
视频生成模型公司 Sand.ai 完成两轮合计超亿美元融资,投资方包括 Look Capital、Lollapalooza Capital(王慧文家办)、九坤创投、经纬创投、和玉资本、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等。星涵资本担任财务顾问。公司成立于 2024 年 1 月,创始人曹越曾在“光年之外”创业后再次出发,专注视频生成模型。
核心信息
- 技术路线选择:Sand.ai 从成立之初就坚持自回归(Autoregressive)路线,而非主流的 Diffusion 路线。2025 年初发布基于自回归架构的模型 Magi-1,随后在音画同出方向探索,成为除 Google VEO 3 外最早实现音画同出的团队。Magi-1 在 Google DeepMind 的 Physics IQ benchmark 上长期保持第一。
- MoE 架构转型:2025 年 11 月,团队决定从 Dense 架构转向 MoE 架构。曹越指出,Dense 架构下继续 Scale Up 成本增长过快,视频模型存在成本、速度、效果的不可能三角,MoE 是突破方向。2026 年 Q3 计划发布新一代采用 MoE 架构的视频生成模型,目标做到各维度 SOTA 并开源。
- 对世界模型的看法:曹越认为“世界模型”概念已被滥用,仍在“前 GPT 时代”——数据不足、定义不清、技术路线未收敛。视频数据是通往世界模型最重要的路径,因为它是对世界观测数据中信息密度最高、体量最大的类型,同时编码了时间、空间、视觉、听觉。他强调应直接预测原始观测(raw data),而非人为定义的隐藏状态。
- 应用探索:Sand.ai 已推出数字人、视频 Agent 等产品。2026 年 1 月上线的音乐 Agent 产品 VidMuse,三个月内达到千万美元 ARR 规模。曹越认为创业公司需同时具备训练 SOTA 模型和做产品的能力,模型与产品应双轮驱动。
值得关注
- Sand.ai 在自回归视频生成路线上持续押注,与主流 Diffusion 路线形成差异化。
- MoE 架构在视频模型中面临 Token 序列长、冗余度高、通信开销大等挑战,Sand.ai 称已探索出创新方案实现稳定训练。
- 开源策略:此前开源的 MagiAttention 算子库已被国内大多数多模态模型团队使用,英伟达官方推荐用于训练多模态模型。
- 市场判断:视频模型竞争烈度低于语言模型,领先窗口约两三个月,最终牌桌上可能留下三五家。
