Sand.ai 获超亿美元融资，曹越详析视频模型如何通向世界模型

2026/06/29 16:04阅读量 3

Sand.ai 完成超亿美元融资，投资方包括多家一线机构。创始人曹越阐述其技术路线：自回归架构、音画同出、MoE 架构，并认为视频数据是通往世界模型最重要的路径。公司已在应用端推出音乐 Agent 产品 VidMuse，三个月达成千万美元 ARR。

事件概述

视频生成模型公司 Sand.ai 完成两轮合计超亿美元融资，投资方包括 Look Capital、Lollapalooza Capital（王慧文家办）、九坤创投、经纬创投、和玉资本、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等。星涵资本担任财务顾问。公司成立于 2024 年 1 月，创始人曹越曾在“光年之外”创业后再次出发，专注视频生成模型。

核心信息

技术路线选择：Sand.ai 从成立之初就坚持自回归（Autoregressive）路线，而非主流的 Diffusion 路线。2025 年初发布基于自回归架构的模型 Magi-1，随后在音画同出方向探索，成为除 Google VEO 3 外最早实现音画同出的团队。Magi-1 在 Google DeepMind 的 Physics IQ benchmark 上长期保持第一。
MoE 架构转型：2025 年 11 月，团队决定从 Dense 架构转向 MoE 架构。曹越指出，Dense 架构下继续 Scale Up 成本增长过快，视频模型存在成本、速度、效果的不可能三角，MoE 是突破方向。2026 年 Q3 计划发布新一代采用 MoE 架构的视频生成模型，目标做到各维度 SOTA 并开源。
对世界模型的看法：曹越认为“世界模型”概念已被滥用，仍在“前 GPT 时代”——数据不足、定义不清、技术路线未收敛。视频数据是通往世界模型最重要的路径，因为它是对世界观测数据中信息密度最高、体量最大的类型，同时编码了时间、空间、视觉、听觉。他强调应直接预测原始观测（raw data），而非人为定义的隐藏状态。
应用探索：Sand.ai 已推出数字人、视频 Agent 等产品。2026 年 1 月上线的音乐 Agent 产品 VidMuse，三个月内达到千万美元 ARR 规模。曹越认为创业公司需同时具备训练 SOTA 模型和做产品的能力，模型与产品应双轮驱动。

值得关注

Sand.ai 在自回归视频生成路线上持续押注，与主流 Diffusion 路线形成差异化。
MoE 架构在视频模型中面临 Token 序列长、冗余度高、通信开销大等挑战，Sand.ai 称已探索出创新方案实现稳定训练。
开源策略：此前开源的 MagiAttention 算子库已被国内大多数多模态模型团队使用，英伟达官方推荐用于训练多模态模型。
市场判断：视频模型竞争烈度低于语言模型，领先窗口约两三个月，最终牌桌上可能留下三五家。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？