3位00后用2个月打造流式音视频模型MaineCoon:22B参数、单卡47.5 FPS、成本仅Veo 3的1/2000
2026/06/20 18:42阅读量 3
中国10人初创团队Catnip发布流式音视频社交模型MaineCoon(缅因猫),22B参数,在单张H100上跑出47.5 FPS,推理速度位居业界第一,每秒推理成本低至0.00025美元(约Veo 3的1/2000)。模型支持边生成边播放、音画同出,可实现30分钟以上连续生成,并首次实现亚秒级首帧延迟与实时交互。MaineCoon在自建SocialVideo Bench基准测试中以0.934综合得分刷新SOTA。
事件概述
中国初创团队Catnip(猫薄荷)推出流式音视频社交模型MaineCoon(缅因猫),专为社交交互场景设计,实现了业界最快的推理速度和极低的成本。项目由3名核心研究员在2个月内完成全栈交付,团队仅10人,获得红杉、明势等头部VC的天使轮融资。
核心信息
- 模型参数与速度:22B参数,单张H100上可达47.5 FPS,即使在使用成本仅为H100一半的RTX Pro 6000上也能稳定在30 FPS以上。相比同类流式模型(约6-7 FPS)快约7倍。
- 成本:每秒推理成本控制在0.001美元以内,GPU占满时仅0.00025美元/秒,仅为Veo 3的1/2000、Seedance的1/560。
- 生成能力:支持流式音视频生成,首帧在1秒内出现,可边生成边播放,音画同步,时长可达30分钟以上(业界首次)。支持实时交互,用户可中途切换指令,模型即时调整。
- 架构与训练:训练分三个阶段——自重采样(Self-Resampling)解决推理时漂移、流式表征对齐(Representation Alignment)加快收敛、域感知偏好优化(DPO)+强化在线策略蒸馏(ROPD)后训练。推理侧采用Agentic框架,包含Director(叙事与纠错)、Cache Manager(缓存管理)、Buffer Controller(缓冲区控制)三个智能控制器。
- 自建基准:团队发布SocialVideo Bench,涵盖七大社交场景,MaineCoon综合得分0.934,超越主流7款音视频生成模型(最优基线SoulX-FlashTalk得分为0.895)。
值得关注
Catnip首次提出“社交世界模型”概念,以人为中心,MaineCoon属于渲染层突破。团队计划下一步摆脱半双工轮交互,实现实时双向交互(同时生成与感知用户反馈)。创始人杨姝瑞有TikTok、PixVerse产品经验及连续创业背景;首席科学家谢泽柯为香港科技大学(广州)助理教授,长期担任NeurIPS、ICLR等顶级会议领域主席。模型论文已发布在arxiv,官网限量开放200个内测邀请码。
论文:https://arxiv.org/abs/2606.17800
官网:https://mainecoon.tech/
