3位00后用2个月打造流式音视频模型MaineCoon：22B参数、单卡47.5 FPS、成本仅Veo 3的1/2000

2026/06/20 18:42阅读量 3

中国10人初创团队Catnip发布流式音视频社交模型MaineCoon（缅因猫），22B参数，在单张H100上跑出47.5 FPS，推理速度位居业界第一，每秒推理成本低至0.00025美元（约Veo 3的1/2000）。模型支持边生成边播放、音画同出，可实现30分钟以上连续生成，并首次实现亚秒级首帧延迟与实时交互。MaineCoon在自建SocialVideo Bench基准测试中以0.934综合得分刷新SOTA。

事件概述

中国初创团队Catnip（猫薄荷）推出流式音视频社交模型MaineCoon（缅因猫），专为社交交互场景设计，实现了业界最快的推理速度和极低的成本。项目由3名核心研究员在2个月内完成全栈交付，团队仅10人，获得红杉、明势等头部VC的天使轮融资。

核心信息

模型参数与速度：22B参数，单张H100上可达47.5 FPS，即使在使用成本仅为H100一半的RTX Pro 6000上也能稳定在30 FPS以上。相比同类流式模型（约6-7 FPS）快约7倍。
成本：每秒推理成本控制在0.001美元以内，GPU占满时仅0.00025美元/秒，仅为Veo 3的1/2000、Seedance的1/560。
生成能力：支持流式音视频生成，首帧在1秒内出现，可边生成边播放，音画同步，时长可达30分钟以上（业界首次）。支持实时交互，用户可中途切换指令，模型即时调整。
架构与训练：训练分三个阶段——自重采样（Self-Resampling）解决推理时漂移、流式表征对齐（Representation Alignment）加快收敛、域感知偏好优化（DPO）+强化在线策略蒸馏（ROPD）后训练。推理侧采用Agentic框架，包含Director（叙事与纠错）、Cache Manager（缓存管理）、Buffer Controller（缓冲区控制）三个智能控制器。
自建基准：团队发布SocialVideo Bench，涵盖七大社交场景，MaineCoon综合得分0.934，超越主流7款音视频生成模型（最优基线SoulX-FlashTalk得分为0.895）。

值得关注

Catnip首次提出“社交世界模型”概念，以人为中心，MaineCoon属于渲染层突破。团队计划下一步摆脱半双工轮交互，实现实时双向交互（同时生成与感知用户反馈）。创始人杨姝瑞有TikTok、PixVerse产品经验及连续创业背景；首席科学家谢泽柯为香港科技大学（广州）助理教授，长期担任NeurIPS、ICLR等顶级会议领域主席。模型论文已发布在arxiv，官网限量开放200个内测邀请码。

论文：https://arxiv.org/abs/2606.17800
官网：https://mainecoon.tech/

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？