ClearML 推出 NVIDIA Cosmos 部署平台与视频搜索摘要蓝图
ClearML 发布针对 NVIDIA Cosmos Reason 2 的验证蓝图,通过 NVIDIA NIM 微服务集成,将物理 AI 视觉语言模型快速投入生产。该平台提供从基础设施编排、向量数据库管理到安全审计的全栈解决方案,支持企业级视频搜索与摘要应用。相比传统方式,该方案将部署周期从数周缩短至数小时,并实现了基于 GPU 队列的动态伸缩与零信任安全治理。
事件概述
ClearML 正式推出针对 NVIDIA Cosmos™ 的验证蓝图(Validated Blueprint),旨在简化 NVIDIA Cosmos Reason 2 模型的部署与应用。该方案集成了完整的底层基础设施、编排系统、向量数据库及安全栈,使企业能够在几分钟内运行 NVIDIA Video Search & Summarization (VSS) 蓝图,实现企业级规模的视频处理。
核心信息
1. NVIDIA Cosmos Reason 2 模型特性
Cosmos Reason 2 是一个面向物理 AI(如机器人、自动驾驶车辆及工业视觉系统)的开源、可定制推理视觉语言模型(VLM)。
- 架构基础:基于 Qwen3-VL-8B-Instruct,结合 Vision Transformer 编码器与密集型 LLM。
- 上下文窗口:支持 256,000 个输入 token(是其前代的 16 倍),能够理解长链式思维、因果关系、轨迹、3D 空间及时间序列。
- 参数量:提供 8B 版本(另有 2B 变体可选)。
- 硬件要求:最低需 1× NVIDIA L40S,亦支持 RTX 4500 Pro, RTX 6000 Pro, H100, H200 等。
- 封装形式:以 NVIDIA NIM 微服务形式发布,经 vLLM 优化,兼容 OpenAI API。
2. ClearML 平台关键能力
ClearML 摒弃了传统的 Helm Charts 和手动 kubectl 操作,提供开箱即用的 NVIDIA NIM 应用:
- 目录化启动:Cosmos Reason 2-8B 预注册于模型目录,用户选择 GPU 资源池即可一键启动。平台自动配置网络并通过 App Gateway 暴露受保护端点。
- 异构基础设施支持:代理层抽象了裸机、虚拟机或 Kubernetes 的差异,支持动态自动伸缩,根据队列深度调整 GPU 池规模,避免闲置成本与延迟波动。
- 多引擎支持:支持 vLLM、SGLang、llama.cpp 等多种推理引擎,可根据模型特性灵活选择。
- 全栈可观测性:内置实时 GPU 利用率、请求吞吐量及延迟监控。
3. NVIDIA Video Search & Summarization (VSS) 蓝图架构
该蓝图定义了从视频摄入、字幕生成到自然语言查询的参考架构,ClearML 提供了其生产运营层:
- 核心模型:Cosmos Reason 2-8B VLM 位于管道核心,利用 256K token 上下文对多事件场景进行整体理解,生成更丰富的字幕以提升检索精度。
- 安全过滤:集成 NVIDIA NeMo Guardrails,在查询层过滤无效或越界提示,保障系统完整性与数据隐私。
- 向量数据库管理:
- Milvus:作为默认参考,支持云原生水平扩展,适用于数千万条视频字幕索引。
- Qdrant:提供低延迟的混合语义搜索(结合相似度与结构化元数据,如摄像头 ID、时间范围)。
- 无缝切换:两者均由 ClearML 托管,切换仅需配置变更,无需重写代码,且自动继承 RBAC 与网络隔离。
- 端到端编排:ClearML Pipelines 将视频分割、VLM 字幕生成、ASR 转录、嵌入及向量化索引编码为版本化的 DAG(有向无环图),支持基于 GPU 队列的自动扩缩容,并提供完整的执行历史与 artifact 血缘追踪。
业务价值
- 极速上线:将原本需要数周的 DevOps 工作压缩至数小时,无需编写基础设施代码。
- 成本效率:通过动态伸缩机制,在空闲期将 GPU 池缩容至零,按需分配资源,消除过度配置成本。
- 零信任安全:提供多租户隔离、细粒度 RBAC(资产与计算双重控制)、SSO/LDAP 集成及完整审计日志,满足医疗、金融等敏感行业合规要求。
- 开放架构:无推理引擎、向量数据库或云厂商锁定,支持组件灵活替换以适应未来技术演进。
