AI 快讯 编译自 marktechpost #模型发布#NVIDIA#物理AI#世界模型#开源

NVIDIA 开源 Cosmos 3:双塔 MoT 架构统一物理推理、世界生成与动作生成

NVIDIA 发布 Cosmos 3 系列开源世界模型,采用双塔 Mixture-of-Transformers 架构,将物理推理、视频生成和机器人动作生成统一在一个模型中。提供 16B/64B 两种规模,支持文本、图像、视频和动作输入,输出物理感知视频与同步音效。本文详解架构、性能与中文用户实际应用场景。

编译发布 2026/06/03 原文发布 2026/06/03

一句话看懂

NVIDIA 开源 Cosmos 3 系列世界模型,用双塔 MoT 架构将物理推理、视频生成和机器人动作生成统一在一个模型中,提供 16B 和 64B 两种规模。

详细发生了什么

NVIDIA 发布 Cosmos 3,这是一系列面向物理 AI 的全模态世界模型。与之前将推理、生成和动作分开为独立模型的做法不同,Cosmos 3 采用双塔 Mixture-of-Transformers(MoT)架构,将所有能力整合到一个开源模型中。

架构包含两个核心塔:

  • 推理塔(Reasoner Tower):一个自回归视觉语言模型(VLM),基于 Qwen3-VL 权重初始化,负责理解图像、视频和文本中的运动、物体交互等物理上下文,被 NVIDIA 称为模型的“大脑”。
  • 生成塔(Generator Tower):基于扩散过程,根据推理塔的理解生成未来帧和动作序列,输出物理感知的视频和同步音效。信息单向流动(推理塔→生成塔),推理塔可独立运行,生成塔则需两塔协同。

模型提供三个规模:

  • Cosmos3-Nano:16B 参数(基于 8B 密集 Transformer),面向工作站 GPU(如 RTX PRO 6000),适合实时机器人应用。
  • Cosmos3-Super:64B 参数(基于 32B 密集 Transformer),面向数据中心 GPU(Hopper/Blackwell),用于大规模合成数据生成和高级推理。
  • Cosmos3-Edge:4B 参数(基于 2B 密集 Transformer),计划后续发布。

输入支持文本、图像、视频和 JSON 动作数组;输出包括图像、视频、同步音频、动作状态和文本。生成分辨率支持 256p、480p、720p,帧数范围 5-300,默认 189 帧(约 7.9 秒 24fps 视频)。音频为立体声 AAC 48kHz。动作条件覆盖相机、车辆、单臂、双臂、人形机器人等多种形态。

性能方面,Cosmos 3 在推理基准 VANTAGE-Bench 和 Traffic Anomaly Reasoning(TAR)上领先同规模模型;在生成基准 R-Bench、PAI-Bench、Physics-IQ、RoboLab 上达到开源 SOTA。NVIDIA 还推出了 HUE 评估框架,通过是非题对生成视频进行语义对齐、物理规律、几何推理和视觉完整性四维度评分。

所有模型权重、训练脚本、部署工具和 6 个合成数据生成数据集均以 OpenMDW-1.1 许可证开源。推理 NIM 微服务已可用,生成 NIM 即将推出。支持 BF16、FP8 和 NVFP4 量化,NVFP4 可带来 2 倍加速。

中文圈视角

Cosmos 3 对中文圈用户意味着什么?

1. 国内用户能用吗? 模型权重完全开源,理论上可在自有硬件上部署。但 64B 的 Super 模型需要 Hopper/Blackwell 级别 GPU,国内获取受限;16B 的 Nano 模型可在 RTX PRO 6000 上运行,但该卡在国内价格高昂。更实际的路径是使用云端 API 或等待国产 GPU 适配。

2. 国产平替对比 目前国内尚无直接对标 Cosmos 3 的统一世界模型。百度 Apollo 的自动驾驶仿真平台、华为的盘古大模型在物理模拟方面有部分能力,但未开源且未统一推理与生成。智谱的 GLM 系列、DeepSeek 的多模态模型侧重语言和视觉理解,缺少动作生成模块。Cosmos 3 的开源生态可能催生国内团队基于其架构进行二次开发,尤其是在机器人领域。

3. 具体场景影响 对国内机器人创业公司,Cosmos 3 的 Nano-Policy-DROID 变体可直接用于策略学习,降低仿真到现实迁移成本。自动驾驶公司可利用其生成物理一致的交通场景视频,替代部分路测数据采集。但需注意数据出境问题:使用 NVIDIA 提供的预训练权重无限制,但若使用其开源数据集(含仓库、驾驶场景),需确认数据来源是否涉及中国场景。

4. 中文圈盲点 多数讨论聚焦于模型性能,但 Cosmos 3 的“动作作为核心模态”设计值得关注——它定义了固定的动作维度(如相机 9D),这为国内制定机器人动作标准提供了参考。另外,HUE 评估框架依赖 VLM 生成是非题,中文场景下需适配中文 VLM 和中文物理常识。

几条值得记住的细节

  • 架构创新:双塔共享 3D 多模态旋转位置编码(mRoPE),将视频、音频、动作令牌对齐到同一时间轴。
  • 模型规模:Nano 16B(8B 密集)、Super 64B(32B 密集),均基于 Qwen3-VL 初始化,参数约为 backbone 的两倍。
  • 生成能力:支持 5-300 帧视频生成,默认 189 帧(7.9 秒 24fps),同步输出立体声 AAC 48kHz。
  • 动作形态:覆盖相机、车辆、单臂、双臂、人形机器人等 6 种 embodiment,每种有固定动作维度。
  • 开源范围:权重、6 个 SDG 数据集、训练脚本、NIM 微服务(推理已可用)全部开源,许可证 OpenMDW-1.1。

一句话总结

Cosmos 3 将物理推理、视频生成和动作控制打包成一个开源模型,为国内机器人、自动驾驶和仿真领域提供了可二次开发的统一基座。