NVIDIA 开源 Cosmos 3：双塔 MoT 架构统一物理推理、世界生成与动作生成

一句话看懂

NVIDIA 开源 Cosmos 3 系列世界模型，用双塔 MoT 架构将物理推理、视频生成和机器人动作生成统一在一个模型中，提供 16B 和 64B 两种规模。

详细发生了什么

NVIDIA 发布 Cosmos 3，这是一系列面向物理 AI 的全模态世界模型。与之前将推理、生成和动作分开为独立模型的做法不同，Cosmos 3 采用双塔 Mixture-of-Transformers（MoT）架构，将所有能力整合到一个开源模型中。

架构包含两个核心塔：

推理塔（Reasoner Tower）：一个自回归视觉语言模型（VLM），基于 Qwen3-VL 权重初始化，负责理解图像、视频和文本中的运动、物体交互等物理上下文，被 NVIDIA 称为模型的“大脑”。
生成塔（Generator Tower）：基于扩散过程，根据推理塔的理解生成未来帧和动作序列，输出物理感知的视频和同步音效。信息单向流动（推理塔→生成塔），推理塔可独立运行，生成塔则需两塔协同。

模型提供三个规模：

Cosmos3-Nano：16B 参数（基于 8B 密集 Transformer），面向工作站 GPU（如 RTX PRO 6000），适合实时机器人应用。
Cosmos3-Super：64B 参数（基于 32B 密集 Transformer），面向数据中心 GPU（Hopper/Blackwell），用于大规模合成数据生成和高级推理。
Cosmos3-Edge：4B 参数（基于 2B 密集 Transformer），计划后续发布。

输入支持文本、图像、视频和 JSON 动作数组；输出包括图像、视频、同步音频、动作状态和文本。生成分辨率支持 256p、480p、720p，帧数范围 5-300，默认 189 帧（约 7.9 秒 24fps 视频）。音频为立体声 AAC 48kHz。动作条件覆盖相机、车辆、单臂、双臂、人形机器人等多种形态。

性能方面，Cosmos 3 在推理基准 VANTAGE-Bench 和 Traffic Anomaly Reasoning（TAR）上领先同规模模型；在生成基准 R-Bench、PAI-Bench、Physics-IQ、RoboLab 上达到开源 SOTA。NVIDIA 还推出了 HUE 评估框架，通过是非题对生成视频进行语义对齐、物理规律、几何推理和视觉完整性四维度评分。

所有模型权重、训练脚本、部署工具和 6 个合成数据生成数据集均以 OpenMDW-1.1 许可证开源。推理 NIM 微服务已可用，生成 NIM 即将推出。支持 BF16、FP8 和 NVFP4 量化，NVFP4 可带来 2 倍加速。

中文圈视角

Cosmos 3 对中文圈用户意味着什么？

1. 国内用户能用吗？ 模型权重完全开源，理论上可在自有硬件上部署。但 64B 的 Super 模型需要 Hopper/Blackwell 级别 GPU，国内获取受限；16B 的 Nano 模型可在 RTX PRO 6000 上运行，但该卡在国内价格高昂。更实际的路径是使用云端 API 或等待国产 GPU 适配。

2. 国产平替对比 目前国内尚无直接对标 Cosmos 3 的统一世界模型。百度 Apollo 的自动驾驶仿真平台、华为的盘古大模型在物理模拟方面有部分能力，但未开源且未统一推理与生成。智谱的 GLM 系列、DeepSeek 的多模态模型侧重语言和视觉理解，缺少动作生成模块。Cosmos 3 的开源生态可能催生国内团队基于其架构进行二次开发，尤其是在机器人领域。

3. 具体场景影响 对国内机器人创业公司，Cosmos 3 的 Nano-Policy-DROID 变体可直接用于策略学习，降低仿真到现实迁移成本。自动驾驶公司可利用其生成物理一致的交通场景视频，替代部分路测数据采集。但需注意数据出境问题：使用 NVIDIA 提供的预训练权重无限制，但若使用其开源数据集（含仓库、驾驶场景），需确认数据来源是否涉及中国场景。

4. 中文圈盲点 多数讨论聚焦于模型性能，但 Cosmos 3 的“动作作为核心模态”设计值得关注——它定义了固定的动作维度（如相机 9D），这为国内制定机器人动作标准提供了参考。另外，HUE 评估框架依赖 VLM 生成是非题，中文场景下需适配中文 VLM 和中文物理常识。

几条值得记住的细节

架构创新：双塔共享 3D 多模态旋转位置编码（mRoPE），将视频、音频、动作令牌对齐到同一时间轴。
模型规模：Nano 16B（8B 密集）、Super 64B（32B 密集），均基于 Qwen3-VL 初始化，参数约为 backbone 的两倍。
生成能力：支持 5-300 帧视频生成，默认 189 帧（7.9 秒 24fps），同步输出立体声 AAC 48kHz。
动作形态：覆盖相机、车辆、单臂、双臂、人形机器人等 6 种 embodiment，每种有固定动作维度。
开源范围：权重、6 个 SDG 数据集、训练脚本、NIM 微服务（推理已可用）全部开源，许可证 OpenMDW-1.1。

一句话总结

Cosmos 3 将物理推理、视频生成和动作控制打包成一个开源模型，为国内机器人、自动驾驶和仿真领域提供了可二次开发的统一基座。