Cohere 发布 Command A+：218B 稀疏 MoE 模型，专为 Agent 工作流设计，最低仅需 2 块 H100 GPU

一句话看懂

Cohere 开源 Command A+，一个 218B 稀疏 MoE 模型，25B 激活参数，支持多模态和 48 种语言，最低 2 块 H100 即可部署，专为 Agent 工作流优化。

详细发生了什么

Cohere 发布了 Command A+，这是一个基于 Apache 2.0 许可证的开源模型，旨在提升企业级 Agent 工作流的性能。Command A+ 采用稀疏 MoE（Mixture-of-Experts）架构，总参数 218B，但每次推理只激活 25B 参数。它整合了此前四个 Command A 系列模型（Command A、Command A Reasoning、Command A Vision、Command A Translate）的能力，支持文本、图像和工具调用，上下文窗口 128K，最大生成长度 64K。

模型提供三种量化变体：BF16 需要 8 块 H100，FP8 需要 4 块 H100，而 W4A4 量化仅需 2 块 H100 或 1 块 B200。Cohere 推荐使用 W4A4 部署，并通过 Quantization-Aware Distillation（QAD）技术缩小量化后的精度损失。

性能方面，Command A+ 在 τ²-Bench Telecom 上从 37% 提升至 85%，Terminal-Bench Hard 从 3% 提升至 25%。作为 Cohere 首个多模态推理模型，它在 MMMU Pro 上达到 63%，MMMU 达到 75.1%。语言支持从 23 种扩展到 48 种。推理速度方面，相同量化下输出 token 每秒（TOPS）提升 63%，首 token 延迟（TTFT）降低 17%。

中文圈视角

Command A+ 对中文开发者有几个值得关注的亮点：

部署门槛低：W4A4 量化下仅需 2 块 H100，相比同规模模型（如 Llama 3.1 405B 需要 8 卡 H100）大幅降低硬件成本。国内团队如果租用云 GPU，2 卡 H100 的时租成本约 30-50 元/小时，个人开发者也能尝试。
多语言支持：48 种语言包括中文，且 Cohere 优化了 tokenizer，对中文的 token 效率提升未明确给出，但日韩语提升显著（日语 18%），中文可能也有类似收益。
Agent 工作流：模型在 Agentic QA、Spreadsheet analysis 等任务上提升明显，适合国内企业构建自动化办公、客服、数据分析等 Agent 应用。不过，Cohere 的 API 在国内访问可能受限，建议使用开源权重本地部署。
国产平替对比：相比 DeepSeek-V2（236B 总参，21B 激活），Command A+ 激活参数略多，但多模态和 Agent 能力更强。国内智谱 GLM-4 系列也支持多模态和工具调用，但开源程度和社区生态不如 Cohere。

一个中文圈尚未讨论的盲点：Command A+ 的 W4A4 量化方案（NVFP4）只量化 MoE 专家层，注意力路径保持全精度，这种混合精度策略可能成为未来 MoE 模型部署的标配，值得国内模型优化团队关注。

几条值得记住的细节

架构：128 个专家，每 token 激活 8 个，外加 1 个共享专家。
量化：W4A4 仅需 2× H100 或 1× B200，BF16 需要 8× H100。
性能：τ²-Bench Telecom 从 37% 提升至 85%，Terminal-Bench Hard 从 3% 提升至 25%。
速度：W4A4 相比 BF16 额外提升 47% 速度，配合推测解码再快 1.5-1.6 倍。
许可证：Apache 2.0，可商用，模型权重已发布。

一句话总结

Command A+ 让 200B 级开源模型在 2 卡 H100 上跑出 Agent 能力，对预算有限的国内团队是个好消息。