Cohere 发布 Command A+:218B 稀疏 MoE 模型,专为 Agent 工作流设计,最低仅需 2 块 H100 GPU
Cohere 开源了 Command A+,一个 218B 总参数、25B 激活参数的稀疏 MoE 模型,支持多模态推理、48 种语言,可在 2 块 H100 上运行。本文详解其架构、量化方案、性能提升及对中文开发者的实际意义。
一句话看懂
Cohere 开源 Command A+,一个 218B 稀疏 MoE 模型,25B 激活参数,支持多模态和 48 种语言,最低 2 块 H100 即可部署,专为 Agent 工作流优化。
详细发生了什么
Cohere 发布了 Command A+,这是一个基于 Apache 2.0 许可证的开源模型,旨在提升企业级 Agent 工作流的性能。Command A+ 采用稀疏 MoE(Mixture-of-Experts)架构,总参数 218B,但每次推理只激活 25B 参数。它整合了此前四个 Command A 系列模型(Command A、Command A Reasoning、Command A Vision、Command A Translate)的能力,支持文本、图像和工具调用,上下文窗口 128K,最大生成长度 64K。
模型提供三种量化变体:BF16 需要 8 块 H100,FP8 需要 4 块 H100,而 W4A4 量化仅需 2 块 H100 或 1 块 B200。Cohere 推荐使用 W4A4 部署,并通过 Quantization-Aware Distillation(QAD)技术缩小量化后的精度损失。
性能方面,Command A+ 在 τ²-Bench Telecom 上从 37% 提升至 85%,Terminal-Bench Hard 从 3% 提升至 25%。作为 Cohere 首个多模态推理模型,它在 MMMU Pro 上达到 63%,MMMU 达到 75.1%。语言支持从 23 种扩展到 48 种。推理速度方面,相同量化下输出 token 每秒(TOPS)提升 63%,首 token 延迟(TTFT)降低 17%。
中文圈视角
Command A+ 对中文开发者有几个值得关注的亮点:
- 部署门槛低:W4A4 量化下仅需 2 块 H100,相比同规模模型(如 Llama 3.1 405B 需要 8 卡 H100)大幅降低硬件成本。国内团队如果租用云 GPU,2 卡 H100 的时租成本约 30-50 元/小时,个人开发者也能尝试。
- 多语言支持:48 种语言包括中文,且 Cohere 优化了 tokenizer,对中文的 token 效率提升未明确给出,但日韩语提升显著(日语 18%),中文可能也有类似收益。
- Agent 工作流:模型在 Agentic QA、Spreadsheet analysis 等任务上提升明显,适合国内企业构建自动化办公、客服、数据分析等 Agent 应用。不过,Cohere 的 API 在国内访问可能受限,建议使用开源权重本地部署。
- 国产平替对比:相比 DeepSeek-V2(236B 总参,21B 激活),Command A+ 激活参数略多,但多模态和 Agent 能力更强。国内智谱 GLM-4 系列也支持多模态和工具调用,但开源程度和社区生态不如 Cohere。
一个中文圈尚未讨论的盲点:Command A+ 的 W4A4 量化方案(NVFP4)只量化 MoE 专家层,注意力路径保持全精度,这种混合精度策略可能成为未来 MoE 模型部署的标配,值得国内模型优化团队关注。
几条值得记住的细节
- 架构:128 个专家,每 token 激活 8 个,外加 1 个共享专家。
- 量化:W4A4 仅需 2× H100 或 1× B200,BF16 需要 8× H100。
- 性能:τ²-Bench Telecom 从 37% 提升至 85%,Terminal-Bench Hard 从 3% 提升至 25%。
- 速度:W4A4 相比 BF16 额外提升 47% 速度,配合推测解码再快 1.5-1.6 倍。
- 许可证:Apache 2.0,可商用,模型权重已发布。
一句话总结
Command A+ 让 200B 级开源模型在 2 卡 H100 上跑出 Agent 能力,对预算有限的国内团队是个好消息。