JetBrains 开源 Mellum2：12B MoE 编程模型，专为多模型 AI 流水线中的快速任务设计

一句话看懂

JetBrains 开源 Mellum2，一个 12B 参数的 MoE 模型，激活参数仅 2.5B，专为多模型 AI 流水线中的快速、专业化任务设计，Apache 2.0 许可。

详细发生了什么

2026 年 6 月 2 日，JetBrains 正式开源 Mellum2。这是一个 12B 总参数、2.5B 激活参数的 Mixture-of-Experts (MoE) 模型，采用 Apache 2.0 许可。Mellum2 是之前 4B 密集模型 Mellum 的继任者，定位为“焦点模型”——在多模型 AI 系统中充当快速、专业化的组件，而非替代前沿模型。

Mellum2 有 64 个专家，每 token 激活 8 个，上下文长度 131,072 token，支持多 token 预测（MTP）头用于推测解码。预训练数据约 10.6 万亿 token，采用三阶段课程学习，逐步从多样化网页内容转向代码和数学。后训练包括监督微调（SFT）和基于可验证奖励的强化学习（RLVR）。JetBrains 发布了 6 个检查点，涵盖基础、SFT 和 RL 调优的 Instruct 与 Thinking 变体。

性能方面，Mellum2 在 EvalPlus（78.4）和 BFCL v3（66.3）上表现突出，但在 LiveCodeBench v6（37.2）和 GPQA Diamond（40.9）上落后于 Qwen3.5 9B 等模型。JetBrains 强调其低延迟和效率优势，适用于路由、低延迟 RAG、子代理和本地部署等场景。

中文圈视角

Mellum2 对中文开发者意味着什么？首先，Apache 2.0 许可允许自由商用和自托管，国内团队可以将其部署在自有服务器上，无需担心数据出境问题。对于使用 JetBrains IDE（如 IntelliJ IDEA、PyCharm）的开发者，Mellum2 可能直接集成到 IDE 的 AI 助手中，提供代码补全、调试建议等功能，且延迟更低。

与国产模型对比：Qwen3.5 9B 在多项基准上领先 Mellum2，但 Mellum2 的 MoE 架构使其激活参数更少，推理成本更低。对于需要低延迟的编程辅助场景，Mellum2 可能比同尺寸密集模型更经济。此外，Mellum2 的 Thinking 变体提供显式推理链，适合复杂调试和代理流程，这与 DeepSeek-R1 的思路类似，但 Mellum2 更专注于软件工程。

中文圈尚未广泛讨论的一点是：Mellum2 的 MTP 头允许无需独立草稿模型的推测解码，这在本地部署时能显著提升生成速度，对于资源受限的开发者环境尤为实用。

几条值得记住的细节

Mellum2 总参数 12B，每 token 仅激活 2.5B 参数，推理效率接近 2.5B 密集模型。
上下文长度 131,072 token，支持长代码文件和多轮对话。
提供 Instruct（直接回答）和 Thinking（显式推理）两种变体，分别适用于低延迟和复杂任务。
在 EvalPlus 上得分 78.4，高于 Qwen3.5 9B 的 71.8 和 Ministral 3 14B 的 74.1。
仅支持文本和代码，不支持图像或多模态输入。

一句话总结

Mellum2 是一个高效、开源的编程专用模型，适合集成到现有工具链中，尤其适合对延迟敏感或需要本地部署的开发者。