NVIDIA 发布 Polar 框架:无需修改代码即可对 Codex、Claude Code 等代理进行 GRPO 强化学习训练
NVIDIA 推出 Polar 框架,通过在模型 API 边界设置代理,实现对 Codex CLI、Claude Code、Qwen Code 等代理进行 GRPO 强化学习训练,无需修改代理代码。在 SWE-Bench Verified 上,Codex 下 pass@1 提升 22.6 个百分点。本文详解其原理、性能及对中文开发者的意义。
一句话看懂
NVIDIA 发布 Polar 框架,通过在模型 API 调用处设置代理,让任何基于 LLM 的代理无需改代码即可进行 GRPO 强化学习训练,在 SWE-Bench 上最高提升 22.6 个百分点。
详细发生了什么
NVIDIA 研究团队推出 Polar,一个 token 忠实(token-faithful)的 rollout 框架,用于对语言代理进行强化学习训练。核心创新在于:Polar 不要求修改代理的 harness(如 Codex CLI、Claude Code、Qwen Code 等),而是在 harness 和推理服务器之间放置一个模型 API 代理。该代理捕获每次模型调用的 token 级交互,并重构出训练器可用的轨迹。
Polar 使用 GRPO 算法,基于 Qwen3.5-4B 基础模型进行训练。在 SWE-Bench Verified 基准上,Codex harness 下 pass@1 提升 22.6 个百分点(从 3.8% 到 26.4%),Claude Code 下提升 4.8 个百分点(29.8%→34.6%),Pi 下提升 6.2 个百分点(34.2%→40.4%)。Polar 已注册为 NeMo Gym 环境,并在 ProRL Agent Server 仓库中开源。
中文圈视角
Polar 对中文开发者意味着什么?首先,它降低了强化学习训练代理的门槛。目前国内很多团队使用 Qwen 系列模型进行代码任务,但强化学习训练往往需要重写 harness 逻辑,Polar 的代理方式让这一过程变得简单。不过,Polar 目前依赖 NVIDIA 的 NeMo 生态,国内用户可能需要适配国产 GPU(如昇腾、寒武纪)或使用云服务。
其次,Polar 支持多种 API 格式(Anthropic、OpenAI、Google),这意味着国内开发者可以将其用于基于 API 的代理训练,但需注意数据出境问题。对于使用国产模型(如 DeepSeek、Kimi)的团队,Polar 的代理层需要适配这些模型的 API 格式,目前尚未有官方支持。
另外,Polar 的 prefix_merging 策略能大幅减少训练时间(加速 5.39 倍),对于算力有限的中小团队尤其有价值。但需注意,Polar 的奖励设计和评估器质量仍需用户自行优化。
几条值得记住的细节
- 无需修改 harness:只需将模型 base URL 指向 Polar 网关即可,支持 Codex CLI、Claude Code、Qwen Code、Pi 等。
- prefix_merging 策略:将多轮对话合并为长轨迹,训练更新次数从 1185 次降至 218 次,时间从 189.5 分钟降至 35.2 分钟。
- Codex 下提升最大:+22.6 个百分点,因为 Qwen 模型原本不熟悉 Codex 的 action 协议,Polar 让 GRPO 直接优化实际采样 token。
- 离线 SFT 数据生成:Polar 也可用于生成高质量 SFT 数据,在 1638 个实例中,30.8% 的轨迹被接受(需通过 SWE-Bench 验证)。
- 开源:Polar 已开源在 ProRL Agent Server 仓库,基于 NeMo Gym。
一句话总结
Polar 让强化学习训练代理变得像换 API 地址一样简单,对国内 Qwen 用户尤其友好,但需注意国产硬件和 API 适配问题。