NVIDIA 发布 Polar 框架：无需修改代码即可对 Codex、Claude Code 等代理进行 GRPO 强化学习训练

一句话看懂

NVIDIA 发布 Polar 框架，通过在模型 API 调用处设置代理，让任何基于 LLM 的代理无需改代码即可进行 GRPO 强化学习训练，在 SWE-Bench 上最高提升 22.6 个百分点。

详细发生了什么

NVIDIA 研究团队推出 Polar，一个 token 忠实（token-faithful）的 rollout 框架，用于对语言代理进行强化学习训练。核心创新在于：Polar 不要求修改代理的 harness（如 Codex CLI、Claude Code、Qwen Code 等），而是在 harness 和推理服务器之间放置一个模型 API 代理。该代理捕获每次模型调用的 token 级交互，并重构出训练器可用的轨迹。

Polar 使用 GRPO 算法，基于 Qwen3.5-4B 基础模型进行训练。在 SWE-Bench Verified 基准上，Codex harness 下 pass@1 提升 22.6 个百分点（从 3.8% 到 26.4%），Claude Code 下提升 4.8 个百分点（29.8%→34.6%），Pi 下提升 6.2 个百分点（34.2%→40.4%）。Polar 已注册为 NeMo Gym 环境，并在 ProRL Agent Server 仓库中开源。

中文圈视角

Polar 对中文开发者意味着什么？首先，它降低了强化学习训练代理的门槛。目前国内很多团队使用 Qwen 系列模型进行代码任务，但强化学习训练往往需要重写 harness 逻辑，Polar 的代理方式让这一过程变得简单。不过，Polar 目前依赖 NVIDIA 的 NeMo 生态，国内用户可能需要适配国产 GPU（如昇腾、寒武纪）或使用云服务。

其次，Polar 支持多种 API 格式（Anthropic、OpenAI、Google），这意味着国内开发者可以将其用于基于 API 的代理训练，但需注意数据出境问题。对于使用国产模型（如 DeepSeek、Kimi）的团队，Polar 的代理层需要适配这些模型的 API 格式，目前尚未有官方支持。

另外，Polar 的 prefix_merging 策略能大幅减少训练时间（加速 5.39 倍），对于算力有限的中小团队尤其有价值。但需注意，Polar 的奖励设计和评估器质量仍需用户自行优化。

几条值得记住的细节

无需修改 harness：只需将模型 base URL 指向 Polar 网关即可，支持 Codex CLI、Claude Code、Qwen Code、Pi 等。
prefix_merging 策略：将多轮对话合并为长轨迹，训练更新次数从 1185 次降至 218 次，时间从 189.5 分钟降至 35.2 分钟。
Codex 下提升最大：+22.6 个百分点，因为 Qwen 模型原本不熟悉 Codex 的 action 协议，Polar 让 GRPO 直接优化实际采样 token。
离线 SFT 数据生成：Polar 也可用于生成高质量 SFT 数据，在 1638 个实例中，30.8% 的轨迹被接受（需通过 SWE-Bench 验证）。
开源：Polar 已开源在 ProRL Agent Server 仓库，基于 NeMo Gym。

一句话总结

Polar 让强化学习训练代理变得像换 API 地址一样简单，对国内 Qwen 用户尤其友好，但需注意国产硬件和 API 适配问题。