Hexo Labs 开源 SIA:一个同时更新脚手架和模型权重的自我改进 AI 框架
Hexo Labs 发布开源框架 SIA,它在一个循环中同时改进 AI 代理的脚手架和模型权重,在 LawBench、TriMul 和 scRNA-seq 去噪三个任务上超越仅更新脚手架的方法。了解其工作原理、性能数据和中文用户的应用前景。
一句话看懂
Hexo Labs 开源 SIA,一个能同时修改 AI 代理的脚手架和模型权重的自我改进循环,在三个不同任务上均取得显著提升。
详细发生了什么
Hexo Labs 本周以 MIT 许可证开源了 SIA(Self-Improving AI)框架。其核心创新在于:传统 AI 代理在人类停止调优后性能便停滞,而 SIA 允许代理在每次运行后,由反馈智能体决定是修改脚手架(系统提示、工具调度、重试策略等)还是通过 LoRA 更新模型权重。
SIA 由三个 LLM 组件驱动:元智能体根据任务描述编写初始脚手架,任务智能体执行任务并记录每一步,反馈智能体读取完整轨迹后选择动作。基础模型为 openai/gpt-oss-120b,权重更新使用 rank 32 的 LoRA,元智能体和反馈智能体均运行在 Claude Sonnet 4.6 上。
在三个基准测试中,SIA 同时使用脚手架和权重更新(SIA-W+H)均优于仅更新脚手架(SIA-H):
- LawBench(191 类中国刑事罪名分类):准确率从 13.5% 提升至 70.1%(SIA-H 为 50.0%)
- TriMul(AlphaFold2 Evoformer 模块的 CUDA 内核):奖励从 0.105 提升至 1.475(SIA-H 为 0.120),运行时间从 12,483 微秒降至 1,017 微秒
- scRNA-seq 去噪(MAGIC 方法):mse_norm 从 0.048 降至 0.289(SIA-H 为 0.241)
反馈智能体根据奖励信号自动选择训练算法:LawBench 使用 PPO,TriMul 使用熵优势加权,去噪使用 GRPO。
中文圈视角
SIA 的开源对中文 AI 社区有几点值得关注:
-
国产模型能否直接使用? SIA 基于 gpt-oss-120b,这是一个开源模型,理论上可以用国产模型(如 DeepSeek-V3、Qwen2.5)替换。但反馈智能体依赖 Claude Sonnet 4.6,国内用户需通过 API 访问,存在网络和合规问题。国产替代方案如智谱 GLM-4 或 DeepSeek 的 API 可作为备选,但需自行适配。
-
应用场景的本地化潜力:LawBench 本身就是中文法律分类任务,SIA 在此任务上表现优异,说明该框架对中文 NLP 任务有直接价值。法律、金融、医疗等领域的专业任务,可通过 SIA 自动优化代理,减少人工调优成本。
-
与国产框架的对比:国内类似项目如 ModelScope 上的 Agent-FLAN 或阿里 HAD,多聚焦于数据或微调,而 SIA 同时优化脚手架和权重,思路更全面。但 SIA 的反馈智能体依赖外部 API,国产方案若完全本地化部署,可能更适合对数据安全要求高的场景。
-
合规与安全:SIA 的自我改进循环可能产生不可预测的行为,尤其是权重更新部分。国内对 AI 内容安全有严格监管,使用此类框架时需确保反馈智能体不产生违规输出,建议在沙盒环境中测试。
几条值得记住的细节
- SIA 以 MIT 许可证开源,安装命令:
pip install 'sia-agent[claude]',内置 gpqa、lawbench、longcot-chess、spaceship-titanic 四个任务。 - 权重更新使用 LoRA rank 32,训练在 H100 GPU 上通过 Modal 平台运行。
- 在 TriMul 任务中,SIA-W+H 实现了 14.02 倍加速,而仅用脚手架为 1.14 倍,但 Claude Code 单独可达 1.50 倍。
- 反馈智能体可选择的算法包括 PPO、GRPO、REINFORCE、DPO 等,根据奖励形状自动切换。
- 论文警告:同时优化脚手架和权重可能产生耦合的 Goodhart 效应,固定点可能对扰动脆弱。
一句话总结
SIA 开源了一个能同时改进代理代码和模型参数的框架,对中文专业任务自动化调优有直接参考价值,但需注意 API 依赖和合规风险。