AI 快讯 编译自 marktechpost #数据集#AgentTrove#SFT

AgentTrove 教程:用 Python 流式处理 170 万条 Agent 交互轨迹并构建 SFT 数据集

本文介绍如何流式加载 AgentTrove 数据集(170 万条 agent 交互轨迹),无需完整下载即可分析对话结构、提取命令、可视化轨迹分布,并导出为 ShareGPT 格式用于监督微调。适合需要构建 agent 训练数据的中文开发者。

编译发布 2026/05/30 原文发布 2026/05/30

一句话看懂

AgentTrove 发布 170 万条 agent 交互轨迹,本文教你用 Python 流式处理、分析并导出为 SFT 数据集。

详细发生了什么

AgentTrove 是目前最大的开源 agent 交互轨迹数据集,包含 170 万条 ShareGPT 格式的对话记录。每条轨迹包含 user、assistant、system、tool 等多种角色消息,覆盖多种任务来源和教师模型。

教程首先通过 Hugging Face datasets 库以流式模式加载数据集,避免本地完整下载。接着自动检测对话列(conversations 或 messages),并将每条消息标准化为统一的 role-content 格式。

为了分析 agent 的工具调用行为,教程编写了一个命令提取函数,从 assistant 的 JSON 输出中解析 shell 命令。然后构建渲染函数,可视化完整轨迹并标记命令。

教程进一步采样 2000 条轨迹,统计 turn 数量、工具使用次数、字符长度和命令数量,并生成 pandas DataFrame 进行汇总。最后通过 matplotlib 绘制任务来源、教师模型分布、turn 数直方图以及命令数散点图,直观展示数据集特征。

最终,教程展示了如何筛选成功轨迹并导出为干净的 ShareGPT JSONL 格式,用于监督微调(SFT)。

中文圈视角

AgentTrove 对中文开发者有直接价值:

  1. 数据可用性:数据集完全开源,通过 Hugging Face 流式加载,无需梯子即可访问(但下载速度可能受网络影响)。
  2. 平替对比:国内类似数据集较少,如 ModelScope 上的 AgentInstruct 规模较小。AgentTrove 的 170 万条数据量级对训练中文 agent 模型(如基于 Qwen、DeepSeek 的 agent)很有参考价值。
  3. 场景适配:教程中的命令提取和轨迹分析可直接用于中文 agent 场景,例如办公自动化、代码生成等。但需要注意,数据集主要为英文,中文 agent 轨迹需要额外收集。
  4. 合规提示:数据集来自开源社区,但若用于商业微调,需确认数据来源的许可协议(如 CC-BY 等)。

一个中文圈尚未讨论的盲点:AgentTrove 的轨迹中包含大量工具调用,但工具定义和调用格式可能不兼容国内常见的 function calling 规范(如 OpenAI 格式),需要额外转换。

几条值得记住的细节

  • AgentTrove 包含 170 万条轨迹,采用 ShareGPT 格式,列名为 conversations 或 messages。
  • 教程使用 load_dataset(..., streaming=True) 避免下载整个数据集(约数 GB)。
  • 命令提取函数递归搜索 JSON 中的 commands、command、keystrokes 等字段。
  • 采样 2000 条轨迹后,平均 turn 数约 8-12,工具调用比例约 30%。
  • 导出格式为 JSONL,每条包含 id、conversations(role-content 列表)等字段。

一句话总结

如果你在构建 agent 训练数据,AgentTrove 的流式处理教程能帮你快速上手,省去下载和格式转换的麻烦。