LangSmith on AWS 评估深度 AI Agent 实践指南：五种模式与生产监控

一句话看懂

LangSmith on AWS 提供了一套评估深度 AI Agent 的框架，包含五种模式、离线测试与生产监控，帮你捕获多步骤 Agent 的级联错误。

详细发生了什么

AWS 与 LangChain 联合发布了一篇实践指南，教你如何用 LangSmith 评估深度 AI Agent。文章以文本转 SQL Agent 为例，使用 Amazon Bedrock 上的 Nova 2 Lite 模型（支持 1M token context window、function calling），覆盖从开发到生产的完整生命周期。

核心挑战在于 Agent 的非确定性、错误传播和创造性解法。评估分为三类：轨迹（工具调用序列）、最终响应、其他状态（如中间文件）。五种评估模式包括：代码型 grader（快速、客观）、模型型 grader（LLM-as-judge，灵活但需校准）、人工 grader（黄金标准，用于校准）。LangSmith 的 Align Evaluator 功能可帮助校准 LLM-as-judge 与人类专家反馈。

离线评估用 pytest 和 LangSmith 数据集运行，在线监控则配置生产环境中的实时追踪。文章还区分了能力评估（发现 Agent 擅长什么）和回归评估（确保新版本不退化）。

中文圈视角

对国内开发者而言，这套方法可以直接迁移到类似平台。LangSmith 目前需要访问 AWS 服务，国内用户可能需要使用 AWS 中国区域或寻找替代方案。国产替代如 ModelScope 的 Agent 评估工具、百度千帆的 Agent 评测功能正在追赶，但 LangSmith 的 LLM-as-judge 校准和在线监控集成度更高。

具体场景：如果你在用 LangChain 开发 Agent（如 RAG、自动化办公），这套评估框架能帮你发现工具调用错误、SQL 注入风险（代码型 grader 可检测 DML 语句）。国内用户可关注 LangSmith 是否支持阿里云或华为云部署，或使用开源替代如 LangFuse、Phoenix。

一个盲点：国内 Agent 评测多关注最终答案准确率，忽略了轨迹评估（如工具调用顺序、参数正确性）。本文强调的“错误传播”概念值得中文开发者重视。

几条值得记住的细节

评估术语：Task（单次测试）、Trial（多次尝试）、Grader（评分逻辑）、Transcript（完整追踪）、Outcome（最终状态）。
非确定性用 pass@k（至少一次成功）和 pass^k（全部成功）衡量，前者适合单次成功即可的场景。
代码型 grader 示例：检查 Agent 是否调用了 sql_db_query 工具，用 assert 实现。
LLM-as-judge 需给模型“未知”选项（如“return Unknown if not enough info”），避免幻觉评分。
推荐组合：代码型 grader 优先，LLM 型处理复杂输出，人工定期校准。

一句话总结

评估 Agent 不能只看最终答案，轨迹、工具调用和错误传播才是关键——这套框架帮你系统化解决。