AI 快讯 编译自 aws_ml_blog #模型发布#工具评测#多模态

AWS 发布多模态评估器:MLLM-as-a-Judge 用于图像到文本任务,支持 Strands Evals SDK

AWS 推出四个新的多模态大语言模型(MLLM)评估器,用于 Strands Evals SDK,可自动检测图像到文本任务中的幻觉、事实错误和指令违规。本文介绍评估器功能、使用方法和中文用户的应用场景。

编译发布 2026/05/24 原文发布 2026/05/20

一句话看懂

AWS 发布四个多模态评估器,让大模型自己当裁判,检查图像描述、文档提取等任务是否准确,避免纯文本评估器漏掉图像相关的错误。

详细发生了什么

AWS 在 Strands Evals SDK 中新增四个多模态大语言模型(MLLM)评估器:Overall Quality(整体质量,1-5分)、Correctness(正确性,二分类)、Faithfulness(忠实度,二分类)和 Instruction Following(指令遵循,二分类)。它们专门用于评估图像到文本任务的输出,例如图像描述、视觉问答、图表解读、文档字段提取、OCR 和截图摘要。

传统文本评估器无法验证模型输出是否基于图像,容易漏掉幻觉、事实错误等问题。新评估器将图像直接发送给多模态裁判模型(如 Amazon Bedrock 上的模型),结合查询、响应和可选参考答案,返回基于图像的评分和推理字符串,便于调试。

评估器支持两种模式:基于参考(reference-based,需要标注数据)和无参考(reference-free,仅依赖图像)。它们可无缝替换 Strands Evals 工作流中的文本评估器,并集成到 CI 管线中自动检测视觉幻觉。

中文圈视角

对中文开发者来说,这套工具的价值在于:

  1. 国产模型评测场景:如果你在用 Qwen-VL、InternVL 或 DeepSeek-VL 等国产多模态模型做图像理解,可以用这些评估器自动化测试,替代人工标注。但需注意,评估器依赖 Amazon Bedrock 上的裁判模型,国内用户可能需要通过海外 AWS 区域访问,或寻找本地替代方案(如 ModelScope 上的评测工具)。

  2. 文档与发票处理:中文场景中,发票识别、合同信息提取、表格转写等任务对准确性要求极高。文本评估器无法判断提取的金额是否与图片一致,而多模态评估器能直接比对图像,减少人工复核成本。

  3. 合规与安全:中文内容审核场景中,多模态评估器可检测模型是否生成了图像中不存在的敏感元素(如虚构的违规内容),但需注意裁判模型本身的数据出境问题——如果使用 AWS 海外服务,图像数据可能离开中国境内,需评估合规风险。

  4. 盲点:目前中文社区讨论多模态评测时,多集中在学术基准(如 MMBench),缺乏工程化的自动评测工具。AWS 这套方案填补了空白,但国内云厂商(如阿里云、百度云)尚未推出类似 SDK,这可能是一个值得关注的差距。

几条值得记住的细节

  • 四个评估器分别针对整体质量、正确性、忠实度和指令遵循,每个都支持参考和无参考模式。
  • 评估器通过 Strands Evals SDK 集成,需要 Python 3.10+ 和 AWS 账户(Bedrock 权限)。
  • 裁判模型可选 Amazon Bedrock 上的多模态模型,用户可根据成本、延迟和准确率平衡选择。
  • 评估器返回评分和推理字符串,便于调试具体失败原因。
  • Gartner 预测到 2030 年 80% 的企业软件将支持多模态,自动化评测需求将激增。

一句话总结

如果你在用多模态模型处理图像理解任务,这套评估器能帮你自动发现幻觉和事实错误,省去大量人工审核时间。