AWS 发布多模态评估器：MLLM-as-a-Judge 用于图像到文本任务，支持 Strands Evals SDK

一句话看懂

AWS 发布四个多模态评估器，让大模型自己当裁判，检查图像描述、文档提取等任务是否准确，避免纯文本评估器漏掉图像相关的错误。

详细发生了什么

AWS 在 Strands Evals SDK 中新增四个多模态大语言模型（MLLM）评估器：Overall Quality（整体质量，1-5分）、Correctness（正确性，二分类）、Faithfulness（忠实度，二分类）和 Instruction Following（指令遵循，二分类）。它们专门用于评估图像到文本任务的输出，例如图像描述、视觉问答、图表解读、文档字段提取、OCR 和截图摘要。

传统文本评估器无法验证模型输出是否基于图像，容易漏掉幻觉、事实错误等问题。新评估器将图像直接发送给多模态裁判模型（如 Amazon Bedrock 上的模型），结合查询、响应和可选参考答案，返回基于图像的评分和推理字符串，便于调试。

评估器支持两种模式：基于参考（reference-based，需要标注数据）和无参考（reference-free，仅依赖图像）。它们可无缝替换 Strands Evals 工作流中的文本评估器，并集成到 CI 管线中自动检测视觉幻觉。

中文圈视角

对中文开发者来说，这套工具的价值在于：

国产模型评测场景：如果你在用 Qwen-VL、InternVL 或 DeepSeek-VL 等国产多模态模型做图像理解，可以用这些评估器自动化测试，替代人工标注。但需注意，评估器依赖 Amazon Bedrock 上的裁判模型，国内用户可能需要通过海外 AWS 区域访问，或寻找本地替代方案（如 ModelScope 上的评测工具）。
文档与发票处理：中文场景中，发票识别、合同信息提取、表格转写等任务对准确性要求极高。文本评估器无法判断提取的金额是否与图片一致，而多模态评估器能直接比对图像，减少人工复核成本。
合规与安全：中文内容审核场景中，多模态评估器可检测模型是否生成了图像中不存在的敏感元素（如虚构的违规内容），但需注意裁判模型本身的数据出境问题——如果使用 AWS 海外服务，图像数据可能离开中国境内，需评估合规风险。
盲点：目前中文社区讨论多模态评测时，多集中在学术基准（如 MMBench），缺乏工程化的自动评测工具。AWS 这套方案填补了空白，但国内云厂商（如阿里云、百度云）尚未推出类似 SDK，这可能是一个值得关注的差距。

几条值得记住的细节

四个评估器分别针对整体质量、正确性、忠实度和指令遵循，每个都支持参考和无参考模式。
评估器通过 Strands Evals SDK 集成，需要 Python 3.10+ 和 AWS 账户（Bedrock 权限）。
裁判模型可选 Amazon Bedrock 上的多模态模型，用户可根据成本、延迟和准确率平衡选择。
评估器返回评分和推理字符串，便于调试具体失败原因。
Gartner 预测到 2030 年 80% 的企业软件将支持多模态，自动化评测需求将激增。

一句话总结

如果你在用多模态模型处理图像理解任务，这套评估器能帮你自动发现幻觉和事实错误，省去大量人工审核时间。