AI 快讯 编译自 aws_ml_blog #模型发布#物体检测#AWS

Amazon Nova 2 Lite 物体检测:用自然语言描述物体,无需训练即可获得精确边界框

AWS 推出 Amazon Nova 2 Lite 物体检测方案,通过自然语言提示即可识别物体并返回 JSON 格式边界框,无需模型训练或 ML 专家。本文详解部署步骤、提示工程技巧及成本估算,并探讨在制造、农业、物流等场景的应用。

编译发布 2026/06/02 原文发布 2026/06/02

一句话看懂

Amazon Nova 2 Lite 通过 Amazon Bedrock 提供无需训练的物体检测能力,用自然语言指定物体即可返回精确边界框坐标,成本低至每张图片约 0.0005 美元。

详细发生了什么

Amazon Nova 2 Lite 是 AWS 推出的多模态基础模型,可通过 Amazon Bedrock 的 Converse API 调用。用户只需用自然语言描述要检测的物体(如“vehicle”“stop sign”),模型就会返回结构化 JSON,包含每个物体的边界框坐标(归一化 0-1000 尺度)。整个过程无需训练数据、无需 ML 专家、无需管理基础设施。

AWS 同时发布了一个完整的无服务器示例应用,使用 CloudFront、API Gateway、Lambda 和 Bedrock 构建,可在 30-45 分钟内部署。提示工程是关键——官方提供了一个模板,包含动态变量 elementsschema,可适应任意物体类别。

成本方面,Bedrock 定价为每千输入 token $0.0003、每千输出 token $0.0025。典型图片约 230 输入 token + 200 输出 token,每张图片成本约 $0.000569,处理 10,000 张图片仅需约 $5.69。

中文圈视角

对国内用户来说,Amazon Nova 2 Lite 目前需要通过 AWS Bedrock 访问,存在网络门槛。但它的核心价值——用自然语言做物体检测,无需训练——对中小企业、个人开发者非常有吸引力。

国内类似方案包括:

  • 百度飞桨 PaddleDetection:需要标注数据、训练模型,门槛较高。
  • 阿里云视觉智能平台:提供预训练模型 API,但通常按次收费,且不支持自定义物体名称。
  • OpenAI GPT-4V:也能做物体检测,但输出格式不固定,且成本更高。

Nova 2 Lite 的优势在于:1)输出结构化 JSON,方便程序处理;2)提示工程灵活,可动态指定物体类别;3)成本极低。但劣势是:1)需要 AWS 账号和海外访问;2)模型能力受限于 Nova 2 Lite 的视觉理解水平。

对中文用户的具体场景:

  • 电商图片审核:检测商品图中的违禁物品(如刀具、香烟)。
  • 文档扫描:检测表格、印章、手写区域。
  • 安防监控:检测人、车、动物等。

需要注意的是,国内使用 AWS Bedrock 可能涉及数据出境合规问题,建议企业用户先咨询法务。

几条值得记住的细节

  • 无需训练:只需自然语言描述物体名称,模型自动检测,零训练成本。
  • 输出格式:归一化坐标(0-1000),需转换为像素坐标。
  • 提示模板:官方提供动态模板,支持任意物体类别,包含 step-by-step 推理要求。
  • 部署方式:支持 Lambda、EC2、ECS/EKS,推荐无服务器架构。
  • 成本极低:10,000 张图片约 $5.69,适合大规模处理。

一句话总结

如果你需要快速、低成本地给图片加物体检测功能,且能接受 AWS 生态,Nova 2 Lite 是目前最省事的方案之一。