阿里千问发布 Qwen3.7-Plus：多模态智能体模型，支持视觉理解、深度推理与自主迭代，已在百炼平台上线

一句话看懂

阿里千问发布 Qwen3.7-Plus，一个能看懂图片和视频、还能自己写代码调工具的智能体模型，已在百炼平台开放 API。

详细发生了什么

6 月 2 日，阿里 Qwen 团队正式发布 Qwen3.7-Plus，这是 Qwen3.7 系列的多模态版本，现可通过阿里云百炼平台（国际用户访问的是 Model Studio）以 API 形式使用。该模型在 5 月发布的 Qwen3.7 基础上，增加了图像和视频理解能力，但注意是理解而非生成——图像视频生成由阿里其他模型家族负责。

Qwen3.7-Plus 被定位为多模态混合智能体技术。除了视觉理解，它还具备五项核心能力：深度推理（逐步解决问题）、自编程（编写和修改自身代码）、工具调用（调用外部函数或 API）、验证与测试（运行输出并检查结果）、自主迭代（循环执行直到任务完成）。这标志着模型从“回答问题”转向“执行任务”。

在基准测试方面，Qwen3.7-Plus-Preview 在 Vision Arena（由 LM Arena 运营的盲评平台）中排名第 16，使阿里成为视觉领域第五大实验室。作为对比，其纯文本兄弟 Qwen3.7-Max 在 Artificial Analysis Intelligence Index 上得分 56.6，是当时排名最高的中国模型。

百炼平台为智能体循环提供了两项配套机制：Agentic RL（强化学习），利用真实执行反馈持续优化模型精度；内置安全护栏，确保自主工具在预设范围内运行——当模型执行命令或编辑文件时，这一点至关重要。

中文圈视角

Qwen3.7-Plus 对国内开发者和企业用户有直接价值。首先，它通过百炼平台提供 API，国内用户无需特殊网络即可使用，且阿里云生态（如函数计算、OSS）可无缝集成。相比 OpenAI 的 GPT-4o 或 Anthropic 的 Claude 3.5 Sonnet，Qwen3.7-Plus 在中文场景的 OCR、图表理解和视频帧分析上可能更有优势，且成本通常更低（具体定价尚未公布，但阿里云一贯走性价比路线）。

其次，智能体能力（自编程+工具调用+自主迭代）让 Qwen3.7-Plus 适合构建自动化工作流，比如自动处理发票识别并写入数据库、监控视频流并触发告警、或根据截图生成测试代码。国内用户常遇到的“数据不出境”需求也能满足，因为模型部署在阿里云国内节点。

不过需要注意：模型是专有且仅通过 API 提供，没有开源权重，这限制了自部署和定制。对于追求私有化的企业，可能需要等待社区平替或使用 ModelScope 上的其他开源多模态模型。此外，Vision Arena 排名虽不错，但实际效果需在自有数据上验证，尤其对于中文文档和复杂表格。

几条值得记住的细节

Qwen3.7-Plus 是 Qwen3.7 系列的多模态版本，纯文本版为 Qwen3.7-Max。
模型支持图像和视频理解，但不具备生成能力；图像/视频生成由阿里其他模型负责。
智能体能力包括：深度推理、自编程、工具调用、验证测试、自主迭代。
预览版在 Vision Arena 排名第 16，阿里成为视觉领域第五大实验室。
百炼平台提供 Agentic RL 和安全护栏，支持长时间运行任务。
目前定价、context window 大小、输出 token 限制等尚未公布。

一句话总结

Qwen3.7-Plus 让国内开发者通过阿里云 API 就能调用一个能看、能想、能动手的多模态智能体，适合自动化处理图像视频相关任务。