阿里千问发布 Qwen3.7-Plus:多模态智能体模型,支持视觉理解、深度推理与自主迭代,已在百炼平台上线
阿里 Qwen 团队推出 Qwen3.7-Plus,这是 Qwen3.7 系列的多模态版本,支持图像和视频理解,并具备深度推理、自编程、工具调用、验证测试和自主迭代等智能体能力。模型通过阿里云百炼平台(国际版 Model Studio)提供 API 服务。在 Vision Arena 排行榜中,预览版位列第 16,阿里成为视觉领域第五大实验室。本文详解其能力、基准表现及对中文开发者的实际…
一句话看懂
阿里千问发布 Qwen3.7-Plus,一个能看懂图片和视频、还能自己写代码调工具的智能体模型,已在百炼平台开放 API。
详细发生了什么
6 月 2 日,阿里 Qwen 团队正式发布 Qwen3.7-Plus,这是 Qwen3.7 系列的多模态版本,现可通过阿里云百炼平台(国际用户访问的是 Model Studio)以 API 形式使用。该模型在 5 月发布的 Qwen3.7 基础上,增加了图像和视频理解能力,但注意是理解而非生成——图像视频生成由阿里其他模型家族负责。
Qwen3.7-Plus 被定位为多模态混合智能体技术。除了视觉理解,它还具备五项核心能力:深度推理(逐步解决问题)、自编程(编写和修改自身代码)、工具调用(调用外部函数或 API)、验证与测试(运行输出并检查结果)、自主迭代(循环执行直到任务完成)。这标志着模型从“回答问题”转向“执行任务”。
在基准测试方面,Qwen3.7-Plus-Preview 在 Vision Arena(由 LM Arena 运营的盲评平台)中排名第 16,使阿里成为视觉领域第五大实验室。作为对比,其纯文本兄弟 Qwen3.7-Max 在 Artificial Analysis Intelligence Index 上得分 56.6,是当时排名最高的中国模型。
百炼平台为智能体循环提供了两项配套机制:Agentic RL(强化学习),利用真实执行反馈持续优化模型精度;内置安全护栏,确保自主工具在预设范围内运行——当模型执行命令或编辑文件时,这一点至关重要。
中文圈视角
Qwen3.7-Plus 对国内开发者和企业用户有直接价值。首先,它通过百炼平台提供 API,国内用户无需特殊网络即可使用,且阿里云生态(如函数计算、OSS)可无缝集成。相比 OpenAI 的 GPT-4o 或 Anthropic 的 Claude 3.5 Sonnet,Qwen3.7-Plus 在中文场景的 OCR、图表理解和视频帧分析上可能更有优势,且成本通常更低(具体定价尚未公布,但阿里云一贯走性价比路线)。
其次,智能体能力(自编程+工具调用+自主迭代)让 Qwen3.7-Plus 适合构建自动化工作流,比如自动处理发票识别并写入数据库、监控视频流并触发告警、或根据截图生成测试代码。国内用户常遇到的“数据不出境”需求也能满足,因为模型部署在阿里云国内节点。
不过需要注意:模型是专有且仅通过 API 提供,没有开源权重,这限制了自部署和定制。对于追求私有化的企业,可能需要等待社区平替或使用 ModelScope 上的其他开源多模态模型。此外,Vision Arena 排名虽不错,但实际效果需在自有数据上验证,尤其对于中文文档和复杂表格。
几条值得记住的细节
- Qwen3.7-Plus 是 Qwen3.7 系列的多模态版本,纯文本版为 Qwen3.7-Max。
- 模型支持图像和视频理解,但不具备生成能力;图像/视频生成由阿里其他模型负责。
- 智能体能力包括:深度推理、自编程、工具调用、验证测试、自主迭代。
- 预览版在 Vision Arena 排名第 16,阿里成为视觉领域第五大实验室。
- 百炼平台提供 Agentic RL 和安全护栏,支持长时间运行任务。
- 目前定价、context window 大小、输出 token 限制等尚未公布。
一句话总结
Qwen3.7-Plus 让国内开发者通过阿里云 API 就能调用一个能看、能想、能动手的多模态智能体,适合自动化处理图像视频相关任务。