AI 快讯 编译自 the_decoder #模型发布#自主代理#芯片优化

阿里Qwen3.7-Max发布:自主运行35小时优化自研芯片代码,性能对标Claude Opus 4.6

阿里通义千问团队发布Qwen3.7-Max,专为长时间自主代理任务设计,在基准测试中与Claude Opus 4.6持平,超越DeepSeek V4 Pro和Kimi K2.6。模型曾自主运行35小时优化自研芯片代码,并演示控制四足机器人。本文详解模型能力、中文用户实际可用性及国产替代对比。

编译发布 2026/05/24 原文发布 2026/05/23

一句话看懂

阿里通义千问发布Qwen3.7-Max,专为长时间自主代理任务设计,曾自主运行35小时优化自研芯片代码,性能对标Claude Opus 4.6并超越国内竞品。

详细发生了什么

5月23日,阿里通义千问团队正式发布Qwen3.7-Max。这是一款闭源模型,专为长时间自主代理(autonomous agent)任务设计。在多项基准测试中,Qwen3.7-Max与Claude Opus 4.6持平,并超越了国内竞争对手DeepSeek V4 Pro和Kimi K2.6。

最引人注目的是,Qwen团队展示了该模型自主运行35小时,优化阿里自研芯片(如平头哥含光系列)的底层代码。模型能自主规划任务、编写代码、测试并迭代,全程无需人工干预。此外,团队还演示了Qwen3.7-Max控制四足机器人完成复杂动作,展示了它在物理世界中的自主决策能力。

Qwen3.7-Max目前通过阿里云API提供,定价尚未公开,但预计会延续Qwen系列的高性价比策略。

中文圈视角

国内用户用得上吗? Qwen3.7-Max通过阿里云API提供服务,国内用户无需梯子即可直接调用,对开发者非常友好。相比Claude Opus 4.6需要海外信用卡且可能面临访问限制,Qwen3.7-Max在合规性和易用性上占优。

国产替代对比: 在自主代理任务上,Qwen3.7-Max明确超越DeepSeek V4 Pro和Kimi K2.6。DeepSeek V4 Pro擅长代码生成但长任务稳定性不足,Kimi K2.6在长上下文上有优势但自主规划能力较弱。Qwen3.7-Max的35小时自主运行能力在国产模型中独树一帜。

具体场景影响: 对中文开发者而言,Qwen3.7-Max可用于自动化代码优化、芯片设计辅助、长时间运行的DevOps任务等。其四足机器人控制能力也暗示了在工业自动化、巡检等领域的应用潜力。不过,目前模型仅通过API提供,尚未开源,可能限制部分本地部署需求。

盲点: 中文圈讨论多集中在模型性能对比,但忽略了其自主运行35小时对芯片设计的实际价值——这可能是国内半导体行业降本增效的一个潜在工具。

几条值得记住的细节

  • Qwen3.7-Max在基准测试中与Claude Opus 4.6持平,超越DeepSeek V4 Pro和Kimi K2.6。
  • 模型曾自主运行35小时,优化阿里自研芯片(含光系列)的底层代码。
  • 演示了控制四足机器人完成复杂动作,展示物理世界自主决策能力。
  • 通过阿里云API提供,国内用户无需梯子即可使用。
  • 定价尚未公布,但预计延续Qwen系列高性价比策略。

一句话总结

Qwen3.7-Max让国内开发者无需梯子就能用上对标Claude Opus 4.6的自主代理模型,尤其适合芯片优化和长时间自动化任务。