阿里Qwen3.7-Max发布：自主运行35小时优化自研芯片代码，性能对标Claude Opus 4.6

一句话看懂

阿里通义千问发布Qwen3.7-Max，专为长时间自主代理任务设计，曾自主运行35小时优化自研芯片代码，性能对标Claude Opus 4.6并超越国内竞品。

详细发生了什么

5月23日，阿里通义千问团队正式发布Qwen3.7-Max。这是一款闭源模型，专为长时间自主代理（autonomous agent）任务设计。在多项基准测试中，Qwen3.7-Max与Claude Opus 4.6持平，并超越了国内竞争对手DeepSeek V4 Pro和Kimi K2.6。

最引人注目的是，Qwen团队展示了该模型自主运行35小时，优化阿里自研芯片（如平头哥含光系列）的底层代码。模型能自主规划任务、编写代码、测试并迭代，全程无需人工干预。此外，团队还演示了Qwen3.7-Max控制四足机器人完成复杂动作，展示了它在物理世界中的自主决策能力。

Qwen3.7-Max目前通过阿里云API提供，定价尚未公开，但预计会延续Qwen系列的高性价比策略。

中文圈视角

国内用户用得上吗？ Qwen3.7-Max通过阿里云API提供服务，国内用户无需梯子即可直接调用，对开发者非常友好。相比Claude Opus 4.6需要海外信用卡且可能面临访问限制，Qwen3.7-Max在合规性和易用性上占优。

国产替代对比： 在自主代理任务上，Qwen3.7-Max明确超越DeepSeek V4 Pro和Kimi K2.6。DeepSeek V4 Pro擅长代码生成但长任务稳定性不足，Kimi K2.6在长上下文上有优势但自主规划能力较弱。Qwen3.7-Max的35小时自主运行能力在国产模型中独树一帜。

具体场景影响： 对中文开发者而言，Qwen3.7-Max可用于自动化代码优化、芯片设计辅助、长时间运行的DevOps任务等。其四足机器人控制能力也暗示了在工业自动化、巡检等领域的应用潜力。不过，目前模型仅通过API提供，尚未开源，可能限制部分本地部署需求。

盲点： 中文圈讨论多集中在模型性能对比，但忽略了其自主运行35小时对芯片设计的实际价值——这可能是国内半导体行业降本增效的一个潜在工具。

几条值得记住的细节

Qwen3.7-Max在基准测试中与Claude Opus 4.6持平，超越DeepSeek V4 Pro和Kimi K2.6。
模型曾自主运行35小时，优化阿里自研芯片（含光系列）的底层代码。
演示了控制四足机器人完成复杂动作，展示物理世界自主决策能力。
通过阿里云API提供，国内用户无需梯子即可使用。
定价尚未公布，但预计延续Qwen系列高性价比策略。

一句话总结

Qwen3.7-Max让国内开发者无需梯子就能用上对标Claude Opus 4.6的自主代理模型，尤其适合芯片优化和长时间自动化任务。