阶跃星辰发布 Step 3.7 Flash：198B MoE 视觉语言模型，专为编码 Agent 和搜索工作流设计

一句话看懂

阶跃星辰发布 Step 3.7 Flash，一个 198B MoE 视觉语言模型，支持原生视觉输入、256k 上下文和 Advisor 模式，编码性能接近 Claude Opus 4.6 但成本仅为其九分之一。

详细发生了什么

阶跃星辰（StepFun）于 2026 年 5 月 29 日发布 Step 3.7 Flash。这是一个 198B 参数的稀疏 MoE 视觉语言模型，由 196B 语言主干和 1.8B ViT 视觉编码器组成。推理时每 token 仅激活约 11B 参数，支持 256k token 上下文窗口，吞吐量达 400 tokens/s。模型提供低、中、高三种推理深度可选，许可证为 Apache 2.0。

在编码基准上，Step 3.7 Flash 在 SWE-Bench Pro 上得分 56.26%（前代 51.3%），Terminal-Bench 2.1 上 59.55%（前代 53.37%），SWE-MTLG 上 72.42%。其 Advisor 模式（基于 Anthropic 的 advisor 策略）在 SWE-Bench Verified 上达到 Claude Opus 4.6 编码性能的 97%，但每任务成本仅 $0.19（对比 $1.76）。

视觉能力方面，模型支持视觉搜索工具和 Python 工具两种视觉通路。在 SimpleVQA（with Search）上得分 79.16%，与 GPT 5.5（79.11%）相当。在 Android Daily 手机 UI 任务上得分 61.87%，领先 Kimi K2.6（53.36%）和 GLM 5V Turbo（51.68%）。

定价方面，输入（cache miss）$0.20/M tokens，cache hit $0.04/M tokens，输出 $1.15/M tokens。

中文圈视角

Step 3.7 Flash 对中文开发者意味着几个关键点：

国产模型在 Agent 赛道追赶迅速：Step 3.7 Flash 在编码 Agent 基准上的表现已接近国际顶尖模型，且价格极具竞争力。对于国内使用编码 Agent 的团队，这是一个值得尝试的选项，尤其是其 Advisor 模式能以低成本获得接近顶级模型的性能。
视觉与工具使用的原生融合：模型在测试中展现出未显式训练就能组合视觉工具与非视觉工具的能力（如生成前端代码后自动渲染检查），这种涌现能力对构建自动化工作流很有价值。国内用户在做 UI 自动化、视觉问答等场景时，可考虑用 Step 3.7 Flash 替代需要多模型拼接的方案。
合规与可用性：StepFun 是国内公司，模型通过 API 提供服务，无需担心数据出境问题。Apache 2.0 许可证也允许本地部署和商用。不过目前模型主要通过 StepFun 官方 API 调用，国内用户可直接访问，无需特殊网络环境。
与国产竞品对比：在视觉和 Agent 任务上，Step 3.7 Flash 多项指标领先 Kimi K2.6 和 GLM 5V Turbo，但 Gemini 3 Flash 在手机 UI 任务上仍领先。中文圈用户可关注其在中文场景下的实际表现，目前公开基准多为英文。

几条值得记住的细节

模型参数：198B 总参数，推理时仅激活 ~11B，兼顾性能与效率。
Advisor 模式：在 SWE-Bench Verified 上达到 Claude Opus 4.6 编码性能的 97%，成本仅 $0.19/任务（对比 $1.76）。
视觉能力：支持视觉搜索和 Python 工具两种视觉通路，在 SimpleVQA 上得分 79.16%，与 GPT 5.5 持平。
上下文窗口：256k tokens，支持长文档和复杂任务。
定价：输入 $0.20/M tokens（cache miss），输出 $1.15/M tokens，cache hit 仅 $0.04/M tokens。

一句话总结

Step 3.7 Flash 是国产模型在编码 Agent 和视觉任务上的重要突破，以低成本提供了接近顶尖模型的性能，值得中文开发者重点关注。