MiniMax M3 发布:1M token 上下文、原生多模态与 Agent 编程能力,开源权重即将开放
MiniMax 于 2026 年 6 月 1 日发布 M3 模型,采用自研 MSA 稀疏注意力架构,支持 1M token 上下文窗口、原生图像/视频输入和桌面操作。在 SWE-Bench Pro 上达到 59.0%,超越 GPT-5.5 和 Gemini 3.1 Pro。模型权重和技术报告将在 10 天内开源。本文详解架构创新、基准测试和中文用户视角。
一句话看懂
MiniMax 发布 M3 模型,采用自研 MSA 稀疏注意力架构,支持 1M token 上下文、原生多模态输入和 Agent 编程能力,SWE-Bench Pro 得分 59.0%,模型权重和技术报告将在 10 天内开源。
详细发生了什么
2026 年 6 月 1 日,MiniMax 正式发布 MiniMax M3,这是继 M2.7 之后 M 系列的最新模型。M3 的核心创新是自研的 MSA(MiniMax Sparse Attention)稀疏注意力架构,旨在解决标准注意力机制随上下文长度二次增长的算力问题。MSA 采用“KV outer gather Q”方法,将 KV cache 分块处理,每块只读取一次,内存访问连续,相比开源实现 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。在 1M token 上下文下,M3 的每 token 计算量仅为上一代 M2 的 1/20,prefill 阶段加速超 9 倍,decoding 阶段加速超 15 倍。
M3 在编码和 Agent 基准测试中表现突出:SWE-Bench Pro 得分 59.0%,超越 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7;Terminal-Bench 2.1 得分 66.0%;OSWorld-Verified(计算机使用)任务完成率达 70.06%。此外,M3 支持原生多模态,从训练第一步起就混合文本、图像和视频数据。MiniMax 还展示了三个内部任务:论文复现(ICLR 2025 最佳论文)、CUDA 内核优化(将 FP8 硬件峰值利用率从 7.6% 提升至 71.3%)、以及自主模型训练(PostTrainBench)。
中文圈视角
MiniMax M3 对中文用户有几点值得关注:
-
开源与可用性:MiniMax 承诺在 10 天内开源模型权重和技术报告,这意味着国内开发者可以直接下载部署,无需依赖海外 API。相比 OpenAI 和 Anthropic 的闭源模型,M3 的开源策略对中文社区更友好,尤其适合需要私有化部署的企业和研究机构。
-
长上下文与中文场景:1M token 上下文窗口对中文长文档处理(如法律合同、学术论文、小说创作)非常实用。目前国内主流模型(如 DeepSeek-V2、Kimi)的上下文窗口多在 128K-200K 左右,M3 的 1M 上下文是显著优势。
-
Agent 编程能力:M3 在 SWE-Bench Pro 上的 59.0% 得分超越了 GPT-5.5,且具备自主执行多轮编程任务的能力。对于中文开发者来说,这意味着可以用 M3 辅助代码审查、Bug 修复、甚至 CUDA 内核优化等复杂任务。不过,MiniMax 的 Agent 能力基于 Claude Code 脚手架,国内用户可能需要适配到国产工具链。
-
多模态与合规:M3 原生支持图像和视频输入,但国内对多模态内容的监管较严,尤其是视频理解可能涉及内容安全审查。MiniMax 作为中国公司,在合规方面可能比海外模型更有优势,但具体落地仍需关注数据出境和内容过滤要求。
-
盲点:中文社区较少讨论 MSA 架构对推理效率的影响。M3 在 1M token 下每 token 计算量仅为 M2 的 1/20,这意味着长上下文推理成本大幅降低,可能催生新的应用场景(如全量代码库分析、长期对话记忆)。
几条值得记住的细节
- 上下文窗口:1M token,MSA 架构下 prefill 加速超 9 倍,decoding 加速超 15 倍。
- 编码基准:SWE-Bench Pro 59.0%,超越 GPT-5.5 和 Gemini 3.1 Pro;Terminal-Bench 2.1 66.0%。
- 计算机使用:OSWorld-Verified 任务完成率 70.06%(Max Steps=200)。
- 多模态训练:从 step 0 开始混合文本、图像、视频训练。
- 开源计划:模型权重和技术报告将在发布后 10 天内开放。
- 内部任务:CUDA 内核优化中,M3 将 FP8 利用率从 7.6% 提升至 71.3%,实现 9.4 倍加速。
一句话总结
MiniMax M3 以开源权重、1M 上下文和顶级编码能力,为中文开发者提供了一个可私有化部署的强大多模态 Agent 模型。