MiniMax M3 发布：1M token 上下文、原生多模态与 Agent 编程能力，开源权重即将开放

一句话看懂

MiniMax 发布 M3 模型，采用自研 MSA 稀疏注意力架构，支持 1M token 上下文、原生多模态输入和 Agent 编程能力，SWE-Bench Pro 得分 59.0%，模型权重和技术报告将在 10 天内开源。

详细发生了什么

2026 年 6 月 1 日，MiniMax 正式发布 MiniMax M3，这是继 M2.7 之后 M 系列的最新模型。M3 的核心创新是自研的 MSA（MiniMax Sparse Attention）稀疏注意力架构，旨在解决标准注意力机制随上下文长度二次增长的算力问题。MSA 采用“KV outer gather Q”方法，将 KV cache 分块处理，每块只读取一次，内存访问连续，相比开源实现 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。在 1M token 上下文下，M3 的每 token 计算量仅为上一代 M2 的 1/20，prefill 阶段加速超 9 倍，decoding 阶段加速超 15 倍。

M3 在编码和 Agent 基准测试中表现突出：SWE-Bench Pro 得分 59.0%，超越 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；Terminal-Bench 2.1 得分 66.0%；OSWorld-Verified（计算机使用）任务完成率达 70.06%。此外，M3 支持原生多模态，从训练第一步起就混合文本、图像和视频数据。MiniMax 还展示了三个内部任务：论文复现（ICLR 2025 最佳论文）、CUDA 内核优化（将 FP8 硬件峰值利用率从 7.6% 提升至 71.3%）、以及自主模型训练（PostTrainBench）。

中文圈视角

MiniMax M3 对中文用户有几点值得关注：

开源与可用性：MiniMax 承诺在 10 天内开源模型权重和技术报告，这意味着国内开发者可以直接下载部署，无需依赖海外 API。相比 OpenAI 和 Anthropic 的闭源模型，M3 的开源策略对中文社区更友好，尤其适合需要私有化部署的企业和研究机构。
长上下文与中文场景：1M token 上下文窗口对中文长文档处理（如法律合同、学术论文、小说创作）非常实用。目前国内主流模型（如 DeepSeek-V2、Kimi）的上下文窗口多在 128K-200K 左右，M3 的 1M 上下文是显著优势。
Agent 编程能力：M3 在 SWE-Bench Pro 上的 59.0% 得分超越了 GPT-5.5，且具备自主执行多轮编程任务的能力。对于中文开发者来说，这意味着可以用 M3 辅助代码审查、Bug 修复、甚至 CUDA 内核优化等复杂任务。不过，MiniMax 的 Agent 能力基于 Claude Code 脚手架，国内用户可能需要适配到国产工具链。
多模态与合规：M3 原生支持图像和视频输入，但国内对多模态内容的监管较严，尤其是视频理解可能涉及内容安全审查。MiniMax 作为中国公司，在合规方面可能比海外模型更有优势，但具体落地仍需关注数据出境和内容过滤要求。
盲点：中文社区较少讨论 MSA 架构对推理效率的影响。M3 在 1M token 下每 token 计算量仅为 M2 的 1/20，这意味着长上下文推理成本大幅降低，可能催生新的应用场景（如全量代码库分析、长期对话记忆）。

几条值得记住的细节

上下文窗口：1M token，MSA 架构下 prefill 加速超 9 倍，decoding 加速超 15 倍。
编码基准：SWE-Bench Pro 59.0%，超越 GPT-5.5 和 Gemini 3.1 Pro；Terminal-Bench 2.1 66.0%。
计算机使用：OSWorld-Verified 任务完成率 70.06%（Max Steps=200）。
多模态训练：从 step 0 开始混合文本、图像、视频训练。
开源计划：模型权重和技术报告将在发布后 10 天内开放。
内部任务：CUDA 内核优化中，M3 将 FP8 利用率从 7.6% 提升至 71.3%，实现 9.4 倍加速。

一句话总结

MiniMax M3 以开源权重、1M 上下文和顶级编码能力，为中文开发者提供了一个可私有化部署的强大多模态 Agent 模型。