OpenMythos 教程：用 MLA、GQA、稀疏 MoE 构建循环深度 Transformer，实现循环缩放推理

一句话看懂

OpenMythos 教程演示了如何在 Colab 中构建支持 MLA、GQA 和稀疏 MoE 的循环深度 Transformer，并通过合成任务验证循环次数对推理准确率的影响。

详细发生了什么

MarkTechPost 发布了一篇教程，介绍如何使用 OpenMythos 框架构建循环深度 Transformer。教程在 Google Colab 中端到端运行，首先创建了两种注意力变体：Multi-Latent Attention (MLA，类似 DeepSeek-V2 的压缩 KV 缓存) 和 Grouped-Query Attention (GQA，KV 头数少于 Q 头数)。通过参数计数和循环注入矩阵的谱半径（需小于 1 以保证稳定性）对比两者。

随后，教程设计了一个合成组合推理任务：模型需预测一串数字（长度 2-5）之和模 7 的结果。训练时使用固定循环次数（4 次），推理时测试不同循环次数（1、2、4、6、8）下的准确率，包括分布内和分布外（更长数字链）场景。结果显示，增加推理循环次数能显著提升准确率，尤其是分布外任务，验证了循环深度 Transformer 通过复用参数实现更深计算的能力。

中文圈视角

对国内开发者来说，这个教程有几点值得关注：

MLA 注意力机制：DeepSeek-V2 采用的 MLA 通过低秩压缩减少 KV 缓存，对长上下文推理友好。OpenMythos 提供了可复现的 Colab 实现，方便国内开发者低成本实验，无需高端 GPU。
循环深度架构：与国内流行的 MoE 模型（如 DeepSeek-MoE）不同，循环深度 Transformer 通过循环层实现深度扩展，在推理时灵活调整计算量。这对资源受限场景（如端侧部署）有启发意义。
平替与门槛：教程完全基于 PyTorch 和 Colab，无需特殊硬件，但需访问 GitHub 安装依赖。国内用户可使用 ModelScope 或 Hugging Face 镜像加速。目前国内类似框架较少，OpenMythos 填补了循环深度 Transformer 的空白。
监管合规：教程使用合成数据，不涉及真实用户数据，无数据出境风险。但若用于实际应用，需注意内容安全。

几条值得记住的细节

MLA vs GQA 参数对比：教程中 MLA 模型参数约 1.2M，GQA 约 1.0M，MLA 因 KV 压缩略多但推理时节省显存。
谱半径稳定性：训练前后谱半径均保持在 0.9 左右（小于 1），确保循环注入矩阵稳定。
循环缩放效果：分布内任务中，循环次数从 1 增至 8，准确率从约 0.5 提升至 0.95；分布外任务从 0.3 提升至 0.85。
训练配置：使用 AdamW 优化器，学习率 3e-4，余弦退火调度，6 个 epoch，训练时间约 30 秒（Colab GPU）。
代码可复现：所有代码在 Colab 中运行，依赖 open-mythos 包，支持从 PyPI 或 GitHub 安装。

一句话总结

循环深度 Transformer 通过推理时增加循环次数即可提升推理能力，OpenMythos 让这一架构在 Colab 上轻松复现。