OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会“深度思考”

Thu, 23 Apr 2026 11:17:00 +0800

OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会"深度思考"

理解 Recurrent-Depth Transformer（RDT） 与传统深度 Transformer 的本质区别，以及它为何能让模型在单次前向传播中完成多步推理
掌握 OpenMythos 的 Prelude-Recurrent-Coda 三阶段架构设计，以及循环块的数学更新规则
理解可切换注意力机制 MLA（Multi-Latent Attention）与 GQA（Grouped Query Attention）的设计权衡
理解稀疏 MoE（Mixture of Experts）如何实现参数规模扩展
理解循环模型训练中两大不稳定问题（残差爆炸与Loss spike）背后的动力学根源，以及 Parcae 架构如何通过谱半径约束从构造上保证稳定性
掌握 OpenMythos 的使用方法（安装、配置、预置模型变体、训练），并理解从 1B 到 1T 参数各规模的配置差异

Claude Mythos 是 Anthropic 最强大模型的核心推理架构，但它从未公开过完整的技术细节。OpenMythos 是开源社区基于公开研究文献，对这一架构的理论重建——不是 Anthropic 官方实现，也不依赖任何内部信息。