<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>MLA on Text Matrix</title><link>https://txtmix.com/tags/mla/</link><description>Recent content in MLA on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/mla/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会“深度思考”</title><link>https://txtmix.com/posts/tech/openmythos-claude-mythos-recurred-transformer/</link><pubDate>Thu, 23 Apr 2026 11:17:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/openmythos-claude-mythos-recurred-transformer/</guid><description>&lt;h1 id="openmythos开源复现-claude-mythos-架构looped-transformer-如何让大模型学会深度思考">OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会&amp;quot;深度思考&amp;quot;&lt;/h1>
&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;ul>
&lt;li>理解 &lt;strong>Recurrent-Depth Transformer（RDT）&lt;/strong> 与传统深度 Transformer 的本质区别，以及它为何能让模型在单次前向传播中完成多步推理&lt;/li>
&lt;li>掌握 OpenMythos 的 &lt;strong>Prelude-Recurrent-Coda&lt;/strong> 三阶段架构设计，以及循环块的数学更新规则&lt;/li>
&lt;li>理解可切换注意力机制 &lt;strong>MLA&lt;/strong>（Multi-Latent Attention）与 &lt;strong>GQA&lt;/strong>（Grouped Query Attention）的设计权衡&lt;/li>
&lt;li>理解稀疏 &lt;strong>MoE&lt;/strong>（Mixture of Experts）如何实现参数规模扩展&lt;/li>
&lt;li>理解循环模型训练中两大不稳定问题（残差爆炸与Loss spike）背后的动力学根源，以及 &lt;strong>Parcae 架构&lt;/strong>如何通过谱半径约束从构造上保证稳定性&lt;/li>
&lt;li>掌握 OpenMythos 的使用方法（安装、配置、预置模型变体、训练），并理解从 1B 到 1T 参数各规模的配置差异&lt;/li>
&lt;/ul>
&lt;h2 id="一为什么需要了解-claude-mythos">一、为什么需要了解 Claude Mythos？&lt;/h2>
&lt;p>Claude Mythos 是 Anthropic 最强大模型的核心推理架构，但它从未公开过完整的技术细节。OpenMythos 是开源社区基于公开研究文献，对这一架构的&lt;strong>理论重建&lt;/strong>——不是 Anthropic 官方实现，也不依赖任何内部信息。&lt;/p></description></item></channel></rss>