<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>MoE on Text Matrix</title><link>https://txtmix.com/tags/moe/</link><description>Recent content in MoE on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/moe/index.xml" rel="self" type="application/rss+xml"/><item><title>DeepSeek-V3 技术解析：671B 参数开源大模型的工程奇迹</title><link>https://txtmix.com/posts/tech/deepseek-v3-technical-analysis/</link><pubDate>Mon, 27 Apr 2026 20:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/deepseek-v3-technical-analysis/</guid><description>&lt;h1 id="deepseek-v3-技术解析671b-参数开源大模型的工程奇迹">DeepSeek-V3 技术解析：671B 参数开源大模型的工程奇迹&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：具备一定大语言模型基础认知的开发者与研究者
&lt;strong>核心问题&lt;/strong>：DeepSeek-V3 是如何以极低训练成本实现顶级性能的？其核心架构做了哪些关键设计决策？&lt;/p></description></item><item><title>OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会“深度思考”</title><link>https://txtmix.com/posts/tech/openmythos-claude-mythos-recurred-transformer/</link><pubDate>Thu, 23 Apr 2026 11:17:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/openmythos-claude-mythos-recurred-transformer/</guid><description>&lt;h1 id="openmythos开源复现-claude-mythos-架构looped-transformer-如何让大模型学会深度思考">OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会&amp;quot;深度思考&amp;quot;&lt;/h1>
&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;ul>
&lt;li>理解 &lt;strong>Recurrent-Depth Transformer（RDT）&lt;/strong> 与传统深度 Transformer 的本质区别，以及它为何能让模型在单次前向传播中完成多步推理&lt;/li>
&lt;li>掌握 OpenMythos 的 &lt;strong>Prelude-Recurrent-Coda&lt;/strong> 三阶段架构设计，以及循环块的数学更新规则&lt;/li>
&lt;li>理解可切换注意力机制 &lt;strong>MLA&lt;/strong>（Multi-Latent Attention）与 &lt;strong>GQA&lt;/strong>（Grouped Query Attention）的设计权衡&lt;/li>
&lt;li>理解稀疏 &lt;strong>MoE&lt;/strong>（Mixture of Experts）如何实现参数规模扩展&lt;/li>
&lt;li>理解循环模型训练中两大不稳定问题（残差爆炸与Loss spike）背后的动力学根源，以及 &lt;strong>Parcae 架构&lt;/strong>如何通过谱半径约束从构造上保证稳定性&lt;/li>
&lt;li>掌握 OpenMythos 的使用方法（安装、配置、预置模型变体、训练），并理解从 1B 到 1T 参数各规模的配置差异&lt;/li>
&lt;/ul>
&lt;h2 id="一为什么需要了解-claude-mythos">一、为什么需要了解 Claude Mythos？&lt;/h2>
&lt;p>Claude Mythos 是 Anthropic 最强大模型的核心推理架构，但它从未公开过完整的技术细节。OpenMythos 是开源社区基于公开研究文献，对这一架构的&lt;strong>理论重建&lt;/strong>——不是 Anthropic 官方实现，也不依赖任何内部信息。&lt;/p></description></item><item><title>MiniMind：从零开始用3块钱训练64M参数的大语言模型</title><link>https://txtmix.com/posts/tech/llm/minimind-llm-training-from-scratch/</link><pubDate>Sun, 12 Apr 2026 12:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llm/minimind-llm-training-from-scratch/</guid><description>&lt;h1 id="minimind从零开始用3块钱训练64m参数的大语言模型">MiniMind：从零开始用3块钱训练64M参数的大语言模型&lt;/h1>
&lt;h2 id="一项目概览">一、项目概览&lt;/h2>
&lt;p>&lt;strong>MiniMind&lt;/strong> 是由 jingyaogong 开发的开源大语言模型训练项目，其核心理念是&amp;quot;大道至简&amp;quot;——让每个人都能从零开始，仅用约 3 元钱成本与 2 小时训练时间，即可训练出规模约为 64M 参数的超小型语言模型 MiniMind。&lt;/p></description></item></channel></rss>