MoE on Text Matrix

DeepSeek-V3 技术解析：671B 参数开源大模型的工程奇迹

Mon, 27 Apr 2026 20:00:00 +0800

DeepSeek-V3 技术解析：671B 参数开源大模型的工程奇迹

目标读者：具备一定大语言模型基础认知的开发者与研究者 核心问题：DeepSeek-V3 是如何以极低训练成本实现顶级性能的？其核心架构做了哪些关键设计决策？

OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会“深度思考”

Thu, 23 Apr 2026 11:17:00 +0800

OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会"深度思考"

学习目标

理解 Recurrent-Depth Transformer（RDT） 与传统深度 Transformer 的本质区别，以及它为何能让模型在单次前向传播中完成多步推理
掌握 OpenMythos 的 Prelude-Recurrent-Coda 三阶段架构设计，以及循环块的数学更新规则
理解可切换注意力机制 MLA（Multi-Latent Attention）与 GQA（Grouped Query Attention）的设计权衡
理解稀疏 MoE（Mixture of Experts）如何实现参数规模扩展
理解循环模型训练中两大不稳定问题（残差爆炸与Loss spike）背后的动力学根源，以及 Parcae 架构如何通过谱半径约束从构造上保证稳定性
掌握 OpenMythos 的使用方法（安装、配置、预置模型变体、训练），并理解从 1B 到 1T 参数各规模的配置差异

一、为什么需要了解 Claude Mythos？

Claude Mythos 是 Anthropic 最强大模型的核心推理架构，但它从未公开过完整的技术细节。OpenMythos 是开源社区基于公开研究文献，对这一架构的理论重建——不是 Anthropic 官方实现，也不依赖任何内部信息。

MiniMind：从零开始用3块钱训练64M参数的大语言模型

Sun, 12 Apr 2026 12:00:00 +0800

MiniMind：从零开始用3块钱训练64M参数的大语言模型

一、项目概览

MiniMind 是由 jingyaogong 开发的开源大语言模型训练项目，其核心理念是"大道至简"——让每个人都能从零开始，仅用约 3 元钱成本与 2 小时训练时间，即可训练出规模约为 64M 参数的超小型语言模型 MiniMind。