PyTorch on Text Matrix

LLMs-from-Scratch：从零构建 GPT -like LLM 的权威指南

Thu, 14 May 2026 12:46:00 +0800

项目概览

LLMs-from-scratch 是知名 AI 研究者和教育者 Sebastian Raschka 的新作《Build a Large Language Model (From Scratch)》的官方配套代码仓库。与市面上大多数 LLM 科普或 API 使用教程不同，这本书（及其配套代码）的核心目标是从零开始手写一个 GPT-like 大语言模型，让读者真正理解 LLM 内部每一层的工作原理，而非仅仅是调用别人的 API。

LLMs-from-Scratch：用 PyTorch 从零实现 ChatGPT 级大模型

Wed, 13 May 2026 20:15:00 +0800

LLMs-from-Scratch：用 PyTorch 从零实现 ChatGPT 级大模型

很多人学习大语言模型（Large Language Model，LLM）时，会直接调用 transformers、Hugging Face 等现成库快速出结果。这种方式效率很高，但容易陷入"知其然不知其所以然"的困境——模型的内部机制、权重从何而来、注意力如何计算，很多人不甚了解。

ONNX Runtime：微软开源的跨平台机器学习推理加速器

Fri, 24 Apr 2026 12:00:00 +0800

ONNX Runtime：微软开源的跨平台机器学习推理加速器

项目地址：github.com/microsoft/onnxruntime

核心理念：让 ML 模型在任何平台上都能获得最佳的推理性能。

项目概览

ONNX Runtime 是微软开源的跨平台机器学习推理和训练加速器。它可以将 ONNX（Open Neural Network Exchange）格式的模型部署到各种平台和设备上，通过硬件加速器和图优化提供最佳性能。

OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会“深度思考”

Thu, 23 Apr 2026 11:17:00 +0800

OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会"深度思考"

学习目标

理解 Recurrent-Depth Transformer（RDT） 与传统深度 Transformer 的本质区别，以及它为何能让模型在单次前向传播中完成多步推理
掌握 OpenMythos 的 Prelude-Recurrent-Coda 三阶段架构设计，以及循环块的数学更新规则
理解可切换注意力机制 MLA（Multi-Latent Attention）与 GQA（Grouped Query Attention）的设计权衡
理解稀疏 MoE（Mixture of Experts）如何实现参数规模扩展
理解循环模型训练中两大不稳定问题（残差爆炸与Loss spike）背后的动力学根源，以及 Parcae 架构如何通过谱半径约束从构造上保证稳定性
掌握 OpenMythos 的使用方法（安装、配置、预置模型变体、训练），并理解从 1B 到 1T 参数各规模的配置差异

一、为什么需要了解 Claude Mythos？

Claude Mythos 是 Anthropic 最强大模型的核心推理架构，但它从未公开过完整的技术细节。OpenMythos 是开源社区基于公开研究文献，对这一架构的理论重建——不是 Anthropic 官方实现，也不依赖任何内部信息。

MiniMind：从零开始用3块钱训练64M参数的大语言模型

Sun, 12 Apr 2026 12:00:00 +0800

MiniMind：从零开始用3块钱训练64M参数的大语言模型

一、项目概览

MiniMind 是由 jingyaogong 开发的开源大语言模型训练项目，其核心理念是"大道至简"——让每个人都能从零开始，仅用约 3 元钱成本与 2 小时训练时间，即可训练出规模约为 64M 参数的超小型语言模型 MiniMind。

D2L-ZH动手学深度学习：77K Stars·全球500+高校教材·PyTorch/TensorFlow/JAX

Sun, 12 Apr 2026 02:31:39 +0800

D2L-ZH 动手学深度学习：77K Stars·全球500+高校教材·李沐沐神团队·PyTorch/TensorFlow/JAX三大框架

一，项目概述

1.1 D2L-ZH 是什么

D2L-ZH（动手学深度学习）是 D2L.ai 项目的中文翻译版，由 Aston Zhang、Zachary C. Lipton、Mu Li 和 Alexander J. Smola 主编，是一本面向中文读者的深度学习教材。

Hugging Face Transformers：最强大的 NLP 库完全指南

Mon, 06 Apr 2026 22:19:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 Transformers 的项目定位、核心概念和设计理念
掌握 Transformers 的安装、环境配置和依赖管理
学会使用 Pipeline 进行推理
理解 AutoModel 和 AutoTokenizer 的工作机制
掌握模型微调（Fine-tuning）的完整流程
理解多模态模型（文本、音频、图像）的使用方法
学会使用 Trainer API 和自定义训练循环
掌握性能优化和推理加速技巧

1. 项目概述

1.1 是什么

Transformers 是 Hugging Face 开发的最强大的 NLP 库，它提供了预训练模型的 API 和工具，让你可以轻松下载和微调最前沿（SOTA）的预训练模型。

TimesFM：Google Research 时间序列基础模型完全指南

Mon, 06 Apr 2026 21:28:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 TimesFM 的项目定位、技术架构和 1-bit 预测原理
掌握 TimesFM 2.5 的核心升级（200M 参数、16k 上下文、连续分位数预测）
学会使用 PyTorch 和 Flax 两种后端进行时间序列预测
理解 XReg 共变量支持和高频/低频时间序列处理
掌握在 BigQuery 和 Hugging Face 上的部署方法
理解 AGENTS.md 技能入口和 AI Agent 集成

1. 项目概述

1.1 是什么

TimesFM（Time Series Foundation Model）是 Google Research 开发的预训练时间序列基础模型，专门用于时间序列预测任务。

Agent Lightning：微软 AI 智能体强化学习训练框架完全指南

Wed, 01 Apr 2026 01:20:00 +0800

Agent Lightning：微软 AI 智能体强化学习训练框架完全指南

预计阅读时间：35分钟 | 难度：⭐⭐⭐⭐

§2 项目概述

2.1 什么是 Agent Lightning？

Agent Lightning（GitHub 仓库）是微软研究院开发的 AI 智能体训练框架，核心理念是「The absolute trainer to light up AI agents」。

AutoResearch：AI 自主科研智能体完全指南

Tue, 31 Mar 2026 15:05:00 +0800

AutoResearch：AI 自主科研智能体完全指南

目标读者：AI 研究工程师、机器学习研究员、对 AI 自动化实验感兴趣的开发者 前置知识：Python 基础、深度学习训练概念、PyTorch 入门 预计阅读时间：20 分钟 核心价值：让 AI 自主跑实验，你睡觉时它在工作

WorldMonitor 地缘政治监测系统：从入门到精通 AI预测分析平台

Tue, 31 Mar 2026 03:00:00 +0800

WorldMonitor 地缘政治监测系统：从入门到精通

目标读者：地缘政治研究者、国际关系分析师、金融市场从业者、AI 预测领域开发者 前置知识：了解国际关系基础概念、有 Python 数据分析经验 预计学习时间：1-2 小时（入门），4-6 小时（精通）