<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>PyTorch on Text Matrix</title><link>https://txtmix.com/tags/pytorch/</link><description>Recent content in PyTorch on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/pytorch/index.xml" rel="self" type="application/rss+xml"/><item><title>LLMs-from-Scratch：从零构建 GPT -like LLM 的权威指南</title><link>https://txtmix.com/posts/tech/llms-from-scratch-build-gpt-from-ground-up/</link><pubDate>Thu, 14 May 2026 12:46:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llms-from-scratch-build-gpt-from-ground-up/</guid><description>&lt;h2 id="项目概览">项目概览&lt;/h2>
&lt;p>LLMs-from-scratch 是知名 AI 研究者和教育者 Sebastian Raschka 的新作《Build a Large Language Model (From Scratch)》的官方配套代码仓库。与市面上大多数 LLM 科普或 API 使用教程不同，这本书（及其配套代码）的核心目标是&lt;strong>从零开始手写一个 GPT-like 大语言模型&lt;/strong>，让读者真正理解 LLM 内部每一层的工作原理，而非仅仅是调用别人的 API。&lt;/p></description></item><item><title>LLMs-from-Scratch：用 PyTorch 从零实现 ChatGPT 级大模型</title><link>https://txtmix.com/posts/tech/llms-from-scratch-pytorch-llm-from-scratch-guide/</link><pubDate>Wed, 13 May 2026 20:15:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llms-from-scratch-pytorch-llm-from-scratch-guide/</guid><description>&lt;h1 id="llms-from-scratch用-pytorch-从零实现-chatgpt-级大模型">LLMs-from-Scratch：用 PyTorch 从零实现 ChatGPT 级大模型&lt;/h1>
&lt;p>很多人学习大语言模型（Large Language Model，LLM）时，会直接调用 &lt;code>transformers&lt;/code>、&lt;code>Hugging Face&lt;/code> 等现成库快速出结果。这种方式效率很高，但容易陷入&amp;quot;知其然不知其所以然&amp;quot;的困境——模型的内部机制、权重从何而来、注意力如何计算，很多人不甚了解。&lt;/p></description></item><item><title>ONNX Runtime：微软开源的跨平台机器学习推理加速器</title><link>https://txtmix.com/posts/tech/microsoft-onnx-runtime-guide/</link><pubDate>Fri, 24 Apr 2026 12:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/microsoft-onnx-runtime-guide/</guid><description>&lt;h1 id="onnx-runtime微软开源的跨平台机器学习推理加速器">ONNX Runtime：微软开源的跨平台机器学习推理加速器&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>项目地址&lt;/strong>：&lt;a href="https://github.com/microsoft/onnxruntime" target="_blank" rel="noopener noreffer ">github.com/microsoft/onnxruntime&lt;/a>&lt;/p>
&lt;p>&lt;strong>核心理念&lt;/strong>：让 ML 模型在任何平台上都能获得最佳的推理性能。&lt;/p>&lt;/blockquote>
&lt;h2 id="项目概览">项目概览&lt;/h2>
&lt;p>ONNX Runtime 是微软开源的跨平台机器学习推理和训练加速器。它可以将 ONNX（Open Neural Network Exchange）格式的模型部署到各种平台和设备上，通过硬件加速器和图优化提供最佳性能。&lt;/p></description></item><item><title>OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会“深度思考”</title><link>https://txtmix.com/posts/tech/openmythos-claude-mythos-recurred-transformer/</link><pubDate>Thu, 23 Apr 2026 11:17:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/openmythos-claude-mythos-recurred-transformer/</guid><description>&lt;h1 id="openmythos开源复现-claude-mythos-架构looped-transformer-如何让大模型学会深度思考">OpenMythos：开源复现 Claude Mythos 架构，Looped Transformer 如何让大模型学会&amp;quot;深度思考&amp;quot;&lt;/h1>
&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;ul>
&lt;li>理解 &lt;strong>Recurrent-Depth Transformer（RDT）&lt;/strong> 与传统深度 Transformer 的本质区别，以及它为何能让模型在单次前向传播中完成多步推理&lt;/li>
&lt;li>掌握 OpenMythos 的 &lt;strong>Prelude-Recurrent-Coda&lt;/strong> 三阶段架构设计，以及循环块的数学更新规则&lt;/li>
&lt;li>理解可切换注意力机制 &lt;strong>MLA&lt;/strong>（Multi-Latent Attention）与 &lt;strong>GQA&lt;/strong>（Grouped Query Attention）的设计权衡&lt;/li>
&lt;li>理解稀疏 &lt;strong>MoE&lt;/strong>（Mixture of Experts）如何实现参数规模扩展&lt;/li>
&lt;li>理解循环模型训练中两大不稳定问题（残差爆炸与Loss spike）背后的动力学根源，以及 &lt;strong>Parcae 架构&lt;/strong>如何通过谱半径约束从构造上保证稳定性&lt;/li>
&lt;li>掌握 OpenMythos 的使用方法（安装、配置、预置模型变体、训练），并理解从 1B 到 1T 参数各规模的配置差异&lt;/li>
&lt;/ul>
&lt;h2 id="一为什么需要了解-claude-mythos">一、为什么需要了解 Claude Mythos？&lt;/h2>
&lt;p>Claude Mythos 是 Anthropic 最强大模型的核心推理架构，但它从未公开过完整的技术细节。OpenMythos 是开源社区基于公开研究文献，对这一架构的&lt;strong>理论重建&lt;/strong>——不是 Anthropic 官方实现，也不依赖任何内部信息。&lt;/p></description></item><item><title>MiniMind：从零开始用3块钱训练64M参数的大语言模型</title><link>https://txtmix.com/posts/tech/llm/minimind-llm-training-from-scratch/</link><pubDate>Sun, 12 Apr 2026 12:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llm/minimind-llm-training-from-scratch/</guid><description>&lt;h1 id="minimind从零开始用3块钱训练64m参数的大语言模型">MiniMind：从零开始用3块钱训练64M参数的大语言模型&lt;/h1>
&lt;h2 id="一项目概览">一、项目概览&lt;/h2>
&lt;p>&lt;strong>MiniMind&lt;/strong> 是由 jingyaogong 开发的开源大语言模型训练项目，其核心理念是&amp;quot;大道至简&amp;quot;——让每个人都能从零开始，仅用约 3 元钱成本与 2 小时训练时间，即可训练出规模约为 64M 参数的超小型语言模型 MiniMind。&lt;/p></description></item><item><title>D2L-ZH动手学深度学习：77K Stars·全球500+高校教材·PyTorch/TensorFlow/JAX</title><link>https://txtmix.com/posts/tech/d2l-zh-dive-into-deep-learning-guide/</link><pubDate>Sun, 12 Apr 2026 02:31:39 +0800</pubDate><guid>https://txtmix.com/posts/tech/d2l-zh-dive-into-deep-learning-guide/</guid><description>&lt;h1 id="d2l-zh-动手学深度学习77k-stars全球500高校教材李沐沐神团队pytorchtensorflowjax三大框架">D2L-ZH 动手学深度学习：77K Stars·全球500+高校教材·李沐沐神团队·PyTorch/TensorFlow/JAX三大框架&lt;/h1>
&lt;h2 id="一项目概述">一，项目概述&lt;/h2>
&lt;h3 id="11-d2l-zh-是什么">1.1 D2L-ZH 是什么&lt;/h3>
&lt;p>&lt;strong>D2L-ZH（动手学深度学习）&lt;strong>是 &lt;strong>D2L.ai&lt;/strong> 项目的&lt;/strong>中文翻译版&lt;/strong>，由 &lt;strong>Aston Zhang&lt;/strong>、&lt;strong>Zachary C. Lipton&lt;/strong>、&lt;strong>Mu Li&lt;/strong> 和 &lt;strong>Alexander J. Smola&lt;/strong> 主编，是一本面向中文读者的&lt;strong>深度学习教材&lt;/strong>。&lt;/p></description></item><item><title>Hugging Face Transformers：最强大的 NLP 库完全指南</title><link>https://txtmix.com/posts/tech/transformers-huggingface-nlp-guide/</link><pubDate>Mon, 06 Apr 2026 22:19:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/transformers-huggingface-nlp-guide/</guid><description>&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;p>通过本文，你将全面掌握以下核心能力：&lt;/p>
&lt;ul>
&lt;li>深入理解 Transformers 的项目定位、核心概念和设计理念&lt;/li>
&lt;li>掌握 Transformers 的安装、环境配置和依赖管理&lt;/li>
&lt;li>学会使用 Pipeline 进行推理&lt;/li>
&lt;li>理解 AutoModel 和 AutoTokenizer 的工作机制&lt;/li>
&lt;li>掌握模型微调（Fine-tuning）的完整流程&lt;/li>
&lt;li>理解多模态模型（文本、音频、图像）的使用方法&lt;/li>
&lt;li>学会使用 Trainer API 和自定义训练循环&lt;/li>
&lt;li>掌握性能优化和推理加速技巧&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="1-项目概述">1. 项目概述&lt;/h2>
&lt;h3 id="11-是什么">1.1 是什么&lt;/h3>
&lt;p>&lt;strong>Transformers&lt;/strong> 是 Hugging Face 开发的&lt;strong>最强大的 NLP 库&lt;/strong>，它提供了预训练模型的 API 和工具，让你可以轻松下载和微调最前沿（SOTA）的预训练模型。&lt;/p></description></item><item><title>TimesFM：Google Research 时间序列基础模型完全指南</title><link>https://txtmix.com/posts/tech/timesfm-google-time-series-foundation-model-guide/</link><pubDate>Mon, 06 Apr 2026 21:28:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/timesfm-google-time-series-foundation-model-guide/</guid><description>&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;p>通过本文，你将全面掌握以下核心能力：&lt;/p>
&lt;ul>
&lt;li>深入理解 TimesFM 的项目定位、技术架构和 1-bit 预测原理&lt;/li>
&lt;li>掌握 TimesFM 2.5 的核心升级（200M 参数、16k 上下文、连续分位数预测）&lt;/li>
&lt;li>学会使用 PyTorch 和 Flax 两种后端进行时间序列预测&lt;/li>
&lt;li>理解 XReg 共变量支持和高频/低频时间序列处理&lt;/li>
&lt;li>掌握在 BigQuery 和 Hugging Face 上的部署方法&lt;/li>
&lt;li>理解 AGENTS.md 技能入口和 AI Agent 集成&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="1-项目概述">1. 项目概述&lt;/h2>
&lt;h3 id="11-是什么">1.1 是什么&lt;/h3>
&lt;p>TimesFM（Time Series Foundation Model）是 Google Research 开发的&lt;strong>预训练时间序列基础模型&lt;/strong>，专门用于时间序列预测任务。&lt;/p></description></item><item><title>Agent Lightning：微软 AI 智能体强化学习训练框架完全指南</title><link>https://txtmix.com/posts/tech/ai-agent/agent-lightning-microsoft-ai-agent-training-guide/</link><pubDate>Wed, 01 Apr 2026 01:20:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/ai-agent/agent-lightning-microsoft-ai-agent-training-guide/</guid><description>&lt;h1 id="agent-lightning微软-ai-智能体强化学习训练框架完全指南">Agent Lightning：微软 AI 智能体强化学习训练框架完全指南&lt;/h1>
&lt;blockquote>
&lt;p>预计阅读时间：35分钟 | 难度：⭐⭐⭐⭐&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="2-项目概述">§2 项目概述&lt;/h2>
&lt;h3 id="21-什么是-agent-lightning">2.1 什么是 Agent Lightning？&lt;/h3>
&lt;p>&lt;strong>Agent Lightning&lt;/strong>（&lt;a href="https://github.com/microsoft/agent-lightning" target="_blank" rel="noopener noreffer ">GitHub 仓库&lt;/a>）是微软研究院开发的 AI 智能体训练框架，核心理念是「The absolute trainer to light up AI agents」。&lt;/p></description></item><item><title>AutoResearch：AI 自主科研智能体完全指南</title><link>https://txtmix.com/posts/tech/ai-agent/autoresearch-ai-autonomous-research-guide/</link><pubDate>Tue, 31 Mar 2026 15:05:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/ai-agent/autoresearch-ai-autonomous-research-guide/</guid><description>&lt;h1 id="autoresearchai-自主科研智能体完全指南">AutoResearch：AI 自主科研智能体完全指南&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：AI 研究工程师、机器学习研究员、对 AI 自动化实验感兴趣的开发者
&lt;strong>前置知识&lt;/strong>：Python 基础、深度学习训练概念、PyTorch 入门
&lt;strong>预计阅读时间&lt;/strong>：20 分钟
&lt;strong>核心价值&lt;/strong>：让 AI 自主跑实验，你睡觉时它在工作&lt;/p></description></item><item><title>WorldMonitor 地缘政治监测系统：从入门到精通 AI预测分析平台</title><link>https://txtmix.com/posts/tech/worldmonitor-geopolitical-monitoring-system-guide/</link><pubDate>Tue, 31 Mar 2026 03:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/worldmonitor-geopolitical-monitoring-system-guide/</guid><description>&lt;h1 id="worldmonitor-地缘政治监测系统从入门到精通">WorldMonitor 地缘政治监测系统：从入门到精通&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：地缘政治研究者、国际关系分析师、金融市场从业者、AI 预测领域开发者
&lt;strong>前置知识&lt;/strong>：了解国际关系基础概念、有 Python 数据分析经验
&lt;strong>预计学习时间&lt;/strong>：1-2 小时（入门），4-6 小时（精通）&lt;/p></description></item></channel></rss>