<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>强化学习 on Text Matrix</title><link>https://txtmix.com/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><description>Recent content in 强化学习 on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml"/><item><title>Mathematical Foundations of Reinforcement Learning：强化学习的数学基石——从入门到精通的完整指南</title><link>https://txtmix.com/posts/tech/mathematical-foundations-of-reinforcement-learning-book/</link><pubDate>Fri, 17 Apr 2026 16:05:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/mathematical-foundations-of-reinforcement-learning-book/</guid><description>&lt;h1 id="mathematical-foundations-of-reinforcement-learning强化学习的数学基石">Mathematical Foundations of Reinforcement Learning：强化学习的数学基石&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：计算机科学/人工智能研究生、RL研究者、工程师
&lt;strong>前置知识&lt;/strong>：概率论、线性代数基础
&lt;strong>特色&lt;/strong>：网格世界（Grid World）贯穿全书的统一示例，数学严谨但叙述友好
&lt;strong>难度定位&lt;/strong>：⭐⭐⭐⭐ 专家设计&lt;/p></description></item><item><title>MiniMind：从零开始用3块钱训练64M参数的大语言模型</title><link>https://txtmix.com/posts/tech/llm/minimind-llm-training-from-scratch/</link><pubDate>Sun, 12 Apr 2026 12:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llm/minimind-llm-training-from-scratch/</guid><description>&lt;h1 id="minimind从零开始用3块钱训练64m参数的大语言模型">MiniMind：从零开始用3块钱训练64M参数的大语言模型&lt;/h1>
&lt;h2 id="一项目概览">一、项目概览&lt;/h2>
&lt;p>&lt;strong>MiniMind&lt;/strong> 是由 jingyaogong 开发的开源大语言模型训练项目，其核心理念是&amp;quot;大道至简&amp;quot;——让每个人都能从零开始，仅用约 3 元钱成本与 2 小时训练时间，即可训练出规模约为 64M 参数的超小型语言模型 MiniMind。&lt;/p></description></item><item><title>Agent Lightning：微软 AI 智能体强化学习训练框架完全指南</title><link>https://txtmix.com/posts/tech/ai-agent/agent-lightning-microsoft-ai-agent-training-guide/</link><pubDate>Wed, 01 Apr 2026 01:20:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/ai-agent/agent-lightning-microsoft-ai-agent-training-guide/</guid><description>&lt;h1 id="agent-lightning微软-ai-智能体强化学习训练框架完全指南">Agent Lightning：微软 AI 智能体强化学习训练框架完全指南&lt;/h1>
&lt;blockquote>
&lt;p>预计阅读时间：35分钟 | 难度：⭐⭐⭐⭐&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="2-项目概述">§2 项目概述&lt;/h2>
&lt;h3 id="21-什么是-agent-lightning">2.1 什么是 Agent Lightning？&lt;/h3>
&lt;p>&lt;strong>Agent Lightning&lt;/strong>（&lt;a href="https://github.com/microsoft/agent-lightning" target="_blank" rel="noopener noreffer ">GitHub 仓库&lt;/a>）是微软研究院开发的 AI 智能体训练框架，核心理念是「The absolute trainer to light up AI agents」。&lt;/p></description></item></channel></rss>