<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>FlashAttention on Text Matrix</title><link>https://txtmix.com/tags/flashattention/</link><description>Recent content in FlashAttention on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/flashattention/index.xml" rel="self" type="application/rss+xml"/><item><title>MinivLLM：从零理解vLLM推理引擎的完整指南</title><link>https://txtmix.com/posts/tech/minivllm-vllm-from-scratch/</link><pubDate>Tue, 12 May 2026 10:50:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/minivllm-vllm-from-scratch/</guid><description>&lt;h1 id="minivllm从零理解-vllm-推理引擎的完整指南">MinivLLM：从零理解 vLLM 推理引擎的完整指南&lt;/h1>
&lt;p>如果想理解 vLLM 背后的工程原理，却没有数万平方米的代码库让你望而生畏，MinivLLM 或许是一个合适的起点。这个仓库基于 Nano-vLLM，从头实现了一个最小化的 vLLM 推理引擎，将完整的技术路径拆解为六个步骤——从最基础的神经网络层，到最终的调度器和 Engine 顶层 API，每一步都有对应的代码和中文学习指南。&lt;/p></description></item></channel></rss>