<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>VLLM on Text Matrix</title><link>https://txtmix.com/tags/vllm/</link><description>Recent content in VLLM on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/vllm/index.xml" rel="self" type="application/rss+xml"/><item><title>MinivLLM：从零理解vLLM推理引擎的完整指南</title><link>https://txtmix.com/posts/tech/minivllm-vllm-from-scratch/</link><pubDate>Tue, 12 May 2026 10:50:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/minivllm-vllm-from-scratch/</guid><description>&lt;h1 id="minivllm从零理解-vllm-推理引擎的完整指南">MinivLLM：从零理解 vLLM 推理引擎的完整指南&lt;/h1>
&lt;p>如果想理解 vLLM 背后的工程原理，却没有数万平方米的代码库让你望而生畏，MinivLLM 或许是一个合适的起点。这个仓库基于 Nano-vLLM，从头实现了一个最小化的 vLLM 推理引擎，将完整的技术路径拆解为六个步骤——从最基础的神经网络层，到最终的调度器和 Engine 顶层 API，每一步都有对应的代码和中文学习指南。&lt;/p></description></item><item><title>RTX 3090 本地运行 LLM 实战：vLLM 与 llama.cpp 双引擎对比</title><link>https://txtmix.com/posts/tech/club-3090-rtx-3090-llm-local-serving-guide/</link><pubDate>Wed, 29 Apr 2026 20:35:22 +0800</pubDate><guid>https://txtmix.com/posts/tech/club-3090-rtx-3090-llm-local-serving-guide/</guid><description>&lt;h1 id="rtx-3090-本地运行-llm-实战vllm-与-llamacpp-双引擎对比">RTX 3090 本地运行 LLM 实战：vLLM 与 llama.cpp 双引擎对比&lt;/h1>
&lt;h2 id="前言">前言&lt;/h2>
&lt;p>消费级 GPU 跑大语言模型，这事在 2024 年还属于&amp;quot;勉强能跑但体验糟糕&amp;quot;的范畴。到了 2026 年，量化技术、工程优化和推理引擎的共同进步，让这个目标变得真正实用了。&lt;/p></description></item><item><title>DFlash：块扩散模型加速LLM推理——让大模型推理速度提升2-3倍</title><link>https://txtmix.com/posts/tech/dflash-block-diffusion-speculative-decoding/</link><pubDate>Fri, 17 Apr 2026 16:35:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/dflash-block-diffusion-speculative-decoding/</guid><description>&lt;h1 id="dflash块扩散模型加速llm推理">DFlash：块扩散模型加速LLM推理&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：LLM推理优化工程师、ML平台架构师、MLOps实践者
&lt;strong>前置知识&lt;/strong>：深度学习基础、LLM原理、对投机解码有基本了解
&lt;strong>技术栈&lt;/strong>：Python / PyTorch / vLLM / SGLang / Transformers / MLX
&lt;strong>难度定位&lt;/strong>：⭐⭐⭐⭐ 专家设计&lt;/p></description></item><item><title>Pi Mono：统一LLM API的AI Agent全栈工具箱</title><link>https://txtmix.com/posts/tech/pi-mono-ai-agent-toolkit/</link><pubDate>Mon, 06 Apr 2026 11:30:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/pi-mono-ai-agent-toolkit/</guid><description>&lt;h1 id="pi-mono统一llm-api的ai-agent全栈工具箱">Pi Mono：统一LLM API的AI Agent全栈工具箱&lt;/h1>
&lt;h2 id="1-学习目标">§1 学习目标&lt;/h2>
&lt;p>通过本文，您将掌握：&lt;/p>
&lt;ul>
&lt;li>Pi Mono的核心功能与架构设计&lt;/li>
&lt;li>如何使用Pi Mono的编码Agent CLI&lt;/li>
&lt;li>统一LLM API的配置与使用&lt;/li>
&lt;li>TUI与Web UI的部署方法&lt;/li>
&lt;li>Slack机器人与vLLM Pod的集成&lt;/li>
&lt;li>最佳实践与开发扩展指南&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="2-原理分析">§2 原理分析&lt;/h2>
&lt;h3 id="21-什么是pi-mono">2.1 什么是Pi Mono？&lt;/h3>
&lt;p>&lt;strong>Pi Mono&lt;/strong>（GitHub: &lt;a href="https://github.com/badlogic/pi-mono" target="_blank" rel="noopener noreffer ">badlogic/pi-mono&lt;/a>）是一款开源AI Agent工具箱，由知名开发者badlogic创建。该工具箱将多个AI开发组件整合到一个统一的框架中：&lt;/p></description></item><item><title>Pi Monorepo：开源 AI Agent 工具包专家级技术文档</title><link>https://txtmix.com/posts/tech/ai-agent/pi-mono-ai-agent-toolkit/</link><pubDate>Mon, 30 Mar 2026 13:03:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/ai-agent/pi-mono-ai-agent-toolkit/</guid><description>&lt;h1 id="pi-monorepo开源-ai-agent-工具包专家级技术文档">Pi Monorepo：开源 AI Agent 工具包专家级技术文档&lt;/h1>
&lt;blockquote>
&lt;p>预计阅读时间：35分钟 | 难度：⭐⭐⭐⭐&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：想要掌握 Pi Monorepo 的开发者、AI 应用工程师和技术决策者&lt;/p></description></item></channel></rss>