<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>推理加速 on Text Matrix</title><link>https://txtmix.com/tags/%E6%8E%A8%E7%90%86%E5%8A%A0%E9%80%9F/</link><description>Recent content in 推理加速 on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/%E6%8E%A8%E7%90%86%E5%8A%A0%E9%80%9F/index.xml" rel="self" type="application/rss+xml"/><item><title>DFlash：块扩散加速的 LLM 推测解码技术</title><link>https://txtmix.com/posts/tech/dflash-block-diffusion-speculative-decoding-guide/</link><pubDate>Fri, 08 May 2026 03:11:04 +0800</pubDate><guid>https://txtmix.com/posts/tech/dflash-block-diffusion-speculative-decoding-guide/</guid><description>&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;p>读完这篇文章后，你应该能够：&lt;/p>
&lt;ol>
&lt;li>理解传统推测解码（Speculative Decoding）的基本原理及其自回归草案模型的局限性。&lt;/li>
&lt;li>解释 DFlash 的块扩散（Block Diffusion）草案模型是如何工作的，以及为什么块级别的扩散比逐 Token 自回归更快。&lt;/li>
&lt;li>查看官方支持模型列表，找到对应 Hugging Face 上的 DFlash 适配模型。&lt;/li>
&lt;li>在本地环境配置 DFlash 并测试其加速效果。&lt;/li>
&lt;li>判断 DFlash 适合哪些硬件配置和使用场景。&lt;/li>
&lt;/ol>
&lt;hr>
&lt;h2 id="一项目概述">一、项目概述&lt;/h2>
&lt;h3 id="11-什么是-dflash">1.1 什么是 DFlash&lt;/h3>
&lt;p>&lt;strong>DFlash&lt;/strong>（&lt;a href="https://github.com/z-lab/dflash" target="_blank" rel="noopener noreffer ">z-lab/dflash&lt;/a>，3.4k Stars）全称是 &amp;ldquo;Block Diffusion for Flash Speculative Decoding&amp;rdquo;——一种基于块扩散的 Flash 推测解码框架。它由 z-lab 团队提出，核心创新是用&lt;strong>轻量级块扩散模型&lt;/strong>代替传统推测解码中的自回归草案模型（Draft Model），从而实现更高的推理加速比。&lt;/p></description></item><item><title>ONNX Runtime：微软开源的跨平台机器学习推理加速器</title><link>https://txtmix.com/posts/tech/microsoft-onnx-runtime-guide/</link><pubDate>Fri, 24 Apr 2026 12:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/microsoft-onnx-runtime-guide/</guid><description>&lt;h1 id="onnx-runtime微软开源的跨平台机器学习推理加速器">ONNX Runtime：微软开源的跨平台机器学习推理加速器&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>项目地址&lt;/strong>：&lt;a href="https://github.com/microsoft/onnxruntime" target="_blank" rel="noopener noreffer ">github.com/microsoft/onnxruntime&lt;/a>&lt;/p>
&lt;p>&lt;strong>核心理念&lt;/strong>：让 ML 模型在任何平台上都能获得最佳的推理性能。&lt;/p>&lt;/blockquote>
&lt;h2 id="项目概览">项目概览&lt;/h2>
&lt;p>ONNX Runtime 是微软开源的跨平台机器学习推理和训练加速器。它可以将 ONNX（Open Neural Network Exchange）格式的模型部署到各种平台和设备上，通过硬件加速器和图优化提供最佳性能。&lt;/p></description></item><item><title>DFlash：块扩散模型加速LLM推理——让大模型推理速度提升2-3倍</title><link>https://txtmix.com/posts/tech/dflash-block-diffusion-speculative-decoding/</link><pubDate>Fri, 17 Apr 2026 16:35:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/dflash-block-diffusion-speculative-decoding/</guid><description>&lt;h1 id="dflash块扩散模型加速llm推理">DFlash：块扩散模型加速LLM推理&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：LLM推理优化工程师、ML平台架构师、MLOps实践者
&lt;strong>前置知识&lt;/strong>：深度学习基础、LLM原理、对投机解码有基本了解
&lt;strong>技术栈&lt;/strong>：Python / PyTorch / vLLM / SGLang / Transformers / MLX
&lt;strong>难度定位&lt;/strong>：⭐⭐⭐⭐ 专家设计&lt;/p></description></item></channel></rss>