DFlash：块扩散加速的 LLM 推测解码技术

Fri, 08 May 2026 03:11:04 +0800

学习目标

读完这篇文章后，你应该能够：

理解传统推测解码（Speculative Decoding）的基本原理及其自回归草案模型的局限性。
解释 DFlash 的块扩散（Block Diffusion）草案模型是如何工作的，以及为什么块级别的扩散比逐 Token 自回归更快。
查看官方支持模型列表，找到对应 Hugging Face 上的 DFlash 适配模型。
在本地环境配置 DFlash 并测试其加速效果。
判断 DFlash 适合哪些硬件配置和使用场景。

一、项目概述

1.1 什么是 DFlash

DFlash（z-lab/dflash，3.4k Stars）全称是 “Block Diffusion for Flash Speculative Decoding”——一种基于块扩散的 Flash 推测解码框架。它由 z-lab 团队提出，核心创新是用轻量级块扩散模型代替传统推测解码中的自回归草案模型（Draft Model），从而实现更高的推理加速比。

推测解码 on Text Matrix

DFlash：块扩散加速的 LLM 推测解码技术

学习目标

一、项目概述

1.1 什么是 DFlash