推理加速 on Text Matrix

DFlash：块扩散加速的 LLM 推测解码技术

Fri, 08 May 2026 03:11:04 +0800

学习目标

读完这篇文章后，你应该能够：

理解传统推测解码（Speculative Decoding）的基本原理及其自回归草案模型的局限性。
解释 DFlash 的块扩散（Block Diffusion）草案模型是如何工作的，以及为什么块级别的扩散比逐 Token 自回归更快。
查看官方支持模型列表，找到对应 Hugging Face 上的 DFlash 适配模型。
在本地环境配置 DFlash 并测试其加速效果。
判断 DFlash 适合哪些硬件配置和使用场景。

一、项目概述

1.1 什么是 DFlash

DFlash（z-lab/dflash，3.4k Stars）全称是 “Block Diffusion for Flash Speculative Decoding”——一种基于块扩散的 Flash 推测解码框架。它由 z-lab 团队提出，核心创新是用轻量级块扩散模型代替传统推测解码中的自回归草案模型（Draft Model），从而实现更高的推理加速比。

ONNX Runtime：微软开源的跨平台机器学习推理加速器

Fri, 24 Apr 2026 12:00:00 +0800

ONNX Runtime：微软开源的跨平台机器学习推理加速器

项目地址：github.com/microsoft/onnxruntime

核心理念：让 ML 模型在任何平台上都能获得最佳的推理性能。

项目概览

ONNX Runtime 是微软开源的跨平台机器学习推理和训练加速器。它可以将 ONNX（Open Neural Network Exchange）格式的模型部署到各种平台和设备上，通过硬件加速器和图优化提供最佳性能。

DFlash：块扩散模型加速LLM推理——让大模型推理速度提升2-3倍

Fri, 17 Apr 2026 16:35:00 +0800

DFlash：块扩散模型加速LLM推理

目标读者：LLM推理优化工程师、ML平台架构师、MLOps实践者 前置知识：深度学习基础、LLM原理、对投机解码有基本了解 技术栈：Python / PyTorch / vLLM / SGLang / Transformers / MLX 难度定位：⭐⭐⭐⭐ 专家设计