扩散模型 on Text Matrix

L2P：腾讯优图开源的高效像素空间扩散生成模型

Fri, 22 May 2026 20:15:00 +0800

L2P：腾讯优图开源的高效像素空间扩散生成模型

L2P（Latent-to-Latent-to-Pixel）是腾讯优图实验室的开源文生图研究，2026-05-22创建，22星。提出了"潜在潜在传递"范式，在像素空间做端到端扩散。

SANA：线性扩散Transformer驱动的高分辨率图像生成

Mon, 18 May 2026 19:56:00 +0800

SANA：线性扩散Transformer驱动的高分辨率图像生成

说起高分辨率图像生成，很多人第一时间会想到 FLUX 或者 Stable Diffusion。但这两个模型要么体积庞大（FLUX-12B），要么生成速度感人。NVIDIA 实验室开源的 SANA 给出了一种截然不同的路线——用线性注意力（Linear Attention）替换 Transformer 中的标准注意力机制，配合 32× 压缩率的 DC-AE 自编码器，在仅 1.6B 参数规模下实现 4K 分辨率、20 倍体积压缩、100 倍速度提升。

Sana - NVIDIA高效高分辨率图像合成与视频生成框架

Mon, 18 May 2026 00:00:00 +0000

Sana：NVIDIA高效率高分辨率图像与视频生成框架

Stars: 6,331 | 今日: +447 | Python

GitHub: NVlabs/Sana

一句话评价

Sana 是 NVIDIA MVFX 实验室出品的效率优先型图像/视频生成框架，支持 4K 分辨率、1.6B 参数模型可在 8GB GPU 显存运行，ICLR 2025 Oral / 2026 Oral 双 Oral 论文，并在 diffusers / SGLang / ComfyUI 均有原生集成。

DFlash：块扩散模型加速LLM推理——让大模型推理速度提升2-3倍

Fri, 17 Apr 2026 16:35:00 +0800

DFlash：块扩散模型加速LLM推理

目标读者：LLM推理优化工程师、ML平台架构师、MLOps实践者 前置知识：深度学习基础、LLM原理、对投机解码有基本了解 技术栈：Python / PyTorch / vLLM / SGLang / Transformers / MLX 难度定位：⭐⭐⭐⭐ 专家设计

VoxCPM2：Tokenizer-Free TTS 多语言语音合成指南

Sun, 12 Apr 2026 11:50:00 +0800

VoxCPM2：Tokenizer-Free TTS 多语言语音合成指南 ⭐⭐⭐

目标读者：AI语音开发者、研究人员，对TTS系统有一定了解 核心问题：如何实现高质量、多语言、可控的语音合成？

§1 学习目标

完成本文档后，你将掌握：