SANA：线性扩散Transformer驱动的高分辨率图像生成

Mon, 18 May 2026 19:56:00 +0800

SANA：线性扩散Transformer驱动的高分辨率图像生成

说起高分辨率图像生成，很多人第一时间会想到 FLUX 或者 Stable Diffusion。但这两个模型要么体积庞大（FLUX-12B），要么生成速度感人。NVIDIA 实验室开源的 SANA 给出了一种截然不同的路线——用线性注意力（Linear Attention）替换 Transformer 中的标准注意力机制，配合 32× 压缩率的 DC-AE 自编码器，在仅 1.6B 参数规模下实现 4K 分辨率、20 倍体积压缩、100 倍速度提升。

DiT on Text Matrix

SANA：线性扩散Transformer驱动的高分辨率图像生成

SANA：线性扩散Transformer驱动的高分辨率图像生成