<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>DiT on Text Matrix</title><link>https://txtmix.com/tags/dit/</link><description>Recent content in DiT on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:20:36 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/dit/index.xml" rel="self" type="application/rss+xml"/><item><title>SANA：线性扩散Transformer驱动的高分辨率图像生成</title><link>https://txtmix.com/posts/tech/sana-high-resolution-image-synthesis/</link><pubDate>Mon, 18 May 2026 19:56:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/sana-high-resolution-image-synthesis/</guid><description>&lt;h1 id="sana线性扩散transformer驱动的高分辨率图像生成">SANA：线性扩散Transformer驱动的高分辨率图像生成&lt;/h1>
&lt;p>说起高分辨率图像生成，很多人第一时间会想到 FLUX 或者 Stable Diffusion。但这两个模型要么体积庞大（FLUX-12B），要么生成速度感人。NVIDIA 实验室开源的 &lt;strong>SANA&lt;/strong> 给出了一种截然不同的路线——用线性注意力（Linear Attention）替换 Transformer 中的标准注意力机制，配合 32× 压缩率的 DC-AE 自编码器，在仅 1.6B 参数规模下实现 &lt;strong>4K 分辨率、20 倍体积压缩、100 倍速度提升&lt;/strong>。&lt;/p></description></item></channel></rss>