<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>扩散模型 on Text Matrix</title><link>https://txtmix.com/tags/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 扩散模型 on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:20:36 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>L2P：腾讯优图开源的高效像素空间扩散生成模型</title><link>https://txtmix.com/posts/tech/t2i-l2p-tencent-pixel-space-diffusion-generation/</link><pubDate>Fri, 22 May 2026 20:15:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/t2i-l2p-tencent-pixel-space-diffusion-generation/</guid><description>&lt;h1 id="l2p腾讯优图开源的高效像素空间扩散生成模型">L2P：腾讯优图开源的高效像素空间扩散生成模型&lt;/h1>
&lt;p>L2P（Latent-to-Latent-to-Pixel）是腾讯优图实验室的开源文生图研究，2026-05-22创建，22星。提出了&amp;quot;潜在潜在传递&amp;quot;范式，在像素空间做端到端扩散。&lt;/p></description></item><item><title>SANA：线性扩散Transformer驱动的高分辨率图像生成</title><link>https://txtmix.com/posts/tech/sana-high-resolution-image-synthesis/</link><pubDate>Mon, 18 May 2026 19:56:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/sana-high-resolution-image-synthesis/</guid><description>&lt;h1 id="sana线性扩散transformer驱动的高分辨率图像生成">SANA：线性扩散Transformer驱动的高分辨率图像生成&lt;/h1>
&lt;p>说起高分辨率图像生成，很多人第一时间会想到 FLUX 或者 Stable Diffusion。但这两个模型要么体积庞大（FLUX-12B），要么生成速度感人。NVIDIA 实验室开源的 &lt;strong>SANA&lt;/strong> 给出了一种截然不同的路线——用线性注意力（Linear Attention）替换 Transformer 中的标准注意力机制，配合 32× 压缩率的 DC-AE 自编码器，在仅 1.6B 参数规模下实现 &lt;strong>4K 分辨率、20 倍体积压缩、100 倍速度提升&lt;/strong>。&lt;/p></description></item><item><title>Sana - NVIDIA高效高分辨率图像合成与视频生成框架</title><link>https://txtmix.com/posts/tech/nvlab-sana-efficient-image-video-generation/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://txtmix.com/posts/tech/nvlab-sana-efficient-image-video-generation/</guid><description>&lt;h1 id="sananvidia高效率高分辨率图像与视频生成框架">Sana：NVIDIA高效率高分辨率图像与视频生成框架&lt;/h1>
&lt;p>&lt;strong>Stars: 6,331&lt;/strong> | &lt;strong>今日: +447&lt;/strong> | &lt;strong>Python&lt;/strong>&lt;/p>
&lt;p>GitHub: &lt;a href="https://github.com/NVlabs/Sana" target="_blank" rel="noopener noreffer ">NVlabs/Sana&lt;/a>&lt;/p>
&lt;h2 id="一句话评价">一句话评价&lt;/h2>
&lt;p>Sana 是 NVIDIA MVFX 实验室出品的效率优先型图像/视频生成框架，支持 4K 分辨率、1.6B 参数模型可在 8GB GPU 显存运行，ICLR 2025 Oral / 2026 Oral 双 Oral 论文，并在 diffusers / SGLang / ComfyUI 均有原生集成。&lt;/p></description></item><item><title>DFlash：块扩散模型加速LLM推理——让大模型推理速度提升2-3倍</title><link>https://txtmix.com/posts/tech/dflash-block-diffusion-speculative-decoding/</link><pubDate>Fri, 17 Apr 2026 16:35:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/dflash-block-diffusion-speculative-decoding/</guid><description>&lt;h1 id="dflash块扩散模型加速llm推理">DFlash：块扩散模型加速LLM推理&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：LLM推理优化工程师、ML平台架构师、MLOps实践者
&lt;strong>前置知识&lt;/strong>：深度学习基础、LLM原理、对投机解码有基本了解
&lt;strong>技术栈&lt;/strong>：Python / PyTorch / vLLM / SGLang / Transformers / MLX
&lt;strong>难度定位&lt;/strong>：⭐⭐⭐⭐ 专家设计&lt;/p></description></item><item><title>VoxCPM2：Tokenizer-Free TTS 多语言语音合成指南</title><link>https://txtmix.com/posts/tech/voxcpm2-tokenizer-free-tts-guide/</link><pubDate>Sun, 12 Apr 2026 11:50:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/voxcpm2-tokenizer-free-tts-guide/</guid><description>&lt;h1 id="voxcpm2tokenizer-free-tts-多语言语音合成指南-">VoxCPM2：Tokenizer-Free TTS 多语言语音合成指南 ⭐⭐⭐&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：AI语音开发者、研究人员，对TTS系统有一定了解
&lt;strong>核心问题&lt;/strong>：如何实现高质量、多语言、可控的语音合成？&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="1-学习目标">§1 学习目标&lt;/h2>
&lt;p>完成本文档后，你将掌握：&lt;/p></description></item></channel></rss>