图像生成 on Text Matrix

SANA：线性扩散Transformer驱动的高分辨率图像生成

Mon, 18 May 2026 19:56:00 +0800

SANA：线性扩散Transformer驱动的高分辨率图像生成

说起高分辨率图像生成，很多人第一时间会想到 FLUX 或者 Stable Diffusion。但这两个模型要么体积庞大（FLUX-12B），要么生成速度感人。NVIDIA 实验室开源的 SANA 给出了一种截然不同的路线——用线性注意力（Linear Attention）替换 Transformer 中的标准注意力机制，配合 32× 压缩率的 DC-AE 自编码器，在仅 1.6B 参数规模下实现 4K 分辨率、20 倍体积压缩、100 倍速度提升。

Sana - NVIDIA高效高分辨率图像合成与视频生成框架

Mon, 18 May 2026 00:00:00 +0000

Sana：NVIDIA高效率高分辨率图像与视频生成框架

Stars: 6,331 | 今日: +447 | Python

GitHub: NVlabs/Sana

一句话评价

Sana 是 NVIDIA MVFX 实验室出品的效率优先型图像/视频生成框架，支持 4K 分辨率、1.6B 参数模型可在 8GB GPU 显存运行，ICLR 2025 Oral / 2026 Oral 双 Oral 论文，并在 diffusers / SGLang / ComfyUI 均有原生集成。

GPT Image 2 提示词完全指南：四大开源库精华合集

Fri, 01 May 2026 13:11:58 +0800

目标读者：已经在用 AI 生图，想把提示词从“能出图”提升到“更稳定、更可复用”的设计师、运营、独立开发者与内容创作者 核心问题：四个热门 GPT Image 2 提示词仓库，到底该先看哪一个？优秀案例真正值得抄的是什么？如何把零散 prompt 提炼成自己的稳定模板？ 数据说明：文中仓库规模、 stars 与仓库结构，均以 2026 年 5 月 2 日可公开访问的 GitHub 页面为准；本文统一使用官方命名 GPT Image 2，不沿用社区里的非官方代称 预计阅读时间：18 - 25 分钟