Sana - NVIDIA高效高分辨率图像合成与视频生成框架
posts posts 2026-05-18T00:00:00Z图像生成, 视频生成, NVIDIA, 扩散模型, 开源AI目录
Sana:NVIDIA高效率高分辨率图像与视频生成框架
Stars: 6,331 | 今日: +447 | Python
GitHub: NVlabs/Sana
一句话评价
Sana 是 NVIDIA MVFX 实验室出品的效率优先型图像/视频生成框架,支持 4K 分辨率、1.6B 参数模型可在 8GB GPU 显存运行,ICLR 2025 Oral / 2026 Oral 双 Oral 论文,并在 diffusers / SGLang / ComfyUI 均有原生集成。
核心能力
Sana-Image:高效图像生成
- 1.6B 参数,支持最高 4K (4096×4096) 分辨率
- 8GB GPU 显存可跑 4K(通过 4bit 量化 + model offload)
- 20 秒生成 4K 图片(H100)/ 1 分钟内 RTX 4090
- 支持 ControlNet、LoRA 微调
Sana-1.5:推理时缩放(Inference-time Scaling)
ICML 2025 收录,通过推理时计算资源调度提升生成质量,无需额外训练。
Sana-Sprint:单步生成
ICCV 2025 Highlight,0.1 秒生成 1024px 图片(H100),0.3 秒 RTX 4090,接近实时的生成速度。
Sana-Video:视频生成
- 720p 长视频生成(LTX-VAE 压缩)
- 支持文生视频、图生视频
- ICLR 2026 Oral 收录
Sana-WM:世界模型(2026-05 新发布)
- 2.6B 可控世界模型,支持 720p、1分钟视频生成
- 6-DoF 相机控制
- 定位为 Embodied AI 和 World Modeling 新基准
Sol-RL:强化学习后训练
完整的 RL 后训练基础设施,支持 SANA、FLUX.1、SD3.5-L 模型。
技术特色
Linear DiT 架构:替代传统 attention,显著降低计算复杂度,支持无限上下文(用于长视频生成)。
DC-AE 变分自编码器:高效的图像/视频压缩,降低 VAE 重建开销。
多后端支持:原生集成 diffusers、SGLang(OpenAI 兼容 API)、ComfyUI(节点式工作流)。
快速上手
# diffusers 方式
from diffusers import SanaPipeline, SanaPAGPipeline
pipe = SanaPipeline.from_pretrained("Efficient-Large-Model/Sana_1600M_1024px_BF16_diffusers")
image = pipe("a beautiful sunset over the ocean").images[0]
# 4K 生成(8GB 显存可用)
pipe_4k = SanaPipeline.from_pretrained("Efficient-Large-Model/Sana_1600M_4Kpx_BF16_diffusers")
image_4k = pipe_4k("a detailed landscape at 4k resolution").images[0]# SGLang 服务
python -m sglang.launch_server --model-path Efficient-Large-Model/Sana_1600M_1024px_BF16
# OpenAI 兼容 API,curl 调用
curl -X POST http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "a cat"}]}'最新动向(2026-05)
SANA-WM 发布:2.6B 可控世界模型,支持 6-DoF 相机控制和 1 分钟 720p 视频,作为 Embodied AI 研究新基准。论文:arXiv:2605.15178
为什么值得关注
Sana 在"质量 vs. 效率"的取舍中明显偏向效率——1.6B 级别模型、8GB 显存约束、1 秒级出图,让高分辨率 AI 图像生成从 H100 普及到消费级 GPU。NVIDIA 持续更新(Sana-WM 刚发布),生态集成完善,是当前最实用的高分辨率生成方案之一。