NVIDIA on Text Matrix

Sana - NVIDIA高效高分辨率图像合成与视频生成框架

Mon, 18 May 2026 00:00:00 +0000

Sana：NVIDIA高效率高分辨率图像与视频生成框架

Stars: 6,331 | 今日: +447 | Python

一句话评价

Sana 是 NVIDIA MVFX 实验室出品的效率优先型图像/视频生成框架，支持 4K 分辨率、1.6B 参数模型可在 8GB GPU 显存运行，ICLR 2025 Oral / 2026 Oral 双 Oral 论文，并在 diffusers / SGLang / ComfyUI 均有原生集成。

NVIDIA AI Blueprint：视频搜索与摘要系统实战

Fri, 15 May 2026 10:25:00 +0800

NVIDIA AI Blueprint：视频搜索与摘要系统实战

如果你曾经需要在一万小时的视频里找一个"穿红色衣服的人第三秒做了什么"，而你只有抓狂和快进两种选择——NVIDIA 的视频搜索和摘要（VSS）蓝图，就是为你准备的。

NeMo Skills：NVIDIA 开源 LLM 技能提升流水线

Sun, 12 Apr 2026 11:00:00 +0800

目标读者：LLM 训练工程师、模型优化研究者 核心问题：如何用 NeMo Skills 构建从数据生成到评估的完整 LLM 技能提升流水线？难度：⭐⭐⭐⭐（高级） 事实边界：本文基于 NVIDIA-NeMo/Skills 仓库 README 和官方文档。CLI 命令的具体参数格式请以 ns --help 和官方文档为准。

PersonaPlex：NVIDIA 全双工对话语音模型完全指南

Mon, 06 Apr 2026 21:35:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 PersonaPlex 的项目定位、技术架构和工作原理
学会安装和部署 PersonaPlex（pip、Docker）
掌握 PersonaPlex 的声音类型和角色提示词
理解全双工对话与语音角色控制的实现方式
学会启动实时交互服务器和离线评估
掌握如何自定义角色提示词和创建特定人设的语音助手
理解基于 Moshi 架构的技术实现

1. 项目概述

1.1 是什么

PersonaPlex 是 NVIDIA 开发的一款实时全双工语音对话模型，它能够通过文本角色提示词和音频声音条件实现角色控制。

NeMo：NVIDIA 对话式 AI 框架完全指南

Wed, 01 Apr 2026 16:45:00 +0800

目标读者：希望构建语音 AI 应用的开发者、AI 工程师 核心问题：如何使用 NVIDIA NeMo 构建语音识别和对话 AI 系统？难度：⭐⭐⭐（中级）

一、项目概述

1.1 什么是 NeMo

NeMo 是 NVIDIA 开源的对话式 AI 框架，专注于语音、音频和多模态大语言模型。提供从模型训练到部署的完整工具链，支持研究者快速构建和部署高级 AI 应用。