<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>NVIDIA on Text Matrix</title><link>https://txtmix.com/tags/nvidia/</link><description>Recent content in NVIDIA on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:55:34 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/nvidia/index.xml" rel="self" type="application/rss+xml"/><item><title>Sana - NVIDIA高效高分辨率图像合成与视频生成框架</title><link>https://txtmix.com/posts/tech/nvlab-sana-efficient-image-video-generation/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://txtmix.com/posts/tech/nvlab-sana-efficient-image-video-generation/</guid><description>&lt;h1 id="sananvidia高效率高分辨率图像与视频生成框架">Sana：NVIDIA高效率高分辨率图像与视频生成框架&lt;/h1>
&lt;p>&lt;strong>Stars: 6,331&lt;/strong> | &lt;strong>今日: +447&lt;/strong> | &lt;strong>Python&lt;/strong>&lt;/p>
&lt;p>GitHub: &lt;a href="https://github.com/NVlabs/Sana" target="_blank" rel="noopener noreffer ">NVlabs/Sana&lt;/a>&lt;/p>
&lt;h2 id="一句话评价">一句话评价&lt;/h2>
&lt;p>Sana 是 NVIDIA MVFX 实验室出品的效率优先型图像/视频生成框架，支持 4K 分辨率、1.6B 参数模型可在 8GB GPU 显存运行，ICLR 2025 Oral / 2026 Oral 双 Oral 论文，并在 diffusers / SGLang / ComfyUI 均有原生集成。&lt;/p></description></item><item><title>NVIDIA AI Blueprint：视频搜索与摘要系统实战</title><link>https://txtmix.com/posts/tech/nvidia-video-search-summarization-blueprint/</link><pubDate>Fri, 15 May 2026 10:25:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/nvidia-video-search-summarization-blueprint/</guid><description>&lt;h1 id="nvidia-ai-blueprint视频搜索与摘要系统实战">NVIDIA AI Blueprint：视频搜索与摘要系统实战&lt;/h1>
&lt;blockquote>
&lt;p>如果你曾经需要在一万小时的视频里找一个&amp;quot;穿红色衣服的人第三秒做了什么&amp;quot;，而你只有抓狂和快进两种选择——NVIDIA 的视频搜索和摘要（VSS）蓝图，就是为你准备的。&lt;/p></description></item><item><title>NeMo Skills：NVIDIA 开源 LLM 技能提升流水线</title><link>https://txtmix.com/posts/tech/llm/nemo-skills-llm-skill-pipeline-guide/</link><pubDate>Sun, 12 Apr 2026 11:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/llm/nemo-skills-llm-skill-pipeline-guide/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：LLM 训练工程师、模型优化研究者
&lt;strong>核心问题&lt;/strong>：如何用 NeMo Skills 构建从数据生成到评估的完整 LLM 技能提升流水线？
&lt;strong>难度&lt;/strong>：⭐⭐⭐⭐（高级）
&lt;strong>事实边界&lt;/strong>：本文基于 NVIDIA-NeMo/Skills 仓库 README 和官方文档。CLI 命令的具体参数格式请以 &lt;code>ns --help&lt;/code> 和官方文档为准。&lt;/p></description></item><item><title>PersonaPlex：NVIDIA 全双工对话语音模型完全指南</title><link>https://txtmix.com/posts/tech/personaplex-nvidia-full-duplex-speech-model-guide/</link><pubDate>Mon, 06 Apr 2026 21:35:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/personaplex-nvidia-full-duplex-speech-model-guide/</guid><description>&lt;h2 id="学习目标">学习目标&lt;/h2>
&lt;p>通过本文，你将全面掌握以下核心能力：&lt;/p>
&lt;ul>
&lt;li>深入理解 PersonaPlex 的项目定位、技术架构和工作原理&lt;/li>
&lt;li>学会安装和部署 PersonaPlex（pip、Docker）&lt;/li>
&lt;li>掌握 PersonaPlex 的声音类型和角色提示词&lt;/li>
&lt;li>理解全双工对话与语音角色控制的实现方式&lt;/li>
&lt;li>学会启动实时交互服务器和离线评估&lt;/li>
&lt;li>掌握如何自定义角色提示词和创建特定人设的语音助手&lt;/li>
&lt;li>理解基于 Moshi 架构的技术实现&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="1-项目概述">1. 项目概述&lt;/h2>
&lt;h3 id="11-是什么">1.1 是什么&lt;/h3>
&lt;p>PersonaPlex 是 NVIDIA 开发的一款&lt;strong>实时全双工语音对话模型&lt;/strong>，它能够通过&lt;strong>文本角色提示词&lt;/strong>和&lt;strong>音频声音条件&lt;/strong>实现角色控制。&lt;/p></description></item><item><title>NeMo：NVIDIA 对话式 AI 框架完全指南</title><link>https://txtmix.com/posts/tech/nemo-nvidia-speech-ai-framework-guide/</link><pubDate>Wed, 01 Apr 2026 16:45:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/nemo-nvidia-speech-ai-framework-guide/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：希望构建语音 AI 应用的开发者、AI 工程师
&lt;strong>核心问题&lt;/strong>：如何使用 NVIDIA NeMo 构建语音识别和对话 AI 系统？
&lt;strong>难度&lt;/strong>：⭐⭐⭐（中级）&lt;/p>&lt;/blockquote>
&lt;h2 id="一项目概述">一、项目概述&lt;/h2>
&lt;h3 id="11-什么是-nemo">1.1 什么是 NeMo&lt;/h3>
&lt;p>&lt;strong>NeMo&lt;/strong> 是 NVIDIA 开源的对话式 AI 框架，专注于语音、音频和多模态大语言模型。提供从模型训练到部署的完整工具链，支持研究者快速构建和部署高级 AI 应用。&lt;/p></description></item></channel></rss>