<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>TTS on Text Matrix</title><link>https://txtmix.com/tags/tts/</link><description>Recent content in TTS on Text Matrix</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sat, 23 May 2026 08:20:36 +0800</lastBuildDate><atom:link href="https://txtmix.com/tags/tts/index.xml" rel="self" type="application/rss+xml"/><item><title>Supertonic 3: 99M参数本地多语言TTS引擎，完全基于ONNX实现端侧推理</title><link>https://txtmix.com/posts/tech/supertonic-onnx-tts-engine-guide/</link><pubDate>Mon, 18 May 2026 20:00:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/supertonic-onnx-tts-engine-guide/</guid><description>&lt;h1 id="supertonic-3-99m参数本地多语言tts引擎完全基于onnx实现端侧推理">Supertonic 3: 99M参数本地多语言TTS引擎，完全基于ONNX实现端侧推理&lt;/h1>
&lt;h2 id="核心价值纯端侧隐私优先">核心价值：纯端侧、隐私优先&lt;/h2>
&lt;p>Supertonic 3 是 Supertone 公司开源的&lt;strong>超高速本地多语言 TTS 引擎&lt;/strong>，99M 参数，ONNX 格式，完全离线运行。与云端 TTS 服务相比，核心差异在于：&lt;/p></description></item><item><title>Supertonic 3：99M参数本地运行的多语言TTS引擎（31语言，WebGPU）</title><link>https://txtmix.com/posts/tech/supertonic-3-onnx-tts-engine/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://txtmix.com/posts/tech/supertonic-3-onnx-tts-engine/</guid><description>&lt;h1 id="supertonic-399m参数本地运行的多语言tts引擎">Supertonic 3：99M参数本地运行的多语言TTS引擎&lt;/h1>
&lt;p>&lt;strong>Supertonic&lt;/strong> 是一个极速本地多语言文字转语音系统，基于 ONNX Runtime 在设备端运行，无需网络、无需 API 调用、隐私完全保障。Supertonic 3 版本支持 31 种语言，约 99M 参数（约 0.1B），输出 44.1kHz 高质量音频。&lt;/p></description></item><item><title>VibeVoice：微软开源前沿语音AI模型家族，ASR支持60分钟长音频</title><link>https://txtmix.com/posts/tech/vibevoice-microsoft-voice-ai/</link><pubDate>Wed, 29 Apr 2026 11:30:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/vibevoice-microsoft-voice-ai/</guid><description>&lt;h1 id="vibevoice微软开源前沿语音ai模型家族asr支持60分钟长音频">VibeVoice：微软开源前沿语音AI模型家族，ASR支持60分钟长音频&lt;/h1>
&lt;h2 id="概述">概述&lt;/h2>
&lt;p>&lt;strong>VibeVoice&lt;/strong> 是微软开源的&lt;strong>前沿语音AI模型家族&lt;/strong>，包含语音识别（ASR）和语音合成（TTS）两大核心模型。与传统短片段处理的ASR不同，VibeVoice-ASR支持&lt;strong>单次通过处理60分钟连续音频&lt;/strong>，保留完整的说话人跟踪和语义连贯性。&lt;/p></description></item><item><title>Voicebox：开源语音合成工作站——本地运行、支持5大TTS引擎、17.9K Stars的 ElevenLabs替代方案</title><link>https://txtmix.com/posts/tech/voicebox-open-source-voice-synthesis-studio/</link><pubDate>Thu, 16 Apr 2026 01:10:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/voicebox-open-source-voice-synthesis-studio/</guid><description>&lt;h1 id="voicebox开源语音合成工作站本地运行支持5大tts引擎179k-stars的-elevenlabs替代方案">Voicebox：开源语音合成工作站——本地运行、支持5大TTS引擎、17.9K Stars的 ElevenLabs替代方案&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：语音应用开发者、AI音频研究者、内容创作者、隐私敏感用户
&lt;strong>预计阅读时间&lt;/strong>：50-70分钟
&lt;strong>前置知识&lt;/strong>：语音合成基本概念、Python/TypeScript 基础、了解 TTS 模型
&lt;strong>难度定位&lt;/strong>：⭐⭐⭐⭐ 专家设计&lt;/p></description></item><item><title>VoxCPM2：Tokenizer-Free TTS 多语言语音合成指南</title><link>https://txtmix.com/posts/tech/voxcpm2-tokenizer-free-tts-guide/</link><pubDate>Sun, 12 Apr 2026 11:50:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/voxcpm2-tokenizer-free-tts-guide/</guid><description>&lt;h1 id="voxcpm2tokenizer-free-tts-多语言语音合成指南-">VoxCPM2：Tokenizer-Free TTS 多语言语音合成指南 ⭐⭐⭐&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：AI语音开发者、研究人员，对TTS系统有一定了解
&lt;strong>核心问题&lt;/strong>：如何实现高质量、多语言、可控的语音合成？&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="1-学习目标">§1 学习目标&lt;/h2>
&lt;p>完成本文档后，你将掌握：&lt;/p></description></item><item><title>RedditVideoMakerBot：一键自动化Reddit内容视频生成工具</title><link>https://txtmix.com/posts/tech/reddit-video-maker-bot-guide/</link><pubDate>Wed, 08 Apr 2026 16:20:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/reddit-video-maker-bot-guide/</guid><description>&lt;h1 id="redditvideomakerbot一键自动化reddit内容视频生成工具">RedditVideoMakerBot：一键自动化Reddit内容视频生成工具&lt;/h1>
&lt;h2 id="1-学习目标">1. 学习目标&lt;/h2>
&lt;p>通过本文你将掌握：&lt;/p>
&lt;ul>
&lt;li>理解 RedditVideoMakerBot 的核心价值和设计理念&lt;/li>
&lt;li>熟练安装和配置工具&lt;/li>
&lt;li>掌握视频生成的完整管道&lt;/li>
&lt;li>理解 Playwright 浏览器自动化的应用&lt;/li>
&lt;li>定制和扩展视频生成功能&lt;/li>
&lt;li>最佳实践和常见问题解决&lt;/li>
&lt;/ul>
&lt;h2 id="2-项目概述">2. 项目概述&lt;/h2>
&lt;h3 id="21-什么是-redditvideomakerbot">2.1 什么是 RedditVideoMakerBot&lt;/h3>
&lt;blockquote>
&lt;p>&lt;strong>&amp;ldquo;Create Reddit Videos with just✨ one command ✨&amp;rdquo;&lt;/strong>&lt;/p></description></item><item><title>NeMo：NVIDIA 对话式 AI 框架完全指南</title><link>https://txtmix.com/posts/tech/nemo-nvidia-speech-ai-framework-guide/</link><pubDate>Wed, 01 Apr 2026 16:45:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/nemo-nvidia-speech-ai-framework-guide/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：希望构建语音 AI 应用的开发者、AI 工程师
&lt;strong>核心问题&lt;/strong>：如何使用 NVIDIA NeMo 构建语音识别和对话 AI 系统？
&lt;strong>难度&lt;/strong>：⭐⭐⭐（中级）&lt;/p>&lt;/blockquote>
&lt;h2 id="一项目概述">一、项目概述&lt;/h2>
&lt;h3 id="11-什么是-nemo">1.1 什么是 NeMo&lt;/h3>
&lt;p>&lt;strong>NeMo&lt;/strong> 是 NVIDIA 开源的对话式 AI 框架，专注于语音、音频和多模态大语言模型。提供从模型训练到部署的完整工具链，支持研究者快速构建和部署高级 AI 应用。&lt;/p></description></item><item><title>Faster Qwen3-TTS：实时语音合成加速完全指南</title><link>https://txtmix.com/posts/tech/faster-qwen3-tts-realtime-tts-acceleration-guide/</link><pubDate>Tue, 31 Mar 2026 14:20:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/faster-qwen3-tts-realtime-tts-acceleration-guide/</guid><description>&lt;h1 id="faster-qwen3-tts实时语音合成加速完全指南">Faster Qwen3-TTS：实时语音合成加速完全指南&lt;/h1>
&lt;h2 id="1-学习目标">§1 学习目标&lt;/h2>
&lt;p>完成本文档后，你将能够：&lt;/p>
&lt;ul>
&lt;li>✅ 理解 Faster Qwen3-TTS 的核心定位与加速原理&lt;/li>
&lt;li>✅ 掌握 CUDA Graph 加速技术的工作机制&lt;/li>
&lt;li>✅ 熟练使用 Python API 进行语音克隆和生成&lt;/li>
&lt;li>✅ 熟练使用 CLI 工具进行语音生成&lt;/li>
&lt;li>✅ 部署 Demo UI 实时体验语音合成&lt;/li>
&lt;li>✅ 部署 OpenAI 兼容 API 服务器&lt;/li>
&lt;li>✅ 在不同硬件上进行基准测试&lt;/li>
&lt;li>✅ 优化流式生成的 chunk_size 参数&lt;/li>
&lt;li>✅ 理解语音克隆的质量模式和原理解析&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h2 id="2-项目概述">§2 项目概述&lt;/h2>
&lt;h3 id="21-什么是-faster-qwen3-tts">2.1 什么是 Faster Qwen3-TTS？&lt;/h3>
&lt;p>&lt;strong>Faster Qwen3-TTS&lt;/strong>（官方仓库：&lt;a href="https://github.com/andimarafioti/faster-qwen3-tts" target="_blank" rel="noopener noreffer ">andimarafioti/faster-qwen3-tts&lt;/a>）是一个基于 &lt;strong>CUDA Graph 加速&lt;/strong>的 Qwen3-TTS 实时推理库，实现了无需 Flash Attention、无需 vLLM、无需 Triton 的高性能语音合成。&lt;/p></description></item><item><title>VibeVoice：微软开源前沿语音 AI，从入门到精通</title><link>https://txtmix.com/posts/tech/vibevoice-microsoft-open-source-voice-ai/</link><pubDate>Mon, 30 Mar 2026 11:35:00 +0800</pubDate><guid>https://txtmix.com/posts/tech/vibevoice-microsoft-open-source-voice-ai/</guid><description>&lt;h1 id="vibevoice微软开源前沿语音-ai从入门到精通">VibeVoice：微软开源前沿语音 AI，从入门到精通&lt;/h1>
&lt;blockquote>
&lt;p>&lt;strong>目标读者&lt;/strong>：想要构建语音 AI 应用、实时对话系统、智能语音助手的开发者与研究者
&lt;strong>核心问题&lt;/strong>：如何基于开源技术构建低延迟、高质量、多模型支持的实时语音对话系统？
&lt;strong>难度&lt;/strong>：⭐⭐⭐⭐（进阶）
&lt;strong>预计阅读时间&lt;/strong>：45 分钟&lt;/p></description></item></channel></rss>