多语言 on Text Matrix

Supertonic 3: 99M参数本地多语言TTS引擎，完全基于ONNX实现端侧推理

Mon, 18 May 2026 20:00:00 +0800

Supertonic 3: 99M参数本地多语言TTS引擎，完全基于ONNX实现端侧推理

核心价值：纯端侧、隐私优先

Supertonic 3 是 Supertone 公司开源的超高速本地多语言 TTS 引擎，99M 参数，ONNX 格式，完全离线运行。与云端 TTS 服务相比，核心差异在于：

VoxCPM2：Tokenizer-Free TTS 多语言语音合成指南

Sun, 12 Apr 2026 11:50:00 +0800

VoxCPM2：Tokenizer-Free TTS 多语言语音合成指南 ⭐⭐⭐

目标读者：AI语音开发者、研究人员，对TTS系统有一定了解 核心问题：如何实现高质量、多语言、可控的语音合成？

§1 学习目标

完成本文档后，你将掌握：

OpenAI Whisper：97.2k Stars 通用语音识别完全指南

Mon, 06 Apr 2026 22:50:00 +0800

学习目标

通过本文，你将全面掌握以下核心能力：

深入理解 Whisper 的技术原理和架构设计
学会安装配置 Whisper 环境和依赖
掌握不同模型规模的选择和性能对比
学会使用命令行和 Python 进行语音识别
理解 Whisper 的多语言翻译和语言识别功能
掌握性能优化和微调技巧
了解 Whisper 的生态集成和应用场景

1. 项目概述

1.1 是什么

Whisper 是 OpenAI 发布的通用语音识别模型。它在大规模多样化音频数据集上训练，是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。