目录

VibeVoice:微软开源前沿语音AI模型家族,ASR支持60分钟长音频

VibeVoice:微软开源前沿语音AI模型家族,ASR支持60分钟长音频

概述

VibeVoice 是微软开源的前沿语音AI模型家族,包含语音识别(ASR)和语音合成(TTS)两大核心模型。与传统短片段处理的ASR不同,VibeVoice-ASR支持单次通过处理60分钟连续音频,保留完整的说话人跟踪和语义连贯性。

该项目的核心技术亮点是7.5 Hz超低帧率音频分词器,结合 Next-token Diffusion 框架,显著提升长序列处理效率。VibeVoice-ASR-7B 已于2026年3月正式进入 Hugging Face Transformers 版本,意味着可以直接通过 Transformers 库调用。

🔥 VibeVoice-TTS 已于2025年9月从本仓库移除(因发现被滥用于不一致的目的),但 VibeVoice-ASR 和 VibeVoice-Realtime 仍在活跃维护中。

GitHub: microsoft/VibeVoice
项目主页: microsoft.github.io/VibeVoice
Hugging Face: huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f


核心模型

模型参数量链接状态
VibeVoice-ASR-7B7BHuggingFace✅ 活跃
VibeVoice-TTS-1.5B1.5BHuggingFace❌ 已下架
VibeVoice-Realtime-0.5B0.5BHuggingFace✅ 活跃

技术原理

7.5 Hz 超低帧率音频分词器

VibeVoice 的核心创新之一是连续音频分词器(Acoustic Tokenizer 和 Semantic Tokenizer),以仅 7.5 Hz 的超低帧率运行。相比传统分词器,这显著降低了计算复杂度,同时保留了高保真音频特征。

Next-token Diffusion 框架

VibeVoice 采用 Next-token Diffusion 架构:

  1. 大语言模型(LLM)理解文本上下文和对话流程
  2. Diffusion Head 生成高保真 acoustic details
  3. 两者结合实现流畅的语音合成和识别

60分钟长音频单次处理

传统ASR模型将音频切分为短片段(通常丢失全局上下文),VibeVoice-ASR可在 64K token 长度内单次处理最长60分钟的连续音频,确保全时段说话人跟踪和语义一致性。


VibeVoice-ASR:长音频语音识别

VibeVoice-ASR 是统一的多语言语音转文本模型,核心能力:

  • 🕒 60分钟单次处理:突破传统ASR的片段切割限制
  • 👤 自定义热词(Customized Hotwords):支持用户添加人名、术语、背景信息,显著提升垂直领域识别准确率
  • 🌍 原生多语言:支持50+语言的语音识别
  • 📝 结构化输出:生成包含 Who(说话人)、When(时间戳)、What(内容)的格式化转录文本
  • vLLM 推理加速:支持 vLLM 推理后端,显著提升推理效率

ASR 技术报告arXiv:2601.18184

支持的语言(部分)

英语、中文、日语、韩语、法语、德语、西班牙语、意大利语、葡萄牙语、俄语、阿拉伯语、印地语、越南语、泰语等50余种语言。


VibeVoice-Realtime:实时语音合成

VibeVoice-Realtime-0.5B 是参数量仅 0.5B 的实时语音合成模型:

  • 流式文本输入:支持流式输入,实时输出语音
  • 🌍 多语言支持:已支持英语、德语、法语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、西班牙语等10种语言
  • 🎭 多风格人声:已上线11种不同风格的英语语音,以及9种语言的多语言语音
  • 📄 长文本合成:robust long-form speech generation

Colab 体验VibeVoice-Realtime Colab


学术认可:ICLR 2026 Oral

VibeVoice-TTS 论文已被 ICLR 2026 接纳为 Oral(口头报告) 论文,论文发表在 OpenReview:VibeVoice-TTS Paper

这是开源语音合成领域的重要里程碑,表明微软在语音AI研究方向获得国际顶级学术会议认可。


快速上手

通过 Hugging Face Transformers 使用 ASR

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
import torch

# 加载模型
model_id = "microsoft/VibeVoice-ASR"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)
processor = AutoProcessor.from_pretrained(model_id)

# 构建 pipeline
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 推理
result = pipe("path/to/your/audio.wav", return_timestamps=True)
print(result["text"])

vLLM 加速推理

VibeVoice-ASR 支持 vLLM 后端加速,参考 vllm-asr 文档

本地微调

VibeVoice-ASR 的微调代码已开源,参考 finetuning-asr/README.md


与同类项目的比较

特性VibeVoice-ASRWhisperFunAudioLLM
最长输入60分钟30分钟未知
帧率7.5 Hz50 Hz未知
多语言50+100+有限
vLLM 支持
结构化输出
ICLR Oral

应用场景

  1. 会议记录与转写:60分钟单次处理,告别片段拼接
  2. 播客/视频字幕:长音频一键转文字,支持多语言
  3. 客服语音分析:结构化输出便于检索和分析
  4. 语音助手:实时语音合成,低延迟交互
  5. 无障碍辅助:为听障用户提供实时字幕服务

总结

VibeVoice 作为微软开源的语音AI模型家族,在长音频处理超低帧率分词方面有显著技术创新。VibeVoice-ASR 的60分钟单次处理能力、50+语言支持、vLLM加速、以及ICLR 2026 Oral的学术认可,使其成为当前开源语音识别领域的重要玩家。

VibeVoice-Realtime 的0.5B实时TTS模型也为需要低延迟语音合成的应用提供了新选择。

推荐指数:⭐⭐⭐⭐⭐

适用人群:语音AI研究者、长音频处理开发者、多语言语音应用工程师


📌 更多信息