Vibe Voice - 微软开源 AI 语音框架

16:10 · 2026年1月8日 · 周四

Vibe Voice - 微软开源 AI 语音框架

https://github.com/microsoft/VibeVoice

VibeVoice 是微软开源的 AI 语音框架，用于从文本生成富有表现力的长篇多说话人对话音频（如播客），通过 LLM 理解文本上下文和对话流，生成高保真音频。

● 长篇多说话人模型：支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
● 实时流式 TTS 模型：初始音频延迟约 300 毫秒，支持流式文本输入的实时语音生成
● 超低帧率语音分词器：以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
● 多语言支持：支持英文、中文以及实验性支持 9 种语言（德、法、意、日、韩、荷、波、葡、西班牙语）
● 风格化语音：提供 11 种不同的英文风格语音供用户选择

#TTS #Voice #AI #GitHub

GitHub

GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI

Open-Source Frontier Voice AI. Contribute to microsoft/VibeVoice development by creating an account on GitHub.