Vibe Voice - 微软开源 AI 语音框架

https://github.com/microsoft/VibeVoice

VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。

长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
风格化语音:提供 11 种不同的英文风格语音供用户选择

#TTS #Voice #AI #GitHub GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI
 
 
Back to Top
OKHK