✨ 碎片收藏 / 资讯文档 / 网站工具 / GitHub 项目 / Bing 壁纸
Vibe Voice - 微软开源 AI 语音框架
https://github.com/microsoft/VibeVoice
VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。
● 长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
● 实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
● 超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
● 多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
● 风格化语音:提供 11 种不同的英文风格语音供用户选择
#TTS #Voice #AI #GitHub
https://github.com/microsoft/VibeVoice
VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。
● 长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
● 实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
● 超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
● 多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
● 风格化语音:提供 11 种不同的英文风格语音供用户选择
#TTS #Voice #AI #GitHub
Abogen - 从 EPUB、PDF 等文本文件生成有同步字幕的有声书
https://github.com/denizsafak/abogen
● 支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
● 提供同步字幕功能,支持多种字幕样式
● 支持自定义语音配置,包括语速、语音选择和语音混合
● 支持批量处理,可以添加多个文件到队列中进行转换
● 支持自动检测章节并分别保存为独立音频文件
● 支持为 M4B 文件添加元数据标签
#TTS #Voice #AI #Tool #GitHub
https://github.com/denizsafak/abogen
Abogen 是一个基于 Kokoro-82M 的文本转语音工具,能够快速将 EPUB、PDF 或 Markdown 等文本文件转换为具有同步字幕的高质量音频,适用于制作有声读物,Instagram、YouTube、TikTok 等社交媒体的配音旁白,或其他任何需要自然语音的项目。● 支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
● 提供同步字幕功能,支持多种字幕样式
● 支持自定义语音配置,包括语速、语音选择和语音混合
● 支持批量处理,可以添加多个文件到队列中进行转换
● 支持自动检测章节并分别保存为独立音频文件
● 支持为 M4B 文件添加元数据标签
#TTS #Voice #AI #Tool #GitHub
edgetts-edgeone-pages - 部署在 EdgeOne Pages 上的 Edge TTS 服务
https://github.com/seventycheung/edgetts-edgeone-pages
一个部署在 EdgeOne Pages 上的高性能文本转语音( TTS )代理服务。
● OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口,可被官方的 OpenAI SDK 或任何现有工具直接调用
● 高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
● STREAMING: 支持流式和标准(非流式)两种响应模式,流式响应可极大降低长文本的首次播放延迟
● 智能文本清理: 内置强大的 " 文本清理流水线 ",可自动处理从 PDF 或网页复制的杂乱文本
● 灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
● 零依赖部署: 脚本完全自包含,无需配置 KV、队列等任何外部服务
● 便捷的测试工具: 提供一个功能丰富的 index.html,让用户无需编写任何代码即可测试所有功能
#TTS #Voice #Tool #GitHub
https://github.com/seventycheung/edgetts-edgeone-pages
一个部署在 EdgeOne Pages 上的高性能文本转语音( TTS )代理服务。
● OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口,可被官方的 OpenAI SDK 或任何现有工具直接调用
● 高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
● STREAMING: 支持流式和标准(非流式)两种响应模式,流式响应可极大降低长文本的首次播放延迟
● 智能文本清理: 内置强大的 " 文本清理流水线 ",可自动处理从 PDF 或网页复制的杂乱文本
● 灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
● 零依赖部署: 脚本完全自包含,无需配置 KV、队列等任何外部服务
● 便捷的测试工具: 提供一个功能丰富的 index.html,让用户无需编写任何代码即可测试所有功能
#TTS #Voice #Tool #GitHub
TTS-WebUI - 集成多款主流语音合成与音频生成模型的开源 Web 界面
https://github.com/rsxdalv/tts-webui
TTS-WebUI 是一个基于 Gradio 和 React 的文本到语音 (TTS) 和音频生成的 Web 界面。
● 支持多种 TTS 和音频生成模型, 包括 Bark、Tortoise、MusicGen 等
● 提供了丰富的扩展功能, 可以安装额外的模型和工具
● 提供了基于 Gradio 的后端和基于 React 的前端界面
● 兼容 OpenAI API,支持 Whisper 转录,方便与 Silly Tavern 等客户端集成,实现多场景文本、语音交互。
● 支持在 Docker 容器中运行
#TTS #Voice #Tool #GitHub
https://github.com/rsxdalv/tts-webui
TTS-WebUI 是一个基于 Gradio 和 React 的文本到语音 (TTS) 和音频生成的 Web 界面。
● 支持多种 TTS 和音频生成模型, 包括 Bark、Tortoise、MusicGen 等
● 提供了丰富的扩展功能, 可以安装额外的模型和工具
● 提供了基于 Gradio 的后端和基于 React 的前端界面
● 兼容 OpenAI API,支持 Whisper 转录,方便与 Silly Tavern 等客户端集成,实现多场景文本、语音交互。
● 支持在 Docker 容器中运行
#TTS #Voice #Tool #GitHub
https://github.com/wangwangit/tts
一个基于 Microsoft Edge TTS 的免费在线语音合成服务,可自行部署在 Cloudflare Worker 上
#TTS #Voice #GitHub #Cloudflare
一个基于 Microsoft Edge TTS 的免费在线语音合成服务,可自行部署在 Cloudflare Worker 上
#TTS #Voice #GitHub #Cloudflare
KittenTTS - 开源轻量级 TTS
https://github.com/KittenML/KittenTTS
KittenTTS 是一个开源的高质量文本转语音模型,仅 1500 万参数,专为轻量级部署和高质量语音合成而设计。
● 超轻量级:模型大小小于 25MB
● 针对 CPU 优化:无需 GPU 即可在任何设备上运行
● 高质量语音:提供多种优质语音选择
● 快速推理:针对实时语音合成进行了优化
#TTS #AI #Tool #GitHub
https://github.com/KittenML/KittenTTS
KittenTTS 是一个开源的高质量文本转语音模型,仅 1500 万参数,专为轻量级部署和高质量语音合成而设计。
● 超轻量级:模型大小小于 25MB
● 针对 CPU 优化:无需 GPU 即可在任何设备上运行
● 高质量语音:提供多种优质语音选择
● 快速推理:针对实时语音合成进行了优化
#TTS #AI #Tool #GitHub
open-edge-tts - 本地部署兼容 OpenAI API 的 Edge-TTS
https://github.com/travisvn/openai-edge-tts
项目使用 edge-tts,提供一个本地的、兼容 OpenAI 的文本转语音 (TTS) API,使用户能够使用各种语音选项和播放速度从文本生成语音,就像用 OpenAI API 一样。
● 提供兼容 OpenAI 的端点:
● 支持 SSE 流式传输:通过服务器发送事件 (Server-Sent Events) 进行实时音频流传输
● 支持多种语音:将 OpenAI 语音 (alloy、echo、fable、onyx、nova、shimmer) 映射到 edge-tts 等价物
● 支持多种音频格式:mp3、opus、aac、flac、wav、pcm
● 支持调整播放速度:0.25 倍到 4 倍
● 支持直接选择 edge-tts 语音:可以使用 OpenAI 语音映射,也可以直接指定任何 edge-tts 语音
#TTS #Voice #Tool #GitHub
https://github.com/travisvn/openai-edge-tts
项目使用 edge-tts,提供一个本地的、兼容 OpenAI 的文本转语音 (TTS) API,使用户能够使用各种语音选项和播放速度从文本生成语音,就像用 OpenAI API 一样。
● 提供兼容 OpenAI 的端点:
/v1/audio/speech,具有类似的请求结构和行为● 支持 SSE 流式传输:通过服务器发送事件 (Server-Sent Events) 进行实时音频流传输
● 支持多种语音:将 OpenAI 语音 (alloy、echo、fable、onyx、nova、shimmer) 映射到 edge-tts 等价物
● 支持多种音频格式:mp3、opus、aac、flac、wav、pcm
● 支持调整播放速度:0.25 倍到 4 倍
● 支持直接选择 edge-tts 语音:可以使用 OpenAI 语音映射,也可以直接指定任何 edge-tts 语音
#TTS #Voice #Tool #GitHub
MiniMax Speech-02 语音模型
项目地址:
https://minimax-ai.github.io/tts_tech_report
体验地址:
内地: https://www.minimaxi.com/audio
海外: https://www.minimax.io/audio
全球第一个真正实现多样化、个性化定义的语音模型。
除了常用的语音克隆及TTS外,还可以实现通过对音色的文字描述生成对应音色(C端暂未上线),在同一段语音中,也可实现跨语言的高质量语音合成。
#TTS #AI #Voice #Tool #URL link
项目地址:
https://minimax-ai.github.io/tts_tech_report
体验地址:
内地: https://www.minimaxi.com/audio
海外: https://www.minimax.io/audio
全球第一个真正实现多样化、个性化定义的语音模型。
除了常用的语音克隆及TTS外,还可以实现通过对音色的文字描述生成对应音色(C端暂未上线),在同一段语音中,也可实现跨语言的高质量语音合成。
#TTS #AI #Voice #Tool #URL link
Kokoro - 轻量级 TTS
https://github.com/remsky/Kokoro-FastAPI
Kokoro-FastAPI 是一个基于 FastAPI 的 Docker 化的文本到语音转换 (TTS) 应用程序。
它使用了 Kokoro-82M 模型,支持多种语言,包括英语、日语、韩语和中文。
● 提供 OpenAI 兼容的语音 API 端点
● 支持多种语言,包括英语、日语、韩语和中文
● 支持 NVIDIA GPU 加速或 CPU 推理
● 提供调试端点和集成的 Web UI
● 支持语音混合、逐字时间戳字幕生成和音素生成
----------------------
https://github.com/hexgrad/kokoro
Kokoro是一款轻量级、高性能的文本转语音(TTS)模型,由 hexgrad 团队开发并开源。其参数规模仅为 8200 万,却在语音合成领域表现出色,支持多种语言和音色,生成语音自然流畅,音质接近真人。
#GitHub #TTS #Tool #AI
https://github.com/remsky/Kokoro-FastAPI
Kokoro-FastAPI 是一个基于 FastAPI 的 Docker 化的文本到语音转换 (TTS) 应用程序。
它使用了 Kokoro-82M 模型,支持多种语言,包括英语、日语、韩语和中文。
● 提供 OpenAI 兼容的语音 API 端点
● 支持多种语言,包括英语、日语、韩语和中文
● 支持 NVIDIA GPU 加速或 CPU 推理
● 提供调试端点和集成的 Web UI
● 支持语音混合、逐字时间戳字幕生成和音素生成
----------------------
https://github.com/hexgrad/kokoro
Kokoro是一款轻量级、高性能的文本转语音(TTS)模型,由 hexgrad 团队开发并开源。其参数规模仅为 8200 万,却在语音合成领域表现出色,支持多种语言和音色,生成语音自然流畅,音质接近真人。
#GitHub #TTS #Tool #AI
Orpheus TTS - 开源文本转语音系统
https://github.com/canopyai/Orpheus-TTS
Orpheus-TTS 是一个基于 Llama-3b 的开源文本到语音系统,提供了出色的语音合成能力,包括自然语调、情感和节奏。
它还支持零样本语音克隆和情感/语调控制等功能。
● 自然语音合成:提供出色的语音质量,包括自然语调、情感和节奏
● 零样本语音克隆:无需事先微调即可克隆声音
● 情感和语调控制:可以使用简单的标签控制语音特征
● 低延迟:实时应用的延迟约为 200 毫秒,可减少到约 100 毫秒
● 多语言支持:提供英语和多语言模型
#TTS #Tool #GitHub #AI
https://github.com/canopyai/Orpheus-TTS
Orpheus-TTS 是一个基于 Llama-3b 的开源文本到语音系统,提供了出色的语音合成能力,包括自然语调、情感和节奏。
它还支持零样本语音克隆和情感/语调控制等功能。
● 自然语音合成:提供出色的语音质量,包括自然语调、情感和节奏
● 零样本语音克隆:无需事先微调即可克隆声音
● 情感和语调控制:可以使用简单的标签控制语音特征
● 低延迟:实时应用的延迟约为 200 毫秒,可减少到约 100 毫秒
● 多语言支持:提供英语和多语言模型
#TTS #Tool #GitHub #AI
Dia - TTS 模型
https://github.com/nari-labs/dia
Dia 是一个 1.6B 参数的 TTS 模型,由Nari Labs创建。
● 可以直接从对话稿生成高度逼真的对话,并可以根据音频进行情感和语调控制。
● 可以产生笑声、咳嗽、清嗓子等声音。
● 提供了预训练模型检查点和推理代码,以加速研究。
目前仅支持英语生成
#AI #TTS #GitHub
https://github.com/nari-labs/dia
Dia 是一个 1.6B 参数的 TTS 模型,由Nari Labs创建。
● 可以直接从对话稿生成高度逼真的对话,并可以根据音频进行情感和语调控制。
● 可以产生笑声、咳嗽、清嗓子等声音。
● 提供了预训练模型检查点和推理代码,以加速研究。
目前仅支持英语生成
#AI #TTS #GitHub
EasyVoice - 开源文本转语音工具,支持超长文本,多角色配音
https://easyvoice.ioplus.tech/
https://github.com/cosin2077/easyVoice
EasyVoice 是一个开源的文本、小说智能转语音解决方案,提供一键生成语音和字幕、AI 智能推荐配音、完全免费无限制等功能。
可以轻松将大段文本转为语音,并支持流式传输、多语言、自定义设置等高级功能。
- 文本转语音:一键将大段文本转为语音,高效又省时
- 流式传输:再多的文本,都可以迅速返回音频直接开始试听
- 多语言支持:支持中文、英文等多种语言
- 字幕支持:自动生成字幕文件,方便视频制作和字幕翻译
- 角色配音:提供多种声音选项,完美适配不同角色
- 自定义设置:可调整语速、音调等参数,打造专属语音风格
- AI 推荐:通过 AI 智能推荐最适合的语音配置
- 试听功能:生成前可试听效果,确保每一句都如你所愿
#AI #GitHub #Tool #TTS #Voice
https://easyvoice.ioplus.tech/
https://github.com/cosin2077/easyVoice
EasyVoice 是一个开源的文本、小说智能转语音解决方案,提供一键生成语音和字幕、AI 智能推荐配音、完全免费无限制等功能。
可以轻松将大段文本转为语音,并支持流式传输、多语言、自定义设置等高级功能。
- 文本转语音:一键将大段文本转为语音,高效又省时
- 流式传输:再多的文本,都可以迅速返回音频直接开始试听
- 多语言支持:支持中文、英文等多种语言
- 字幕支持:自动生成字幕文件,方便视频制作和字幕翻译
- 角色配音:提供多种声音选项,完美适配不同角色
- 自定义设置:可调整语速、音调等参数,打造专属语音风格
- AI 推荐:通过 AI 智能推荐最适合的语音配置
- 试听功能:生成前可试听效果,确保每一句都如你所愿
#AI #GitHub #Tool #TTS #Voice
TTSFM - 文本转语音(OpenAI 兼容)
https://github.com/dbccccccc/ttsfm
https://ttsapi.site/
一个完全兼容 OpenAI 文本转语音 (TTS) API 格式的 API 服务器。它提供了一个可以使用多种语音选项进行文本转语音转换的兼容接口。
● 提供与 OpenAI TTS API 格式完全兼容的接口
● 支持多种语音选项,包括 alloy、ash、ballad、coral、echo、fable、onyx、nova、sage、shimmer 和 verse
● 支持多种音频输出格式,包括 mp3、opus、aac、flac、wav 和 pcm
● 支持对语音进行调制,如指定以欢快的语气说话
● 提供队列管理功能,限制并发请求数量
● 提供 API 版本信息查询
https://linux.do/t/topic/513377
#TTS #GitHub #Tool
https://github.com/dbccccccc/ttsfm
https://ttsapi.site/
一个完全兼容 OpenAI 文本转语音 (TTS) API 格式的 API 服务器。它提供了一个可以使用多种语音选项进行文本转语音转换的兼容接口。
● 提供与 OpenAI TTS API 格式完全兼容的接口
● 支持多种语音选项,包括 alloy、ash、ballad、coral、echo、fable、onyx、nova、sage、shimmer 和 verse
● 支持多种音频输出格式,包括 mp3、opus、aac、flac、wav 和 pcm
● 支持对语音进行调制,如指定以欢快的语气说话
● 提供队列管理功能,限制并发请求数量
● 提供 API 版本信息查询
https://linux.do/t/topic/513377
#TTS #GitHub #Tool
Ciallo TTS - 文本转语音工具
https://github.com/bestZwei/ciallo-tts
Ciallo TTS 是一款免费的在线文本转语音工具,支持多种声音选择,可调节语速和语调,提供即时试听和下载功能。
🎯 支持超过300种不同语言和口音的声音
🔊 实时预览和试听功能
⚡ 支持长文本自动分段处理
🎛️ 可调节语速和语调
📱 响应式设计,支持移动端
💾 支持音频下载
📝 历史记录功能(最多保存50条)
https://tts.ciallo.de
----------------------
https://linux.do/t/topic/546900
#TTS #GitHub #Tool
https://github.com/bestZwei/ciallo-tts
Ciallo TTS 是一款免费的在线文本转语音工具,支持多种声音选择,可调节语速和语调,提供即时试听和下载功能。
🎯 支持超过300种不同语言和口音的声音
🔊 实时预览和试听功能
⚡ 支持长文本自动分段处理
🎛️ 可调节语速和语调
📱 响应式设计,支持移动端
💾 支持音频下载
📝 历史记录功能(最多保存50条)
https://tts.ciallo.de
----------------------
https://linux.do/t/topic/546900
#TTS #GitHub #Tool
实用 TTS 工具
1. 文本转语音 (TTS)
专业级在线文本转语音工具
🔗 https://www.text-to-speech.cn
2. 海豚AI
优质中文语音合成平台
🔗 https://www.ttson.cn
3. 免费文字转语音
支持多种语言的在线TTS工具
🔗 https://zh-cn.text-to-speech.online
4. TTSMAKER
专业的在线配音与文字转语音平台
🔗 https://ttsmaker.cn
5. D1工具箱TTS
简单易用的AI语音生成工具
🔗 https://d1tools.com/tools/ai-tts/
6. AivisSpeech
开源的AI声音模仿系统
🔗 https://github.com/Aivis-Project/AivisSpeech
7. Google AI对话生成器
支持生成男女对话式音频,适合英语学习
🔗 https://notebooklm.google.com/
8. Fish Audio
支持语音克隆的免费AI工具
🔗 https://fish.audio/zh-CN/
9. MeloTTS
MyShell开发的高质量多语言TTS工具
🔗 https://github.com/myshell-ai/MeloTTS
10. AudioNotes AI
专业的语音转文本工具
🔗 https://audionotes.ai/
#AI #Tool #TTS #GitHub
1. 文本转语音 (TTS)
专业级在线文本转语音工具
🔗 https://www.text-to-speech.cn
2. 海豚AI
优质中文语音合成平台
🔗 https://www.ttson.cn
3. 免费文字转语音
支持多种语言的在线TTS工具
🔗 https://zh-cn.text-to-speech.online
4. TTSMAKER
专业的在线配音与文字转语音平台
🔗 https://ttsmaker.cn
5. D1工具箱TTS
简单易用的AI语音生成工具
🔗 https://d1tools.com/tools/ai-tts/
6. AivisSpeech
开源的AI声音模仿系统
🔗 https://github.com/Aivis-Project/AivisSpeech
7. Google AI对话生成器
支持生成男女对话式音频,适合英语学习
🔗 https://notebooklm.google.com/
8. Fish Audio
支持语音克隆的免费AI工具
🔗 https://fish.audio/zh-CN/
9. MeloTTS
MyShell开发的高质量多语言TTS工具
🔗 https://github.com/myshell-ai/MeloTTS
10. AudioNotes AI
专业的语音转文本工具
🔗 https://audionotes.ai/
#AI #Tool #TTS #GitHub
FireRed TTS
https://github.com/FireRedTeam/FireRedTTS
小红书开源的TTS语音克隆系统,录制一段人声可按照该人声 以指定情感读出指定文本。
Huggingface 体验: https://huggingface.co/spaces/fireredteam/FireRedTTS
#TTS #Tool #GitHub
https://github.com/FireRedTeam/FireRedTTS
小红书开源的TTS语音克隆系统,录制一段人声可按照该人声 以指定情感读出指定文本。
Huggingface 体验: https://huggingface.co/spaces/fireredteam/FireRedTTS
#TTS #Tool #GitHub
MultiTTS 安卓离线语音
MultiTTS是一款安卓本地离线语音 App,体验不错
频道
https://t.me/MultiTTS_channel
中文群组
https://t.me/MultiTTS
可搭配 阅读App、搜书大师、静读天下等使用。
#Android #TTS #Tool
MultiTTS是一款安卓本地离线语音 App,体验不错
频道
https://t.me/MultiTTS_channel
中文群组
https://t.me/MultiTTS
可搭配 阅读App、搜书大师、静读天下等使用。
#Android #TTS #Tool