碎片收藏 / 资讯文档 / 网站工具 / GitHub 项目 / Bing 壁纸
Vibe Voice - 微软开源 AI 语音框架

https://github.com/microsoft/VibeVoice

VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。

长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
风格化语音:提供 11 种不同的英文风格语音供用户选择

#TTS #Voice #AI #GitHub GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI
Abogen - 从 EPUB、PDF 等文本文件生成有同步字幕的有声书

https://github.com/denizsafak/abogen

Abogen 是一个基于 Kokoro-82M 的文本转语音工具,能够快速将 EPUB、PDF 或 Markdown 等文本文件转换为具有同步字幕的高质量音频,适用于制作有声读物,Instagram、YouTube、TikTok 等社交媒体的配音旁白,或其他任何需要自然语音的项目。

支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
提供同步字幕功能,支持多种字幕样式
支持自定义语音配置,包括语速、语音选择和语音混合
支持批量处理,可以添加多个文件到队列中进行转换
支持自动检测章节并分别保存为独立音频文件
支持为 M4B 文件添加元数据标签

#TTS #Voice #AI #Tool #GitHub GitHub - denizsafak/abogen: Generate audiobooks from EPUBs, PDFs and text with synchronized captions.
edgetts-edgeone-pages - 部署在 EdgeOne Pages 上的 Edge TTS 服务

https://github.com/seventycheung/edgetts-edgeone-pages

一个部署在 EdgeOne Pages 上的高性能文本转语音( TTS )代理服务。

OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口,可被官方的 OpenAI SDK 或任何现有工具直接调用
高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
STREAMING: 支持流式和标准(非流式)两种响应模式,流式响应可极大降低长文本的首次播放延迟
智能文本清理: 内置强大的 " 文本清理流水线 ",可自动处理从 PDF 或网页复制的杂乱文本
灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
零依赖部署: 脚本完全自包含,无需配置 KV、队列等任何外部服务
便捷的测试工具: 提供一个功能丰富的 index.html,让用户无需编写任何代码即可测试所有功能

#TTS #Voice #Tool #GitHub GitHub - seventycheung/edgetts-edgeone-pages: 这是一个部署在 EdgeOne Pages 上的高性能文本转语音(TTS)代理服务。它巧妙地将微软 Edge 强大且自然的语音合成服务,封装成了一个兼容 OpenAI…
TTS-WebUI - 集成多款主流语音合成与音频生成模型的开源 Web 界面

https://github.com/rsxdalv/tts-webui

TTS-WebUI 是一个基于 Gradio 和 React 的文本到语音 (TTS) 和音频生成的 Web 界面。

支持多种 TTS 和音频生成模型, 包括 Bark、Tortoise、MusicGen 等
提供了丰富的扩展功能, 可以安装额外的模型和工具
提供了基于 Gradio 的后端和基于 React 的前端界面
兼容 OpenAI API,支持 Whisper 转录,方便与 Silly Tavern 等客户端集成,实现多场景文本、语音交互。
支持在 Docker 容器中运行

#TTS #Voice #Tool #GitHub GitHub - rsxdalv/TTS-WebUI: A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice…
KittenTTS - 开源轻量级 TTS

https://github.com/KittenML/KittenTTS

KittenTTS 是一个开源的高质量文本转语音模型,仅 1500 万参数,专为轻量级部署和高质量语音合成而设计。

超轻量级:模型大小小于 25MB
针对 CPU 优化:无需 GPU 即可在任何设备上运行
高质量语音:提供多种优质语音选择
快速推理:针对实时语音合成进行了优化

#TTS #AI #Tool #GitHub
open-edge-tts - 本地部署兼容 OpenAI API 的 Edge-TTS

https://github.com/travisvn/openai-edge-tts

项目使用 edge-tts,提供一个本地的、兼容 OpenAI 的文本转语音 (TTS) API,使用户能够使用各种语音选项和播放速度从文本生成语音,就像用 OpenAI API 一样。

提供兼容 OpenAI 的端点:/v1/audio/speech,具有类似的请求结构和行为
支持 SSE 流式传输:通过服务器发送事件 (Server-Sent Events) 进行实时音频流传输
支持多种语音:将 OpenAI 语音 (alloy、echo、fable、onyx、nova、shimmer) 映射到 edge-tts 等价物
支持多种音频格式:mp3、opus、aac、flac、wav、pcm
支持调整播放速度:0.25 倍到 4 倍
支持直接选择 edge-tts 语音:可以使用 OpenAI 语音映射,也可以直接指定任何 edge-tts 语音

#TTS #Voice #Tool #GitHub GitHub - travisvn/openai-edge-tts: Free, high-quality text-to-speech API endpoint to replace OpenAI, Azure, or ElevenLabs
MiniMax Speech-02 语音模型

项目地址:

https://minimax-ai.github.io/tts_tech_report

体验地址:

内地: https://www.minimaxi.com/audio

海外: https://www.minimax.io/audio

全球第一个真正实现多样化、个性化定义的语音模型。

除了常用的语音克隆及TTS外,还可以实现通过对音色的文字描述生成对应音色(C端暂未上线),在同一段语音中,也可实现跨语言的高质量语音合成。

#TTS #AI #Voice #Tool #URL link
Kokoro - 轻量级 TTS

https://github.com/remsky/Kokoro-FastAPI

Kokoro-FastAPI 是一个基于 FastAPI 的 Docker 化的文本到语音转换 (TTS) 应用程序。

它使用了 Kokoro-82M 模型,支持多种语言,包括英语、日语、韩语和中文。

提供 OpenAI 兼容的语音 API 端点
支持多种语言,包括英语、日语、韩语和中文
支持 NVIDIA GPU 加速或 CPU 推理
提供调试端点和集成的 Web UI
支持语音混合、逐字时间戳字幕生成和音素生成

----------------------

https://github.com/hexgrad/kokoro

Kokoro是一款轻量级、高性能的文本转语音(TTS)模型,由 hexgrad 团队开发并开源。其参数规模仅为 8200 万,却在语音合成领域表现出色,支持多种语言和音色,生成语音自然流畅,音质接近真人。

#GitHub #TTS #Tool #AI GitHub - remsky/Kokoro-FastAPI: Dockerized FastAPI wrapper for Kokoro-82M text-to-speech model w/CPU ONNX and NVIDIA GPU PyTorch…
Orpheus TTS - 开源文本转语音系统

https://github.com/canopyai/Orpheus-TTS

Orpheus-TTS 是一个基于 Llama-3b 的开源文本到语音系统,提供了出色的语音合成能力,包括自然语调、情感和节奏。

它还支持零样本语音克隆和情感/语调控制等功能。

自然语音合成:提供出色的语音质量,包括自然语调、情感和节奏
零样本语音克隆:无需事先微调即可克隆声音
情感和语调控制:可以使用简单的标签控制语音特征
低延迟:实时应用的延迟约为 200 毫秒,可减少到约 100 毫秒
多语言支持:提供英语和多语言模型

#TTS #Tool #GitHub #AI GitHub - canopyai/Orpheus-TTS: Towards Human-Sounding Speech
Dia - TTS 模型

https://github.com/nari-labs/dia

Dia 是一个 1.6B 参数的 TTS 模型,由Nari Labs创建。

可以直接从对话稿生成高度逼真的对话,并可以根据音频进行情感和语调控制。
可以产生笑声、咳嗽、清嗓子等声音。
提供了预训练模型检查点和推理代码,以加速研究。

目前仅支持英语生成

#AI #TTS #GitHub GitHub - nari-labs/dia: A TTS model capable of generating ultra-realistic dialogue in one pass.
在线 TTS

http://freelongtts.com

应该是用的微软 TTS,可读上文、可加载 EPUB 格式电子书

#TTS #URL
EasyVoice - 开源文本转语音工具,支持超长文本,多角色配音

https://easyvoice.ioplus.tech/

https://github.com/cosin2077/easyVoice

EasyVoice 是一个开源的文本、小说智能转语音解决方案,提供一键生成语音和字幕、AI 智能推荐配音、完全免费无限制等功能。
可以轻松将大段文本转为语音,并支持流式传输、多语言、自定义设置等高级功能。

- 文本转语音:一键将大段文本转为语音,高效又省时
- 流式传输:再多的文本,都可以迅速返回音频直接开始试听
- 多语言支持:支持中文、英文等多种语言
- 字幕支持:自动生成字幕文件,方便视频制作和字幕翻译
- 角色配音:提供多种声音选项,完美适配不同角色
- 自定义设置:可调整语速、音调等参数,打造专属语音风格
- AI 推荐:通过 AI 智能推荐最适合的语音配置
- 试听功能:生成前可试听效果,确保每一句都如你所愿

#AI #GitHub #Tool #TTS #Voice
TTSFM - 文本转语音(OpenAI 兼容)

https://github.com/dbccccccc/ttsfm

https://ttsapi.site/

一个完全兼容 OpenAI 文本转语音 (TTS) API 格式的 API 服务器。它提供了一个可以使用多种语音选项进行文本转语音转换的兼容接口。

提供与 OpenAI TTS API 格式完全兼容的接口
支持多种语音选项,包括 alloy、ash、ballad、coral、echo、fable、onyx、nova、sage、shimmer 和 verse
支持多种音频输出格式,包括 mp3、opus、aac、flac、wav 和 pcm
支持对语音进行调制,如指定以欢快的语气说话
提供队列管理功能,限制并发请求数量
提供 API 版本信息查询

https://linux.do/t/topic/513377

#TTS #GitHub #Tool GitHub - dbccccccc/ttsfm: TTSFM mirrors OpenAI's TTS service, providing a compatible interface for text-to-speech conversion with…
Ciallo TTS - 文本转语音工具

https://github.com/bestZwei/ciallo-tts

Ciallo TTS 是一款免费的在线文本转语音工具,支持多种声音选择,可调节语速和语调,提供即时试听和下载功能。

🎯 支持超过300种不同语言和口音的声音

🔊 实时预览和试听功能

支持长文本自动分段处理

🎛️ 可调节语速和语调

📱 响应式设计,支持移动端

💾 支持音频下载

📝 历史记录功能(最多保存50条)

https://tts.ciallo.de

----------------------

https://linux.do/t/topic/546900

#TTS #GitHub #Tool GitHub - LibreSpark/LibreTTS: TTS-文本转语音/文本转语音前端,兼容OpenAI、EdgeTTS等接口
实用 TTS 工具

1. 文本转语音 (TTS)

专业级在线文本转语音工具

🔗 https://www.text-to-speech.cn

2. 海豚AI

优质中文语音合成平台

🔗 https://www.ttson.cn

3. 免费文字转语音

支持多种语言的在线TTS工具

🔗 https://zh-cn.text-to-speech.online

4. TTSMAKER

专业的在线配音与文字转语音平台

🔗 https://ttsmaker.cn

5. D1工具箱TTS

简单易用的AI语音生成工具

🔗 https://d1tools.com/tools/ai-tts/

6. AivisSpeech

开源的AI声音模仿系统

🔗 https://github.com/Aivis-Project/AivisSpeech

7. Google AI对话生成器

支持生成男女对话式音频,适合英语学习

🔗 https://notebooklm.google.com/

8. Fish Audio

支持语音克隆的免费AI工具

🔗 https://fish.audio/zh-CN/

9. MeloTTS

MyShell开发的高质量多语言TTS工具

🔗 https://github.com/myshell-ai/MeloTTS

10. AudioNotes AI

专业的语音转文本工具

🔗 https://audionotes.ai/

#AI #Tool #TTS #GitHub
一个跨平台的文本转语音的桌面工具,免费使用

支持多个 TTS API

https://github.com/ElmTran/praises

#TTS #Tool #GitHub
MultiTTS 安卓离线语音

MultiTTS是一款安卓本地离线语音 App,体验不错

频道

https://t.me/MultiTTS_channel

中文群组

https://t.me/MultiTTS

可搭配 阅读App、搜书大师、静读天下等使用。

#Android #TTS #Tool
 
 
Back to Top
OKHK