Skip to main content

Search: #TTS

Thinking...
❤️ PM:https://t.me/iokhk?direct
  1. Vibe Voice - 微软开源 AI 语音框架

    https://github.com/microsoft/VibeVoice

    VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。

    长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
    实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
    超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
    多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
    风格化语音:提供 11 种不同的英文风格语音供用户选择

    #TTS #Voice #AI #GitHub GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI
  2. Abogen - 从 EPUB、PDF 等文本文件生成有同步字幕的有声书

    https://github.com/denizsafak/abogen

    Abogen 是一个基于 Kokoro-82M 的文本转语音工具,能够快速将 EPUB、PDF 或 Markdown 等文本文件转换为具有同步字幕的高质量音频,适用于制作有声读物,Instagram、YouTube、TikTok 等社交媒体的配音旁白,或其他任何需要自然语音的项目。

    支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
    提供同步字幕功能,支持多种字幕样式
    支持自定义语音配置,包括语速、语音选择和语音混合
    支持批量处理,可以添加多个文件到队列中进行转换
    支持自动检测章节并分别保存为独立音频文件
    支持为 M4B 文件添加元数据标签

    #TTS #Voice #AI #Tool #GitHub GitHub - denizsafak/abogen: Generate audiobooks from EPUBs, PDFs and text with synchronized captions.
  3. edgetts-edgeone-pages - 部署在 EdgeOne Pages 上的 Edge TTS 服务

    https://github.com/seventycheung/edgetts-edgeone-pages

    一个部署在 EdgeOne Pages 上的高性能文本转语音( TTS )代理服务。

    OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口,可被官方的 OpenAI SDK 或任何现有工具直接调用
    高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
    STREAMING: 支持流式和标准(非流式)两种响应模式,流式响应可极大降低长文本的首次播放延迟
    智能文本清理: 内置强大的 " 文本清理流水线 ",可自动处理从 PDF 或网页复制的杂乱文本
    灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
    零依赖部署: 脚本完全自包含,无需配置 KV、队列等任何外部服务
    便捷的测试工具: 提供一个功能丰富的 index.html,让用户无需编写任何代码即可测试所有功能

    #TTS #Voice #Tool #GitHub GitHub - seventycheung/edgetts-edgeone-pages: 这是一个部署在 EdgeOne Pages 上的高性能文本转语音(TTS)代理服务。它巧妙地将微软 Edge 强大且自然的语音合成服务,封装成了一个兼容 OpenAI…
  4. TTS-WebUI - 集成多款主流语音合成与音频生成模型的开源 Web 界面

    https://github.com/rsxdalv/tts-webui

    TTS-WebUI 是一个基于 Gradio 和 React 的文本到语音 (TTS) 和音频生成的 Web 界面。

    支持多种 TTS 和音频生成模型, 包括 Bark、Tortoise、MusicGen 等
    提供了丰富的扩展功能, 可以安装额外的模型和工具
    提供了基于 Gradio 的后端和基于 React 的前端界面
    兼容 OpenAI API,支持 Whisper 转录,方便与 Silly Tavern 等客户端集成,实现多场景文本、语音交互。
    支持在 Docker 容器中运行

    #TTS #Voice #Tool #GitHub GitHub - rsxdalv/TTS-WebUI: A single Gradio + React WebUI with extensions for ACE-Step, OmniVoice, Kimi Audio, Piper TTS, GPT-SoVITS…
  5. KittenTTS - 开源轻量级 TTS

    https://github.com/KittenML/KittenTTS

    KittenTTS 是一个开源的高质量文本转语音模型,仅 1500 万参数,专为轻量级部署和高质量语音合成而设计。

    超轻量级:模型大小小于 25MB
    针对 CPU 优化:无需 GPU 即可在任何设备上运行
    高质量语音:提供多种优质语音选择
    快速推理:针对实时语音合成进行了优化

    #TTS #AI #Tool #GitHub GitHub - KittenML/KittenTTS: State-of-the-art TTS model under 25MB 😻
  6. open-edge-tts - 本地部署兼容 OpenAI API 的 Edge-TTS

    https://github.com/travisvn/openai-edge-tts

    项目使用 edge-tts,提供一个本地的、兼容 OpenAI 的文本转语音 (TTS) API,使用户能够使用各种语音选项和播放速度从文本生成语音,就像用 OpenAI API 一样。

    提供兼容 OpenAI 的端点:/v1/audio/speech,具有类似的请求结构和行为
    支持 SSE 流式传输:通过服务器发送事件 (Server-Sent Events) 进行实时音频流传输
    支持多种语音:将 OpenAI 语音 (alloy、echo、fable、onyx、nova、shimmer) 映射到 edge-tts 等价物
    支持多种音频格式:mp3、opus、aac、flac、wav、pcm
    支持调整播放速度:0.25 倍到 4 倍
    支持直接选择 edge-tts 语音:可以使用 OpenAI 语音映射,也可以直接指定任何 edge-tts 语音

    #TTS #Voice #Tool #GitHub GitHub - travisvn/openai-edge-tts: Free, high-quality text-to-speech API endpoint to replace OpenAI, Azure, or ElevenLabs
  7. MiniMax Speech-02 语音模型

    项目地址:

    https://minimax-ai.github.io/tts_tech_report

    体验地址:

    内地: https://www.minimaxi.com/audio

    海外: https://www.minimax.io/audio

    全球第一个真正实现多样化、个性化定义的语音模型。

    除了常用的语音克隆及TTS外,还可以实现通过对音色的文字描述生成对应音色(C端暂未上线),在同一段语音中,也可实现跨语言的高质量语音合成。

    #TTS #AI #Voice #Tool #URL link
  8. Kokoro - 轻量级 TTS

    https://github.com/remsky/Kokoro-FastAPI

    Kokoro-FastAPI 是一个基于 FastAPI 的 Docker 化的文本到语音转换 (TTS) 应用程序。

    它使用了 Kokoro-82M 模型,支持多种语言,包括英语、日语、韩语和中文。

    提供 OpenAI 兼容的语音 API 端点
    支持多种语言,包括英语、日语、韩语和中文
    支持 NVIDIA GPU 加速或 CPU 推理
    提供调试端点和集成的 Web UI
    支持语音混合、逐字时间戳字幕生成和音素生成

    ----------------------

    https://github.com/hexgrad/kokoro

    Kokoro是一款轻量级、高性能的文本转语音(TTS)模型,由 hexgrad 团队开发并开源。其参数规模仅为 8200 万,却在语音合成领域表现出色,支持多种语言和音色,生成语音自然流畅,音质接近真人。

    #GitHub #TTS #Tool #AI GitHub - remsky/Kokoro-FastAPI: Dockerized FastAPI wrapper for Kokoro-82M text-to-speech model w/CPU ONNX and NVIDIA GPU PyTorch…
  9. Orpheus TTS - 开源文本转语音系统

    https://github.com/canopyai/Orpheus-TTS

    Orpheus-TTS 是一个基于 Llama-3b 的开源文本到语音系统,提供了出色的语音合成能力,包括自然语调、情感和节奏。

    它还支持零样本语音克隆和情感/语调控制等功能。

    自然语音合成:提供出色的语音质量,包括自然语调、情感和节奏
    零样本语音克隆:无需事先微调即可克隆声音
    情感和语调控制:可以使用简单的标签控制语音特征
    低延迟:实时应用的延迟约为 200 毫秒,可减少到约 100 毫秒
    多语言支持:提供英语和多语言模型

    #TTS #Tool #GitHub #AI GitHub - canopyai/Orpheus-TTS: Towards Human-Sounding Speech
  10. Dia - TTS 模型

    https://github.com/nari-labs/dia

    Dia 是一个 1.6B 参数的 TTS 模型,由Nari Labs创建。

    可以直接从对话稿生成高度逼真的对话,并可以根据音频进行情感和语调控制。
    可以产生笑声、咳嗽、清嗓子等声音。
    提供了预训练模型检查点和推理代码,以加速研究。

    目前仅支持英语生成

    #AI #TTS #GitHub GitHub - nari-labs/dia: A TTS model capable of generating ultra-realistic dialogue in one pass.
  11. EasyVoice - 开源文本转语音工具,支持超长文本,多角色配音

    https://easyvoice.ioplus.tech/

    https://github.com/cosin2077/easyVoice

    EasyVoice 是一个开源的文本、小说智能转语音解决方案,提供一键生成语音和字幕、AI 智能推荐配音、完全免费无限制等功能。
    可以轻松将大段文本转为语音,并支持流式传输、多语言、自定义设置等高级功能。

    - 文本转语音:一键将大段文本转为语音,高效又省时
    - 流式传输:再多的文本,都可以迅速返回音频直接开始试听
    - 多语言支持:支持中文、英文等多种语言
    - 字幕支持:自动生成字幕文件,方便视频制作和字幕翻译
    - 角色配音:提供多种声音选项,完美适配不同角色
    - 自定义设置:可调整语速、音调等参数,打造专属语音风格
    - AI 推荐:通过 AI 智能推荐最适合的语音配置
    - 试听功能:生成前可试听效果,确保每一句都如你所愿

    #AI #GitHub #Tool #TTS #Voice
  12. TTSFM - 文本转语音(OpenAI 兼容)

    https://github.com/dbccccccc/ttsfm

    https://ttsapi.site/

    一个完全兼容 OpenAI 文本转语音 (TTS) API 格式的 API 服务器。它提供了一个可以使用多种语音选项进行文本转语音转换的兼容接口。

    提供与 OpenAI TTS API 格式完全兼容的接口
    支持多种语音选项,包括 alloy、ash、ballad、coral、echo、fable、onyx、nova、sage、shimmer 和 verse
    支持多种音频输出格式,包括 mp3、opus、aac、flac、wav 和 pcm
    支持对语音进行调制,如指定以欢快的语气说话
    提供队列管理功能,限制并发请求数量
    提供 API 版本信息查询

    https://linux.do/t/topic/513377

    #TTS #GitHub #Tool
  13. Ciallo TTS - 文本转语音工具

    https://github.com/bestZwei/ciallo-tts

    Ciallo TTS 是一款免费的在线文本转语音工具,支持多种声音选择,可调节语速和语调,提供即时试听和下载功能。

    🎯 支持超过300种不同语言和口音的声音

    🔊 实时预览和试听功能

    支持长文本自动分段处理

    🎛️ 可调节语速和语调

    📱 响应式设计,支持移动端

    💾 支持音频下载

    📝 历史记录功能(最多保存50条)

    https://tts.ciallo.de

    ----------------------

    https://linux.do/t/topic/546900

    #TTS #GitHub #Tool GitHub - LibreSpark/LibreTTS: TTS-文本转语音/文本转语音前端,兼容OpenAI、EdgeTTS等接口
  14. 实用 TTS 工具

    1. 文本转语音 (TTS)

    专业级在线文本转语音工具

    🔗 https://www.text-to-speech.cn

    2. 海豚AI

    优质中文语音合成平台

    🔗 https://www.ttson.cn

    3. 免费文字转语音

    支持多种语言的在线TTS工具

    🔗 https://zh-cn.text-to-speech.online

    4. TTSMAKER

    专业的在线配音与文字转语音平台

    🔗 https://ttsmaker.cn

    5. D1工具箱TTS

    简单易用的AI语音生成工具

    🔗 https://d1tools.com/tools/ai-tts/

    6. AivisSpeech

    开源的AI声音模仿系统

    🔗 https://github.com/Aivis-Project/AivisSpeech

    7. Google AI对话生成器

    支持生成男女对话式音频,适合英语学习

    🔗 https://notebooklm.google.com/

    8. Fish Audio

    支持语音克隆的免费AI工具

    🔗 https://fish.audio/zh-CN/

    9. MeloTTS

    MyShell开发的高质量多语言TTS工具

    🔗 https://github.com/myshell-ai/MeloTTS

    10. AudioNotes AI

    专业的语音转文本工具

    🔗 https://audionotes.ai/

    #AI #Tool #TTS #GitHub
OKHK