✨ 碎片收藏 / 资讯文档 / 网站工具 / GitHub 项目 / Bing 壁纸
Hertziness 是一款纯前端的声音性别分析工具,通过浏览器本地运行机器学习模型,实时分析声音的性别特征。
https://voice.hertz.page/
https://github.com/hertzyang/hertziness
#AI #Voice #Tool
https://voice.hertz.page/
https://github.com/hertzyang/hertziness
#AI #Voice #Tool
LocalVocal - 开源 OBS 插件,本地实时语音识别 / 转录 / 翻译
https://github.com/royshil/obs-localvocal
LocalVocal 是一个开源的 OBS 插件,支持本地实时语音识别、转录和翻译功能。
基于 OpenAI 的 Whisper 模型,无需联网、无需 API。所有处理都在本地完成,保证隐私。
● 实时语音转文本转录(支持 100+ 语言)
● 实时字幕翻译(支持主流语言及多个云服务商)
● 屏幕字幕显示、文件保存(.txt/.srt 格式)
● RTMP 流字幕投送(YouTube、Twitch 等)
● 自定义 GGML Whisper 模型支持
● 字幕过滤和替换功能
● 流式字幕体验(部分转录)
● 多硬件平台优化支持(NVIDIA CUDA、AMD ROCm、Apple Metal 等)
#Video #Voice #AI #Tool #GitHub
https://github.com/royshil/obs-localvocal
LocalVocal 是一个开源的 OBS 插件,支持本地实时语音识别、转录和翻译功能。
基于 OpenAI 的 Whisper 模型,无需联网、无需 API。所有处理都在本地完成,保证隐私。
● 实时语音转文本转录(支持 100+ 语言)
● 实时字幕翻译(支持主流语言及多个云服务商)
● 屏幕字幕显示、文件保存(.txt/.srt 格式)
● RTMP 流字幕投送(YouTube、Twitch 等)
● 自定义 GGML Whisper 模型支持
● 字幕过滤和替换功能
● 流式字幕体验(部分转录)
● 多硬件平台优化支持(NVIDIA CUDA、AMD ROCm、Apple Metal 等)
#Video #Voice #AI #Tool #GitHub
Vibe Voice - 微软开源 AI 语音框架
https://github.com/microsoft/VibeVoice
VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。
● 长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
● 实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
● 超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
● 多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
● 风格化语音:提供 11 种不同的英文风格语音供用户选择
#TTS #Voice #AI #GitHub
https://github.com/microsoft/VibeVoice
VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。
● 长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
● 实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
● 超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
● 多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
● 风格化语音:提供 11 种不同的英文风格语音供用户选择
#TTS #Voice #AI #GitHub
FluidVoice - macOS 实时语音转文字工具
https://github.com/altic-dev/FluidVoice
FluidVoice 是一个 macOS 实时语音转文本应用,提供实时转录、AI 增强和多种语音识别模型支持。
项目默认使用本地 ASR 模型(如 Parakeet TDT),无需联网即可高效运行,保证隐私安全,同时还支持接入 OpenAI、Groq 或本地大模型以提升识别质量和文本润色效果
● 实时转录预览:在屏幕顶部居中进行实时转录预览
● 多种语音模型:支持 Parakeet TDT v3/v2、Apple Speech 和 Whisper
● 低延迟转录:极低的实时转录延迟
● AI 增强:支持 OpenAI、Groq 和自定义 AI 提供商
● 全局快捷键:即时语音捕获
● 命令模式:通过语音执行 Mac 操作
● 写入模式:在任何应用的文本框中进行智能输入
● 菜单栏集成:快速访问功能
● 自动更新:无缝重启更新
#Voice #AI #Tool #GitHub
https://github.com/altic-dev/FluidVoice
FluidVoice 是一个 macOS 实时语音转文本应用,提供实时转录、AI 增强和多种语音识别模型支持。
项目默认使用本地 ASR 模型(如 Parakeet TDT),无需联网即可高效运行,保证隐私安全,同时还支持接入 OpenAI、Groq 或本地大模型以提升识别质量和文本润色效果
● 实时转录预览:在屏幕顶部居中进行实时转录预览
● 多种语音模型:支持 Parakeet TDT v3/v2、Apple Speech 和 Whisper
● 低延迟转录:极低的实时转录延迟
● AI 增强:支持 OpenAI、Groq 和自定义 AI 提供商
● 全局快捷键:即时语音捕获
● 命令模式:通过语音执行 Mac 操作
● 写入模式:在任何应用的文本框中进行智能输入
● 菜单栏集成:快速访问功能
● 自动更新:无缝重启更新
#Voice #AI #Tool #GitHub
🎬 NAS-Subtitle-Manager - 自动化视频字幕提取与翻译的 NAS 管理工具
https://github.com/aexachao/nas-subtitle-manager
一个基于 Whisper + LLM 的智能字幕管理系统,自动扫描 NAS 媒体库,提取音轨生成字幕,并支持多语言翻译。适合家庭 NAS 环境的轻量级部署。
● 自动化流程 - 扫描媒体库 → 提取字幕 → AI 翻译,全程自动化
● 多语言支持 - Whisper 支持 99+ 语言识别,LLM 翻译支持中英日韩等主流语言
● 多 AI 提供商 - 支持 Ollama (本地)、DeepSeek、Gemini、OpenAI 等
● 一键部署 - Docker Compose 部署,无需复杂配置
● 任务队列 - 后台异步处理,实时进度监控
#Video #Voice #Tool #HomeLab #GitHub
https://github.com/aexachao/nas-subtitle-manager
一个基于 Whisper + LLM 的智能字幕管理系统,自动扫描 NAS 媒体库,提取音轨生成字幕,并支持多语言翻译。适合家庭 NAS 环境的轻量级部署。
● 自动化流程 - 扫描媒体库 → 提取字幕 → AI 翻译,全程自动化
● 多语言支持 - Whisper 支持 99+ 语言识别,LLM 翻译支持中英日韩等主流语言
● 多 AI 提供商 - 支持 Ollama (本地)、DeepSeek、Gemini、OpenAI 等
● 一键部署 - Docker Compose 部署,无需复杂配置
● 任务队列 - 后台异步处理,实时进度监控
#Video #Voice #Tool #HomeLab #GitHub
ten-framework - 创建对话式语音 AI Agent 的框架
https://github.com/TEN-framework/ten-framework
TEN 是一个面向语音对话 AI Agent 的开源框架。
#AI #Voice #Tool #GitHub
https://github.com/TEN-framework/ten-framework
TEN 是一个面向语音对话 AI Agent 的开源框架。
#AI #Voice #Tool #GitHub
蛐蛐 (QuQu) - 开源免费的 Wispr Flow 替代方案 | 为中文而生的下一代智能语音工作流
https://github.com/yan5xu/ququ
蛐蛐 (QuQu) 是 一个开源免费的 Wispr Flow 替代方案, 专为中文用户打造的注重隐私的桌面端语音输入与文本处理工具。
它集成了阿里巴巴开源的 FunASR 本地语音识别模型, 并支持配置国内顶尖的大语言模型, 提供高精度的中文语音转文字和智能文本优化功能。
● 完全免费开源, 数据本地处理, 保护用户隐私
● 专为中文优化, 支持国产 AI 模型如通义千问、Kimi 等
● 独创 "ASR 精准识别 + LLM 智能优化 " 的两段式引擎
● 能准确识别并格式化编程术语, 支持自定义 AI 指令
● 提供全局快捷键唤醒, 实时识别和无缝粘贴功能
#AI #Voice #Tool #GitHub
https://github.com/yan5xu/ququ
离线语音输入,无需会员,不连云端,保证隐私。
蛐蛐 (QuQu) 是 一个开源免费的 Wispr Flow 替代方案, 专为中文用户打造的注重隐私的桌面端语音输入与文本处理工具。
它集成了阿里巴巴开源的 FunASR 本地语音识别模型, 并支持配置国内顶尖的大语言模型, 提供高精度的中文语音转文字和智能文本优化功能。
● 完全免费开源, 数据本地处理, 保护用户隐私
● 专为中文优化, 支持国产 AI 模型如通义千问、Kimi 等
● 独创 "ASR 精准识别 + LLM 智能优化 " 的两段式引擎
● 能准确识别并格式化编程术语, 支持自定义 AI 指令
● 提供全局快捷键唤醒, 实时识别和无缝粘贴功能
#AI #Voice #Tool #GitHub
WhisperLiveKit - 本地语音转录工具(开源语音识别转文字)
https://github.com/QuentinFuxa/WhisperLiveKit
WhisperLiveKit 是一个开源的本地语音转录工具,集实时语音转文本、翻译和说话人分离于一体。 它使用了最新的语音识别和语音分离技术,可以提供低延迟和高准确度的转录结果,能用于会议实时记录和跨语言交流。
● 提供实时语音转文本功能,支持多达 100 种语言的翻译
● 支持实时说话人识别和分离
● 提供简单易用的前端和后端 API
● 支持在浏览器和 Chrome 扩展中使用
● 支持在 Docker 容器中部署
#Voice #AI #Tool #GitHub
https://github.com/QuentinFuxa/WhisperLiveKit
WhisperLiveKit 是一个开源的本地语音转录工具,集实时语音转文本、翻译和说话人分离于一体。 它使用了最新的语音识别和语音分离技术,可以提供低延迟和高准确度的转录结果,能用于会议实时记录和跨语言交流。
● 提供实时语音转文本功能,支持多达 100 种语言的翻译
● 支持实时说话人识别和分离
● 提供简单易用的前端和后端 API
● 支持在浏览器和 Chrome 扩展中使用
● 支持在 Docker 容器中部署
#Voice #AI #Tool #GitHub
Handy - 开源离线语音转文本应用
https://github.com/cjpais/Handy
Handy 是一款免费、开源且可扩展的离线语音转文本应用程序,无需将语音发送到云端就可以将语音直接转录为文本,保证隐私。
● 支持配置快捷键开始 / 停止录音,或使用推动式对话模式
● 支持使用 Whisper 模型或 Parakeet V3 模型进行语音转录
● 使用 Tauri (Rust + React/TypeScript) 构建,跨平台支持 Windows、macOS 和 Linux 平台
● 支持 GPU 加速的 Whisper 模型,以及 CPU 优化的 Parakeet V3 模型
● 支持自动语言检测
#Voice #AI #Tool #GitHub
https://github.com/cjpais/Handy
Handy 是一款免费、开源且可扩展的离线语音转文本应用程序,无需将语音发送到云端就可以将语音直接转录为文本,保证隐私。
● 支持配置快捷键开始 / 停止录音,或使用推动式对话模式
● 支持使用 Whisper 模型或 Parakeet V3 模型进行语音转录
● 使用 Tauri (Rust + React/TypeScript) 构建,跨平台支持 Windows、macOS 和 Linux 平台
● 支持 GPU 加速的 Whisper 模型,以及 CPU 优化的 Parakeet V3 模型
● 支持自动语言检测
#Voice #AI #Tool #GitHub
Abogen - 从 EPUB、PDF 等文本文件生成有同步字幕的有声书
https://github.com/denizsafak/abogen
● 支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
● 提供同步字幕功能,支持多种字幕样式
● 支持自定义语音配置,包括语速、语音选择和语音混合
● 支持批量处理,可以添加多个文件到队列中进行转换
● 支持自动检测章节并分别保存为独立音频文件
● 支持为 M4B 文件添加元数据标签
#TTS #Voice #AI #Tool #GitHub
https://github.com/denizsafak/abogen
Abogen 是一个基于 Kokoro-82M 的文本转语音工具,能够快速将 EPUB、PDF 或 Markdown 等文本文件转换为具有同步字幕的高质量音频,适用于制作有声读物,Instagram、YouTube、TikTok 等社交媒体的配音旁白,或其他任何需要自然语音的项目。● 支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
● 提供同步字幕功能,支持多种字幕样式
● 支持自定义语音配置,包括语速、语音选择和语音混合
● 支持批量处理,可以添加多个文件到队列中进行转换
● 支持自动检测章节并分别保存为独立音频文件
● 支持为 M4B 文件添加元数据标签
#TTS #Voice #AI #Tool #GitHub
edgetts-edgeone-pages - 部署在 EdgeOne Pages 上的 Edge TTS 服务
https://github.com/seventycheung/edgetts-edgeone-pages
一个部署在 EdgeOne Pages 上的高性能文本转语音( TTS )代理服务。
● OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口,可被官方的 OpenAI SDK 或任何现有工具直接调用
● 高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
● STREAMING: 支持流式和标准(非流式)两种响应模式,流式响应可极大降低长文本的首次播放延迟
● 智能文本清理: 内置强大的 " 文本清理流水线 ",可自动处理从 PDF 或网页复制的杂乱文本
● 灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
● 零依赖部署: 脚本完全自包含,无需配置 KV、队列等任何外部服务
● 便捷的测试工具: 提供一个功能丰富的 index.html,让用户无需编写任何代码即可测试所有功能
#TTS #Voice #Tool #GitHub
https://github.com/seventycheung/edgetts-edgeone-pages
一个部署在 EdgeOne Pages 上的高性能文本转语音( TTS )代理服务。
● OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口,可被官方的 OpenAI SDK 或任何现有工具直接调用
● 高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
● STREAMING: 支持流式和标准(非流式)两种响应模式,流式响应可极大降低长文本的首次播放延迟
● 智能文本清理: 内置强大的 " 文本清理流水线 ",可自动处理从 PDF 或网页复制的杂乱文本
● 灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
● 零依赖部署: 脚本完全自包含,无需配置 KV、队列等任何外部服务
● 便捷的测试工具: 提供一个功能丰富的 index.html,让用户无需编写任何代码即可测试所有功能
#TTS #Voice #Tool #GitHub
TTS-WebUI - 集成多款主流语音合成与音频生成模型的开源 Web 界面
https://github.com/rsxdalv/tts-webui
TTS-WebUI 是一个基于 Gradio 和 React 的文本到语音 (TTS) 和音频生成的 Web 界面。
● 支持多种 TTS 和音频生成模型, 包括 Bark、Tortoise、MusicGen 等
● 提供了丰富的扩展功能, 可以安装额外的模型和工具
● 提供了基于 Gradio 的后端和基于 React 的前端界面
● 兼容 OpenAI API,支持 Whisper 转录,方便与 Silly Tavern 等客户端集成,实现多场景文本、语音交互。
● 支持在 Docker 容器中运行
#TTS #Voice #Tool #GitHub
https://github.com/rsxdalv/tts-webui
TTS-WebUI 是一个基于 Gradio 和 React 的文本到语音 (TTS) 和音频生成的 Web 界面。
● 支持多种 TTS 和音频生成模型, 包括 Bark、Tortoise、MusicGen 等
● 提供了丰富的扩展功能, 可以安装额外的模型和工具
● 提供了基于 Gradio 的后端和基于 React 的前端界面
● 兼容 OpenAI API,支持 Whisper 转录,方便与 Silly Tavern 等客户端集成,实现多场景文本、语音交互。
● 支持在 Docker 容器中运行
#TTS #Voice #Tool #GitHub
AI-Video-Transcriber - AI 视频转录工具
https://github.com/wendy7756/AI-Video-Transcriber
一款开源的 AI 视频转录和摘要工具,支持 YouTube、Bilibili、抖音等 30+ 平台。
● 多平台支持:支持 YouTube、Bilibili、抖音等 30+ 平台。
● 智能转录:使用 Faster-Whisper 模型进行高精度语音转文字
● AI 文本优化:自动错别字修正、句子完整化和智能分段
● 多语言摘要:支持多种语言的智能摘要生成
● 条件式翻译:当所选总结语言与 Whisper 检测到的语言不一致时,自动调用 GPT‑4o 生成翻译
#Video #AI #Tool #GitHub #Voice
https://github.com/wendy7756/AI-Video-Transcriber
一款开源的 AI 视频转录和摘要工具,支持 YouTube、Bilibili、抖音等 30+ 平台。
● 多平台支持:支持 YouTube、Bilibili、抖音等 30+ 平台。
● 智能转录:使用 Faster-Whisper 模型进行高精度语音转文字
● AI 文本优化:自动错别字修正、句子完整化和智能分段
● 多语言摘要:支持多种语言的智能摘要生成
● 条件式翻译:当所选总结语言与 Whisper 检测到的语言不一致时,自动调用 GPT‑4o 生成翻译
#Video #AI #Tool #GitHub #Voice
LazyTyper - 基于 Whisper 的语音输入法
https://lazytyper.com/zh
macOS | Windows
LazyTyper 是一款基于 Whisper 的免费语音输入应用,拥有超高准确率和闪电般的速度。
● 极速转写:体验高达 250 倍的转写速度,无论是会议纪要还是灵感闪现,都能瞬间记录,大幅提升您的工作和学习效率。
● 精准识别:采用先进的 Whisper 模型,准确率高达 90%,远超系统自带工具。无缝支持中、英、日等多语言混合输入,沟通再无障碍。
● 小巧免费:应用体积小巧,不占用系统资源,且完全免费使用。我们相信,强大的生产力工具应该触手可及,没有任何负担。
#Voice #Tool #AI
https://lazytyper.com/zh
macOS | Windows
LazyTyper 是一款基于 Whisper 的免费语音输入应用,拥有超高准确率和闪电般的速度。
● 极速转写:体验高达 250 倍的转写速度,无论是会议纪要还是灵感闪现,都能瞬间记录,大幅提升您的工作和学习效率。
● 精准识别:采用先进的 Whisper 模型,准确率高达 90%,远超系统自带工具。无缝支持中、英、日等多语言混合输入,沟通再无障碍。
● 小巧免费:应用体积小巧,不占用系统资源,且完全免费使用。我们相信,强大的生产力工具应该触手可及,没有任何负担。
#Voice #Tool #AI
Audiblez - 电子书转换生成有声书
https://github.com/santinic/audiblez
Audiblez 是一款可以将电子书(.epub)转换生成有声书(.m4b)的工具。
它使用 Kokoro-82M 这个高质量的文本到语音合成模型,支持多种语言,包括英语、西班牙语、法语、意大利语、日语、葡萄牙语和中文等。
● 从 .epub 电子书生成 .m4b 有声书
● 支持多种语言的高质量语音合成
● 提供命令行工具和图形化界面
● 支持在 CPU 和 GPU(CUDA)上运行
#Voice #Tool #GitHub
https://github.com/santinic/audiblez
Audiblez 是一款可以将电子书(.epub)转换生成有声书(.m4b)的工具。
它使用 Kokoro-82M 这个高质量的文本到语音合成模型,支持多种语言,包括英语、西班牙语、法语、意大利语、日语、葡萄牙语和中文等。
● 从 .epub 电子书生成 .m4b 有声书
● 支持多种语言的高质量语音合成
● 提供命令行工具和图形化界面
● 支持在 CPU 和 GPU(CUDA)上运行
#Voice #Tool #GitHub
Klic Studio - 音视频处理工具(翻译 / 配音 )
https://github.com/krillinai/KlicStudio
多平台发布 / 搬运视频好帮手
Klic Studio 是由 Krillin AI 开发的多功能音视频本地化和增强解决方案。
集成了视频翻译、配音和语音克隆,支持横屏和竖屏格式,确保在所有主要平台(Bilibili、小红书、抖音、微信视频、快手、YouTube、TikTok 等)上完美呈现。
通过端到端的工作流程,您只需几次点击即可将原材料转化为精美的跨平台内容。
● 视频获取:支持 yt-dlp 下载或本地文件上传
● 准确识别:基于 Whisper 的高精度语音识别
● 智能分段:使用 LLM 进行字幕分段和对齐
● 术语替换:一键替换专业词汇
● 专业翻译:基于上下文的 LLM 翻译,保持自然语义
● 语音克隆:提供 CosyVoice 中选择的语音音调或自定义语音克隆
● 视频合成:自动处理横屏和竖屏视频及字幕布局
● 跨平台:支持 Windows、Linux、macOS,提供桌面和服务器版本
#Video #Voice #Tool #GitHub
https://github.com/krillinai/KlicStudio
多平台发布 / 搬运视频好帮手
Klic Studio 是由 Krillin AI 开发的多功能音视频本地化和增强解决方案。
集成了视频翻译、配音和语音克隆,支持横屏和竖屏格式,确保在所有主要平台(Bilibili、小红书、抖音、微信视频、快手、YouTube、TikTok 等)上完美呈现。
通过端到端的工作流程,您只需几次点击即可将原材料转化为精美的跨平台内容。
● 视频获取:支持 yt-dlp 下载或本地文件上传
● 准确识别:基于 Whisper 的高精度语音识别
● 智能分段:使用 LLM 进行字幕分段和对齐
● 术语替换:一键替换专业词汇
● 专业翻译:基于上下文的 LLM 翻译,保持自然语义
● 语音克隆:提供 CosyVoice 中选择的语音音调或自定义语音克隆
● 视频合成:自动处理横屏和竖屏视频及字幕布局
● 跨平台:支持 Windows、Linux、macOS,提供桌面和服务器版本
#Video #Voice #Tool #GitHub
https://github.com/wangwangit/tts
一个基于 Microsoft Edge TTS 的免费在线语音合成服务,可自行部署在 Cloudflare Worker 上
#TTS #Voice #GitHub #Cloudflare
一个基于 Microsoft Edge TTS 的免费在线语音合成服务,可自行部署在 Cloudflare Worker 上
#TTS #Voice #GitHub #Cloudflare