碎片收藏 / 资讯文档 / 网站工具 / GitHub 项目 / Bing 壁纸
LocalVocal - 开源 OBS 插件,本地实时语音识别 / 转录 / 翻译

https://github.com/royshil/obs-localvocal

LocalVocal 是一个开源的 OBS 插件,支持本地实时语音识别、转录和翻译功能。

基于 OpenAI 的 Whisper 模型,无需联网、无需 API。所有处理都在本地完成,保证隐私。

实时语音转文本转录(支持 100+ 语言)
实时字幕翻译(支持主流语言及多个云服务商)
屏幕字幕显示、文件保存(.txt/.srt 格式)
RTMP 流字幕投送(YouTube、Twitch 等)
自定义 GGML Whisper 模型支持
字幕过滤和替换功能
流式字幕体验(部分转录)
多硬件平台优化支持(NVIDIA CUDA、AMD ROCm、Apple Metal 等)

#Video #Voice #AI #Tool #GitHub GitHub - royshil/obs-localvocal: OBS plugin for local speech recognition and captioning using AI
Vibe Voice - 微软开源 AI 语音框架

https://github.com/microsoft/VibeVoice

VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。

长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
风格化语音:提供 11 种不同的英文风格语音供用户选择

#TTS #Voice #AI #GitHub GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI
FluidVoice - macOS 实时语音转文字工具

https://github.com/altic-dev/FluidVoice

FluidVoice 是一个 macOS 实时语音转文本应用,提供实时转录、AI 增强和多种语音识别模型支持。

项目默认使用本地 ASR 模型(如 Parakeet TDT),无需联网即可高效运行,保证隐私安全,同时还支持接入 OpenAI、Groq 或本地大模型以提升识别质量和文本润色效果

实时转录预览:在屏幕顶部居中进行实时转录预览
多种语音模型:支持 Parakeet TDT v3/v2、Apple Speech 和 Whisper
低延迟转录:极低的实时转录延迟
AI 增强:支持 OpenAI、Groq 和自定义 AI 提供商
全局快捷键:即时语音捕获
命令模式:通过语音执行 Mac 操作
写入模式:在任何应用的文本框中进行智能输入
菜单栏集成:快速访问功能
自动更新:无缝重启更新

#Voice #AI #Tool #GitHub GitHub - altic-dev/FluidVoice: FluidVoice - Fastest macOS Offline Dictation app - Voice to Text fully Local. One ⭐ takes us a long…
🎬 NAS-Subtitle-Manager - 自动化视频字幕提取与翻译的 NAS 管理工具

https://github.com/aexachao/nas-subtitle-manager

一个基于 Whisper + LLM 的智能字幕管理系统,自动扫描 NAS 媒体库,提取音轨生成字幕,并支持多语言翻译。适合家庭 NAS 环境的轻量级部署。

自动化流程 - 扫描媒体库 → 提取字幕 → AI 翻译,全程自动化
多语言支持 - Whisper 支持 99+ 语言识别,LLM 翻译支持中英日韩等主流语言
多 AI 提供商 - 支持 Ollama (本地)、DeepSeek、Gemini、OpenAI 等
一键部署 - Docker Compose 部署,无需复杂配置
任务队列 - 后台异步处理,实时进度监控

#Video #Voice #Tool #HomeLab #GitHub
蛐蛐 (QuQu) - 开源免费的 Wispr Flow 替代方案 | 为中文而生的下一代智能语音工作流

https://github.com/yan5xu/ququ

离线语音输入,无需会员,不连云端,保证隐私。


蛐蛐 (QuQu) 是 一个开源免费的 Wispr Flow 替代方案, 专为中文用户打造的注重隐私的桌面端语音输入与文本处理工具。

它集成了阿里巴巴开源的 FunASR 本地语音识别模型, 并支持配置国内顶尖的大语言模型, 提供高精度的中文语音转文字和智能文本优化功能。

完全免费开源, 数据本地处理, 保护用户隐私
专为中文优化, 支持国产 AI 模型如通义千问、Kimi 等
独创 "ASR 精准识别 + LLM 智能优化 " 的两段式引擎
能准确识别并格式化编程术语, 支持自定义 AI 指令
提供全局快捷键唤醒, 实时识别和无缝粘贴功能

#AI #Voice #Tool #GitHub GitHub - yan5xu/ququ: 开源免费的 Wispr Flow 替代方案 | 集成FunASR本地模型和可配置大语言模型的下一代中文桌面语音工作流
WhisperLiveKit - 本地语音转录工具(开源语音识别转文字)

https://github.com/QuentinFuxa/WhisperLiveKit

WhisperLiveKit 是一个开源的本地语音转录工具,集实时语音转文本、翻译和说话人分离于一体。 它使用了最新的语音识别和语音分离技术,可以提供低延迟和高准确度的转录结果,能用于会议实时记录和跨语言交流。

提供实时语音转文本功能,支持多达 100 种语言的翻译
支持实时说话人识别和分离
提供简单易用的前端和后端 API
支持在浏览器和 Chrome 扩展中使用
支持在 Docker 容器中部署

#Voice #AI #Tool #GitHub GitHub - QuentinFuxa/WhisperLiveKit: Simultaneous speech-to-text model
Handy - 开源离线语音转文本应用

https://github.com/cjpais/Handy

Handy 是一款免费、开源且可扩展的离线语音转文本应用程序,无需将语音发送到云端就可以将语音直接转录为文本,保证隐私。

支持配置快捷键开始 / 停止录音,或使用推动式对话模式
支持使用 Whisper 模型或 Parakeet V3 模型进行语音转录
使用 Tauri (Rust + React/TypeScript) 构建,跨平台支持 Windows、macOS 和 Linux 平台
支持 GPU 加速的 Whisper 模型,以及 CPU 优化的 Parakeet V3 模型
支持自动语言检测

#Voice #AI #Tool #GitHub GitHub - cjpais/Handy: A free, open source, and extensible speech-to-text application that works completely offline.
Abogen - 从 EPUB、PDF 等文本文件生成有同步字幕的有声书

https://github.com/denizsafak/abogen

Abogen 是一个基于 Kokoro-82M 的文本转语音工具,能够快速将 EPUB、PDF 或 Markdown 等文本文件转换为具有同步字幕的高质量音频,适用于制作有声读物,Instagram、YouTube、TikTok 等社交媒体的配音旁白,或其他任何需要自然语音的项目。

支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
提供同步字幕功能,支持多种字幕样式
支持自定义语音配置,包括语速、语音选择和语音混合
支持批量处理,可以添加多个文件到队列中进行转换
支持自动检测章节并分别保存为独立音频文件
支持为 M4B 文件添加元数据标签

#TTS #Voice #AI #Tool #GitHub GitHub - denizsafak/abogen: Generate audiobooks from EPUBs, PDFs and text with synchronized captions.
edgetts-edgeone-pages - 部署在 EdgeOne Pages 上的 Edge TTS 服务

https://github.com/seventycheung/edgetts-edgeone-pages

一个部署在 EdgeOne Pages 上的高性能文本转语音( TTS )代理服务。

OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口,可被官方的 OpenAI SDK 或任何现有工具直接调用
高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
STREAMING: 支持流式和标准(非流式)两种响应模式,流式响应可极大降低长文本的首次播放延迟
智能文本清理: 内置强大的 " 文本清理流水线 ",可自动处理从 PDF 或网页复制的杂乱文本
灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
零依赖部署: 脚本完全自包含,无需配置 KV、队列等任何外部服务
便捷的测试工具: 提供一个功能丰富的 index.html,让用户无需编写任何代码即可测试所有功能

#TTS #Voice #Tool #GitHub GitHub - seventycheung/edgetts-edgeone-pages: 这是一个部署在 EdgeOne Pages 上的高性能文本转语音(TTS)代理服务。它巧妙地将微软 Edge 强大且自然的语音合成服务,封装成了一个兼容 OpenAI…
TTS-WebUI - 集成多款主流语音合成与音频生成模型的开源 Web 界面

https://github.com/rsxdalv/tts-webui

TTS-WebUI 是一个基于 Gradio 和 React 的文本到语音 (TTS) 和音频生成的 Web 界面。

支持多种 TTS 和音频生成模型, 包括 Bark、Tortoise、MusicGen 等
提供了丰富的扩展功能, 可以安装额外的模型和工具
提供了基于 Gradio 的后端和基于 React 的前端界面
兼容 OpenAI API,支持 Whisper 转录,方便与 Silly Tavern 等客户端集成,实现多场景文本、语音交互。
支持在 Docker 容器中运行

#TTS #Voice #Tool #GitHub GitHub - rsxdalv/TTS-WebUI: A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice…
AI-Video-Transcriber - AI 视频转录工具

https://github.com/wendy7756/AI-Video-Transcriber

一款开源的 AI 视频转录和摘要工具,支持 YouTube、Bilibili、抖音等 30+ 平台。

多平台支持:支持 YouTube、Bilibili、抖音等 30+ 平台。
智能转录:使用 Faster-Whisper 模型进行高精度语音转文字
AI 文本优化:自动错别字修正、句子完整化和智能分段
多语言摘要:支持多种语言的智能摘要生成
条件式翻译:当所选总结语言与 Whisper 检测到的语言不一致时,自动调用 GPT‑4o 生成翻译

#Video #AI #Tool #GitHub #Voice GitHub - wendy7756/AI-Video-Transcriber: Transcribe and summarize video content using AI. Open-source, multi-platform, and supports…
LazyTyper - 基于 Whisper 的语音输入法

https://lazytyper.com/zh

macOS | Windows

LazyTyper 是一款基于 Whisper 的免费语音输入应用,拥有超高准确率和闪电般的速度。

极速转写:体验高达 250 倍的转写速度,无论是会议纪要还是灵感闪现,都能瞬间记录,大幅提升您的工作和学习效率。
精准识别:采用先进的 Whisper 模型,准确率高达 90%,远超系统自带工具。无缝支持中、英、日等多语言混合输入,沟通再无障碍。
小巧免费:应用体积小巧,不占用系统资源,且完全免费使用。我们相信,强大的生产力工具应该触手可及,没有任何负担。

#Voice #Tool #AI LazyTyper官网 - 免费精准的Whisper语音输入,支持中英日韩等多语言混输
Audiblez - 电子书转换生成有声书

https://github.com/santinic/audiblez

Audiblez 是一款可以将电子书(.epub)转换生成有声书(.m4b)的工具。

它使用 Kokoro-82M 这个高质量的文本到语音合成模型,支持多种语言,包括英语、西班牙语、法语、意大利语、日语、葡萄牙语和中文等。

从 .epub 电子书生成 .m4b 有声书
支持多种语言的高质量语音合成
提供命令行工具和图形化界面
支持在 CPU 和 GPU(CUDA)上运行

#Voice #Tool #GitHub GitHub - santinic/audiblez: Generate audiobooks from e-books
Klic Studio - 音视频处理工具(翻译 / 配音 )

https://github.com/krillinai/KlicStudio

多平台发布 / 搬运视频好帮手

Klic Studio 是由 Krillin AI 开发的多功能音视频本地化和增强解决方案。

集成了视频翻译、配音和语音克隆,支持横屏和竖屏格式,确保在所有主要平台(Bilibili、小红书、抖音、微信视频、快手、YouTube、TikTok 等)上完美呈现。

通过端到端的工作流程,您只需几次点击即可将原材料转化为精美的跨平台内容。

视频获取:支持 yt-dlp 下载或本地文件上传
准确识别:基于 Whisper 的高精度语音识别
智能分段:使用 LLM 进行字幕分段和对齐
术语替换:一键替换专业词汇
专业翻译:基于上下文的 LLM 翻译,保持自然语义
语音克隆:提供 CosyVoice 中选择的语音音调或自定义语音克隆
视频合成:自动处理横屏和竖屏视频及字幕布局
跨平台:支持 Windows、Linux、macOS,提供桌面和服务器版本

#Video #Voice #Tool #GitHub GitHub - krillinai/KrillinAI: Video translation and dubbing tool powered by LLMs. The video translator offers 100 language translations…
 
 
Back to Top
OKHK