OKHK 🐟

OKHK 🐟

Spokenly - macOS 语音转文本应用 https://apps.apple.com/us/app/spokenly-whisper-dictation-ai/id6740315592 Spokenly 是一款高效的语音转文字工具，专为简化文本输入而设计。它能在电脑上的任何应用或文本框中实时将语音转换为文字，通过语音输入替代键盘敲击，Spokenly 让文本创作更流畅，帮助用户更专注地思考和完成任务。 ● 快速快捷键：自定义快捷键一键启动 / 停止听写。 ● 实时转录：自然语速输入，文字即时显示。…

语音输入 https://www.typeless.com/ #Voice #AI

Typeless.com

Typeless | AI Voice Dictation That's Actually Intelligent

Speak naturally, and Typeless will turn your words into polished messages, emails, and documents that read like you carefully typed them.

Voice AI

18:47 · 2026年1月9日 · 周五

LocalVocal - 开源 OBS 插件，本地实时语音识别 / 转录 / 翻译

https://github.com/royshil/obs-localvocal

LocalVocal 是一个开源的 OBS 插件，支持本地实时语音识别、转录和翻译功能。

基于 OpenAI 的 Whisper 模型，无需联网、无需 API。所有处理都在本地完成，保证隐私。

● 实时语音转文本转录（支持 100+ 语言）
● 实时字幕翻译（支持主流语言及多个云服务商）
● 屏幕字幕显示、文件保存（.txt/.srt 格式）
● RTMP 流字幕投送（YouTube、Twitch 等）
● 自定义 GGML Whisper 模型支持
● 字幕过滤和替换功能
● 流式字幕体验（部分转录）
● 多硬件平台优化支持（NVIDIA CUDA、AMD ROCm、Apple Metal 等）

#Video #Voice #AI #Tool #GitHub

GitHub

GitHub - royshil/obs-localvocal: OBS plugin for local speech recognition and captioning using AI

OBS plugin for local speech recognition and captioning using AI - royshil/obs-localvocal

Video Voice AI Tool GitHub

16:10 · 2026年1月8日 · 周四

Vibe Voice - 微软开源 AI 语音框架

https://github.com/microsoft/VibeVoice

VibeVoice 是微软开源的 AI 语音框架，用于从文本生成富有表现力的长篇多说话人对话音频（如播客），通过 LLM 理解文本上下文和对话流，生成高保真音频。

● 长篇多说话人模型：支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
● 实时流式 TTS 模型：初始音频延迟约 300 毫秒，支持流式文本输入的实时语音生成
● 超低帧率语音分词器：以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
● 多语言支持：支持英文、中文以及实验性支持 9 种语言（德、法、意、日、韩、荷、波、葡、西班牙语）
● 风格化语音：提供 11 种不同的英文风格语音供用户选择

#TTS #Voice #AI #GitHub

GitHub

GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI

Open-Source Frontier Voice AI. Contribute to microsoft/VibeVoice development by creating an account on GitHub.

TTS Voice AI GitHub

15:26 · 2025年12月29日 · 周一

FluidVoice - macOS 实时语音转文字工具

https://github.com/altic-dev/FluidVoice

FluidVoice 是一个 macOS 实时语音转文本应用，提供实时转录、AI 增强和多种语音识别模型支持。

项目默认使用本地 ASR 模型（如 Parakeet TDT），无需联网即可高效运行，保证隐私安全，同时还支持接入 OpenAI、Groq 或本地大模型以提升识别质量和文本润色效果

● 实时转录预览：在屏幕顶部居中进行实时转录预览
● 多种语音模型：支持 Parakeet TDT v3/v2、Apple Speech 和 Whisper
● 低延迟转录：极低的实时转录延迟
● AI 增强：支持 OpenAI、Groq 和自定义 AI 提供商
● 全局快捷键：即时语音捕获
● 命令模式：通过语音执行 Mac 操作
● 写入模式：在任何应用的文本框中进行智能输入
● 菜单栏集成：快速访问功能
● 自动更新：无缝重启更新

#Voice #AI #Tool #GitHub

GitHub

GitHub - altic-dev/FluidVoice: FluidVoice - Fastest macOS Offline Dictation app - Voice to Text fully Local. One ⭐ takes us a long…

FluidVoice - Fastest macOS Offline Dictation app - Voice to Text fully Local. One ⭐ takes us a long way :)) - altic-dev/FluidVoice

Voice AI Tool GitHub

16:43 · 2025年12月21日 · 周日

🎬 NAS-Subtitle-Manager - 自动化视频字幕提取与翻译的 NAS 管理工具

https://github.com/aexachao/nas-subtitle-manager

一个基于 Whisper + LLM 的智能字幕管理系统，自动扫描 NAS 媒体库，提取音轨生成字幕，并支持多语言翻译。适合家庭 NAS 环境的轻量级部署。

● 自动化流程 - 扫描媒体库 → 提取字幕 → AI 翻译，全程自动化
● 多语言支持 - Whisper 支持 99+ 语言识别，LLM 翻译支持中英日韩等主流语言
● 多 AI 提供商 - 支持 Ollama (本地)、DeepSeek、Gemini、OpenAI 等
● 一键部署 - Docker Compose 部署，无需复杂配置
● 任务队列 - 后台异步处理，实时进度监控

#Video #Voice #Tool #HomeLab #GitHub

Video Voice Tool HomeLab GitHub

20:10 · 2025年12月11日 · 周四

ten-framework - 创建对话式语音 AI Agent 的框架

https://github.com/TEN-framework/ten-framework

TEN 是一个面向语音对话 AI Agent 的开源框架。

#AI #Voice #Tool #GitHub

GitHub

GitHub - TEN-framework/ten-framework: Open-source framework for conversational voice AI agents

Open-source framework for conversational voice AI agents - TEN-framework/ten-framework

AI Voice Tool GitHub

15:32 · 2025年11月2日 · 周日

OKHK 🐟

VoiceInk - macOS 语音转文本应用 https://github.com/beingpax/VoiceInk https://tryvoiceink.com/ VoiceInk 是一款适用于 macOS 的语音转文本应用程序, 可以几乎即时地将您说的话转录为文字。 ● 准确的转录: 使用本地 AI 模型将语音转录为文字, 准确率高达 99% ● 注重隐私:100% 离线处理, 确保您的数据永不离开您的设备 ● 智能模式: 根据应用程序或网页的内容自动应用最佳预配置设置 ● 上下文感知:…

VoiceInk 中文版

https://github.com/cat-xierluo/VoiceInk-CN

基于开源项目 VoiceInk 的中文本地化版本
一个优秀的 macOS 语音转文字应用，提供高精度的本地语音识别功能。

#Voice #AI #Tool #macOS #GitHub

GitHub

GitHub - cat-xierluo/VoiceInk-CN: Voicelnk mac端语音转文字应用的中文本地化，默认为pro版本

Voicelnk mac端语音转文字应用的中文本地化，默认为pro版本. Contribute to cat-xierluo/VoiceInk-CN development by creating an account on GitHub.

Voice AI Tool macOS GitHub

15:40 · 2025年10月19日 · 周日

蛐蛐 (QuQu) - 开源免费的 Wispr Flow 替代方案 | 为中文而生的下一代智能语音工作流

https://github.com/yan5xu/ququ

离线语音输入，无需会员，不连云端，保证隐私。

蛐蛐 (QuQu) 是一个开源免费的 Wispr Flow 替代方案, 专为中文用户打造的注重隐私的桌面端语音输入与文本处理工具。

它集成了阿里巴巴开源的 FunASR 本地语音识别模型, 并支持配置国内顶尖的大语言模型, 提供高精度的中文语音转文字和智能文本优化功能。

● 完全免费开源, 数据本地处理, 保护用户隐私
● 专为中文优化, 支持国产 AI 模型如通义千问、Kimi 等
● 独创 "ASR 精准识别 + LLM 智能优化 " 的两段式引擎
● 能准确识别并格式化编程术语, 支持自定义 AI 指令
● 提供全局快捷键唤醒, 实时识别和无缝粘贴功能

#AI #Voice #Tool #GitHub

GitHub

GitHub - yan5xu/ququ: 开源免费的 Wispr Flow 替代方案 | 集成FunASR本地模型和可配置大语言模型的下一代中文桌面语音工作流

开源免费的 Wispr Flow 替代方案 | 集成FunASR本地模型和可配置大语言模型的下一代中文桌面语音工作流 - yan5xu/ququ

AI Voice Tool GitHub

20:00 · 2025年10月16日 · 周四

WhisperLiveKit - 本地语音转录工具（开源语音识别转文字）

https://github.com/QuentinFuxa/WhisperLiveKit

WhisperLiveKit 是一个开源的本地语音转录工具，集实时语音转文本、翻译和说话人分离于一体。它使用了最新的语音识别和语音分离技术，可以提供低延迟和高准确度的转录结果，能用于会议实时记录和跨语言交流。

● 提供实时语音转文本功能，支持多达 100 种语言的翻译
● 支持实时说话人识别和分离
● 提供简单易用的前端和后端 API
● 支持在浏览器和 Chrome 扩展中使用
● 支持在 Docker 容器中部署

#Voice #AI #Tool #GitHub

GitHub

GitHub - QuentinFuxa/WhisperLiveKit: Simultaneous speech-to-text model

Simultaneous speech-to-text model. Contribute to QuentinFuxa/WhisperLiveKit development by creating an account on GitHub.

Voice AI Tool GitHub

18:46 · 2025年10月9日 · 周四

Handy - 开源离线语音转文本应用

https://github.com/cjpais/Handy

Handy 是一款免费、开源且可扩展的离线语音转文本应用程序，无需将语音发送到云端就可以将语音直接转录为文本，保证隐私。

● 支持配置快捷键开始 / 停止录音，或使用推动式对话模式
● 支持使用 Whisper 模型或 Parakeet V3 模型进行语音转录
● 使用 Tauri (Rust + React/TypeScript) 构建，跨平台支持 Windows、macOS 和 Linux 平台
● 支持 GPU 加速的 Whisper 模型，以及 CPU 优化的 Parakeet V3 模型
● 支持自动语言检测

#Voice #AI #Tool #GitHub

GitHub

GitHub - cjpais/Handy: A free, open source, and extensible speech-to-text application that works completely offline.

A free, open source, and extensible speech-to-text application that works completely offline. - cjpais/Handy

Voice AI Tool GitHub

17:44 · 2025年9月28日 · 周日

Abogen - 从 EPUB、PDF 等文本文件生成有同步字幕的有声书

https://github.com/denizsafak/abogen

Abogen 是一个基于 Kokoro-82M 的文本转语音工具，能够快速将 EPUB、PDF 或 Markdown 等文本文件转换为具有同步字幕的高质量音频，适用于制作有声读物，Instagram、YouTube、TikTok 等社交媒体的配音旁白，或其他任何需要自然语音的项目。

● 支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
● 提供同步字幕功能，支持多种字幕样式
● 支持自定义语音配置，包括语速、语音选择和语音混合
● 支持批量处理，可以添加多个文件到队列中进行转换
● 支持自动检测章节并分别保存为独立音频文件
● 支持为 M4B 文件添加元数据标签

#TTS #Voice #AI #Tool #GitHub

GitHub

GitHub - denizsafak/abogen: Generate audiobooks from EPUBs, PDFs and text with synchronized captions.

Generate audiobooks from EPUBs, PDFs and text with synchronized captions. - denizsafak/abogen

TTS Voice AI Tool GitHub

16:59 · 2025年9月26日 · 周五

edgetts-edgeone-pages - 部署在 EdgeOne Pages 上的 Edge TTS 服务

https://github.com/seventycheung/edgetts-edgeone-pages

一个部署在 EdgeOne Pages 上的高性能文本转语音（ TTS ）代理服务。

● OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口，可被官方的 OpenAI SDK 或任何现有工具直接调用
● 高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
● STREAMING: 支持流式和标准（非流式）两种响应模式，流式响应可极大降低长文本的首次播放延迟
● 智能文本清理: 内置强大的 " 文本清理流水线 "，可自动处理从 PDF 或网页复制的杂乱文本
● 灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
● 零依赖部署: 脚本完全自包含，无需配置 KV、队列等任何外部服务
● 便捷的测试工具: 提供一个功能丰富的 index.html，让用户无需编写任何代码即可测试所有功能

#TTS #Voice #Tool #GitHub

GitHub

GitHub - seventycheung/edgetts-edgeone-pages: 这是一个部署在 EdgeOne Pages 上的高性能文本转语音（TTS）代理服务。它巧妙地将微软 Edge 强大且自然的语音合成服务，封装成了一个兼容 OpenAI…

这是一个部署在 EdgeOne Pages 上的高性能文本转语音（TTS）代理服务。它巧妙地将微软 Edge 强大且自然的语音合成服务，封装成了一个兼容 OpenAI API 格式的接口。这使得开发者可以无缝地将各种现有应用对接到这个免费、高质量的 TTS 服务上。 - seventycheung/edgetts-edgeone-pages

TTS Voice Tool GitHub

16:59 · 2025年9月26日 · 周五

TTS-WebUI - 集成多款主流语音合成与音频生成模型的开源 Web 界面

https://github.com/rsxdalv/tts-webui

TTS-WebUI 是一个基于 Gradio 和 React 的文本到语音 (TTS) 和音频生成的 Web 界面。

● 支持多种 TTS 和音频生成模型, 包括 Bark、Tortoise、MusicGen 等
● 提供了丰富的扩展功能, 可以安装额外的模型和工具
● 提供了基于 Gradio 的后端和基于 React 的前端界面
● 兼容 OpenAI API，支持 Whisper 转录，方便与 Silly Tavern 等客户端集成，实现多场景文本、语音交互。
● 支持在 Docker 容器中运行

#TTS #Voice #Tool #GitHub

GitHub

GitHub - rsxdalv/TTS-WebUI: A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice…

A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice, XTTSv2, DIA, Kokoro, OpenVoice, ParlerTTS, Stable Audio, MMS, StyleTTS2, MAGNet, AudioGen, ...

TTS Voice Tool GitHub

16:48 · 2025年9月19日 · 周五

AI-Video-Transcriber - AI 视频转录工具

https://github.com/wendy7756/AI-Video-Transcriber

一款开源的 AI 视频转录和摘要工具，支持 YouTube、Bilibili、抖音等 30+ 平台。

● 多平台支持：支持 YouTube、Bilibili、抖音等 30+ 平台。
● 智能转录：使用 Faster-Whisper 模型进行高精度语音转文字
● AI 文本优化：自动错别字修正、句子完整化和智能分段
● 多语言摘要：支持多种语言的智能摘要生成
● 条件式翻译：当所选总结语言与 Whisper 检测到的语言不一致时，自动调用 GPT‑4o 生成翻译

#Video #AI #Tool #GitHub #Voice

GitHub

GitHub - wendy7756/AI-Video-Transcriber: Transcribe and summarize videos and podcasts using AI. Open-source, multi-platform, and…

Transcribe and summarize videos and podcasts using AI. Open-source, multi-platform, and supports multiple languages. - wendy7756/AI-Video-Transcriber

Video AI Tool GitHub Voice

17:12 · 2025年9月1日 · 周一

LazyTyper - 基于 Whisper 的语音输入法

https://lazytyper.com/zh

macOS | Windows

LazyTyper 是一款基于 Whisper 的免费语音输入应用，拥有超高准确率和闪电般的速度。

● 极速转写：体验高达 250 倍的转写速度，无论是会议纪要还是灵感闪现，都能瞬间记录，大幅提升您的工作和学习效率。
● 精准识别：采用先进的 Whisper 模型，准确率高达 90%，远超系统自带工具。无缝支持中、英、日等多语言混合输入，沟通再无障碍。
● 小巧免费：应用体积小巧，不占用系统资源，且完全免费使用。我们相信，强大的生产力工具应该触手可及，没有任何负担。

#Voice #Tool #AI

LazyTyper官网 - 免费精准的Whisper语音输入，支持中英日韩等多语言混输

告别手动输入的繁琐！LazyTyper是一款基于Whisper的免费语音输入应用，准确率高达90%，速度超快且体积小巧。它完美支持中英日韩等多语言无缝混合输入，让沟通更高效。立即体验未来输入方式！

Voice Tool AI

19:16 · 2025年8月28日 · 周四

Audiblez - 电子书转换生成有声书

https://github.com/santinic/audiblez

Audiblez 是一款可以将电子书（.epub）转换生成有声书（.m4b）的工具。

它使用 Kokoro-82M 这个高质量的文本到语音合成模型，支持多种语言，包括英语、西班牙语、法语、意大利语、日语、葡萄牙语和中文等。

● 从 .epub 电子书生成 .m4b 有声书
● 支持多种语言的高质量语音合成
● 提供命令行工具和图形化界面
● 支持在 CPU 和 GPU（CUDA）上运行

#Voice #Tool #GitHub

GitHub

GitHub - santinic/audiblez: Generate audiobooks from e-books

Generate audiobooks from e-books. Contribute to santinic/audiblez development by creating an account on GitHub.

Voice Tool GitHub

Home