#Voice

OKHK 👀

个人数字泔水\(⁠◔⁠‿⁠◔⁠)
✨ Thinking...

17:24 · 2026年5月25日 · 周一

AirTranslate - macOS 实时系统音频转写与翻译应用

https://github.com/himomohi/AirTranslate
AirTranslate 可以捕获 Mac 正在播放的音频，实时转写并翻译，也可以通过悬浮字幕窗口显示结果。它适用于会议、课程、视频、采访和直播等场景，避免通过外部麦克风转录造成的麻烦和音质损失。

默认流程使用 Apple 框架。基于 GPT 的 realtime 模型是可选功能，只有在用户提供自己的 OpenAI API key 后才会启用。

#macOS #Voice #Tool #GitHub
GitHub

GitHub - himomohi/AirTranslate: AirTranslate macOS app

AirTranslate macOS app. Contribute to himomohi/AirTranslate development by creating an account on GitHub.

macOS Voice Tool GitHub
17:06 · 2026年3月29日 · 周日

Koe（声） - macOS 语音输入工具

https://github.com/missuo/koe

所有配置存储在纯文本文件中（~/.koe/），纯文本词典文件辅助语音识别，可通过 AI 批量添加相关专业术语。

支持云端 ASR（豆包 / 千问）和本地 ASR（MLX / Sherpa-ONNX）两种方式，通过 OpenAI 格式 API 调用 LLM 进行文本纠正。

应用体积仅 15 MB 左右，内存占用约 20 MB，基于 Rust 核心库来处理 ASR、LLM 和配置管理。

#macOS #Voice #AI #Tool #GitHub
GitHub

GitHub - missuo/koe: A zero-GUI macOS voice input tool. Press a hotkey, speak, and the corrected text is pasted into whatever app…

A zero-GUI macOS voice input tool. Press a hotkey, speak, and the corrected text is pasted into whatever app you're using. - missuo/koe

macOS Voice AI Tool GitHub
12:52 · 2026年3月29日 · 周日

https://fxtwitter.com/lexrus/status/2037908758433873939
#AI #Voice
FxTwitter

Lex Tang (@lexrus)

这半个月都在 macOS 语音输入这个赛道体验竞品，装了市面上能找到的商业的、开源的、vibe 的产品。一边试各家竞品一边录入了大量的中文和英文，的确大大提升了码字的效率，同时对各种实现有了初步的认知。有作者来自荐的，我也给了他们反馈意见。每一个试过的产品，我都写了一句话评论，记在了 Finder 里，如图。绿点表示推荐使用，黄点表示不推荐，红点是我个人不会再去用。豆包的我还没有开始体验所以空着。

AI Voice
11:19 · 2026年3月27日 · 周五

Type4Me - macOS 上本地运行的语音输入工具，基于 SherpaOnnx (Paraformer / Zipformer) 引擎，所有识别完全在设备端完成，无需申请 API Key、无需注册云服务账号、无网络依赖。
https://github.com/joewongjc/type4me
#Voice #macOS #Tool #AI
GitHub

GitHub - joewongjc/type4me: MacOS语音输入法，实时识别、大模型文本优化、全本地存储

MacOS语音输入法，实时识别、大模型文本优化、全本地存储. Contribute to joewongjc/type4me development by creating an account on GitHub.

Voice macOS Tool AI
16:15 · 2026年3月25日 · 周三

v2s - macOS 实时双语字幕，适用于会议、通话、直播和视频

https://github.com/franklioxygen/v2s

v2s 可以将麦克风输入或指定应用的音频转换成简洁的双行字幕条，让你在不离开当前屏幕的情况下，一边听原语言，一边看目标语言字幕。（适合看片

● 本地语音转写：基于 Apple Speech 框架进行语音识别。
● 本地翻译：基于 Apple Translation 框架进行翻译处理。
● 灵活的音频输入：既可使用麦克风，也可只捕获某个正在运行的 macOS 应用音频。
● 双语字幕悬浮条：第一行显示翻译结果，第二行显示原始语音文本，便于快速对照。

#macOS #GitHub #Tool #Voice #Video
GitHub

GitHub - franklioxygen/v2s: Live bilingual subtitles for any app on macOS. Captures audio, transcribes speech, and translates —…

Live bilingual subtitles for any app on macOS. Captures audio, transcribes speech, and translates — all from your menu bar. - franklioxygen/v2s

macOS GitHub Tool Voice Video
12:30 · 2026年2月25日 · 周三

Moonshine 开源语音转文本模型，端侧本地运行，准确度优于 Whisper Large V3

https://github.com/moonshine-ai/moonshine

https://news.ycombinator.com/item?id=47143755
#GitHub #Voice #AI
GitHub

GitHub - moonshine-ai/moonshine: Very low latency speech to text, intent recognition, and text to speech, for building voice agents…

Very low latency speech to text, intent recognition, and text to speech, for building voice agents and interfaces - moonshine-ai/moonshine

GitHub Voice AI
11:03 · 2026年2月25日 · 周三

AI 语音输入，Wispr Flow / Superwhisper 免费开源替代

https://github.com/zachlatta/freeflow

#AI #Voice #GitHub #Tool
GitHub

GitHub - zachlatta/freeflow: Free & fast alternative to Wispr Flow

Free & fast alternative to Wispr Flow. Contribute to zachlatta/freeflow development by creating an account on GitHub.

AI Voice GitHub Tool
13:07 · 2026年1月23日 · 周五

Qwen3-TTS #TTS #Voice #AI
🧵 Thread • FxTwitter

Qwen (@Alibaba_Qwen)

Qwen3-TTS is officially live. We’ve open-sourced the full family—VoiceDesign, CustomVoice, and Base—bringing high quality to the open community.

- 5 models (0.6B & 1.8B)
- Free-form voice design & cloning
- Support for 10 languages
- SOTA 12Hz tokenizer…

TTS Voice AI
19:36 · 2026年1月22日 · 周四

Hertziness 是一款纯前端的声音性别分析工具，通过浏览器本地运行机器学习模型，实时分析声音的性别特征。

https://voice.hertz.page/

https://github.com/hertzyang/hertziness

#AI #Voice #Tool
voice.hertz.page

Hertziness

本地处理，离线可用的声音分析工具。

AI Voice Tool
19:39 · 2026年1月13日 · 周二

OKHK 👀

Spokenly - macOS 语音转文本应用 https://apps.apple.com/us/app/spokenly-whisper-dictation-ai/id6740315592 Spokenly 是一款高效的语音转文字工具，专为简化文本输入而设计。它能在电脑上的任何应用或文本框中实时将语音转换为文字，通过语音输入替代键盘敲击，Spokenly 让文本创作更流畅，帮助用户更专注地思考和完成任务。 ● 快速快捷键：自定义快捷键一键启动 / 停止听写。 ● 实时转录：自然语速输入，文字即时显示。…

语音输入 https://www.typeless.com/ #Voice #AI
Typeless.com

Typeless | AI Voice Dictation That's Actually Intelligent

Speak naturally, and Typeless will turn your words into polished messages, emails, and documents that read like you carefully typed them.

Voice AI
18:47 · 2026年1月9日 · 周五

LocalVocal - 开源 OBS 插件，本地实时语音识别 / 转录 / 翻译

https://github.com/royshil/obs-localvocal

LocalVocal 是一个开源的 OBS 插件，支持本地实时语音识别、转录和翻译功能。

基于 OpenAI 的 Whisper 模型，无需联网、无需 API。所有处理都在本地完成，保证隐私。

● 实时语音转文本转录（支持 100+ 语言）
● 实时字幕翻译（支持主流语言及多个云服务商）
● 屏幕字幕显示、文件保存（.txt/.srt 格式）
● RTMP 流字幕投送（YouTube、Twitch 等）
● 自定义 GGML Whisper 模型支持
● 字幕过滤和替换功能
● 流式字幕体验（部分转录）
● 多硬件平台优化支持（NVIDIA CUDA、AMD ROCm、Apple Metal 等）

#Video #Voice #AI #Tool #GitHub
GitHub

GitHub - royshil/obs-localvocal: OBS plugin for local speech recognition and captioning using AI

OBS plugin for local speech recognition and captioning using AI - royshil/obs-localvocal

Video Voice AI Tool GitHub
16:10 · 2026年1月8日 · 周四

Vibe Voice - 微软开源 AI 语音框架

https://github.com/microsoft/VibeVoice

VibeVoice 是微软开源的 AI 语音框架，用于从文本生成富有表现力的长篇多说话人对话音频（如播客），通过 LLM 理解文本上下文和对话流，生成高保真音频。

● 长篇多说话人模型：支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
● 实时流式 TTS 模型：初始音频延迟约 300 毫秒，支持流式文本输入的实时语音生成
● 超低帧率语音分词器：以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
● 多语言支持：支持英文、中文以及实验性支持 9 种语言（德、法、意、日、韩、荷、波、葡、西班牙语）
● 风格化语音：提供 11 种不同的英文风格语音供用户选择

#TTS #Voice #AI #GitHub
GitHub

GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI

Open-Source Frontier Voice AI. Contribute to microsoft/VibeVoice development by creating an account on GitHub.

TTS Voice AI GitHub
15:26 · 2025年12月29日 · 周一

FluidVoice - macOS 实时语音转文字工具

https://github.com/altic-dev/FluidVoice

FluidVoice 是一个 macOS 实时语音转文本应用，提供实时转录、AI 增强和多种语音识别模型支持。

项目默认使用本地 ASR 模型（如 Parakeet TDT），无需联网即可高效运行，保证隐私安全，同时还支持接入 OpenAI、Groq 或本地大模型以提升识别质量和文本润色效果

● 实时转录预览：在屏幕顶部居中进行实时转录预览
● 多种语音模型：支持 Parakeet TDT v3/v2、Apple Speech 和 Whisper
● 低延迟转录：极低的实时转录延迟
● AI 增强：支持 OpenAI、Groq 和自定义 AI 提供商
● 全局快捷键：即时语音捕获
● 命令模式：通过语音执行 Mac 操作
● 写入模式：在任何应用的文本框中进行智能输入
● 菜单栏集成：快速访问功能
● 自动更新：无缝重启更新

#Voice #AI #Tool #GitHub
GitHub

GitHub - altic-dev/FluidVoice: FluidVoice - Fastest macOS Offline Dictation app - Voice to Text fully Local. One ⭐ takes us a long…

FluidVoice - Fastest macOS Offline Dictation app - Voice to Text fully Local. One ⭐ takes us a long way :)) - altic-dev/FluidVoice

Voice AI Tool GitHub
16:43 · 2025年12月21日 · 周日

🎬 NAS-Subtitle-Manager - 自动化视频字幕提取与翻译的 NAS 管理工具

https://github.com/aexachao/nas-subtitle-manager

一个基于 Whisper + LLM 的智能字幕管理系统，自动扫描 NAS 媒体库，提取音轨生成字幕，并支持多语言翻译。适合家庭 NAS 环境的轻量级部署。

● 自动化流程 - 扫描媒体库 → 提取字幕 → AI 翻译，全程自动化
● 多语言支持 - Whisper 支持 99+ 语言识别，LLM 翻译支持中英日韩等主流语言
● 多 AI 提供商 - 支持 Ollama (本地)、DeepSeek、Gemini、OpenAI 等
● 一键部署 - Docker Compose 部署，无需复杂配置
● 任务队列 - 后台异步处理，实时进度监控

#Video #Voice #Tool #HomeLab #GitHub

Video Voice Tool HomeLab GitHub
20:10 · 2025年12月11日 · 周四

ten-framework - 创建对话式语音 AI Agent 的框架

https://github.com/TEN-framework/ten-framework

TEN 是一个面向语音对话 AI Agent 的开源框架。

#AI #Voice #Tool #GitHub
GitHub

GitHub - TEN-framework/ten-framework: Open-source framework for conversational voice AI agents

Open-source framework for conversational voice AI agents - TEN-framework/ten-framework

AI Voice Tool GitHub
15:32 · 2025年11月2日 · 周日

OKHK 👀

VoiceInk - macOS 语音转文本应用 https://github.com/beingpax/VoiceInk https://tryvoiceink.com/ VoiceInk 是一款适用于 macOS 的语音转文本应用程序, 可以几乎即时地将您说的话转录为文字。 ● 准确的转录: 使用本地 AI 模型将语音转录为文字, 准确率高达 99% ● 注重隐私:100% 离线处理, 确保您的数据永不离开您的设备 ● 智能模式: 根据应用程序或网页的内容自动应用最佳预配置设置 ● 上下文感知:…

VoiceInk 中文版

https://github.com/cat-xierluo/VoiceInk-CN

基于开源项目 VoiceInk 的中文本地化版本
一个优秀的 macOS 语音转文字应用，提供高精度的本地语音识别功能。

#Voice #AI #Tool #macOS #GitHub
GitHub

GitHub - cat-xierluo/VoiceInk-CN: Voicelnk mac端语音转文字应用的中文本地化，默认为pro版本

Voicelnk mac端语音转文字应用的中文本地化，默认为pro版本. Contribute to cat-xierluo/VoiceInk-CN development by creating an account on GitHub.

Voice AI Tool macOS GitHub
15:40 · 2025年10月19日 · 周日

蛐蛐 (QuQu) - 开源免费的 Wispr Flow 替代方案 | 为中文而生的下一代智能语音工作流

https://github.com/yan5xu/ququ

离线语音输入，无需会员，不连云端，保证隐私。

蛐蛐 (QuQu) 是一个开源免费的 Wispr Flow 替代方案, 专为中文用户打造的注重隐私的桌面端语音输入与文本处理工具。

它集成了阿里巴巴开源的 FunASR 本地语音识别模型, 并支持配置国内顶尖的大语言模型, 提供高精度的中文语音转文字和智能文本优化功能。

● 完全免费开源, 数据本地处理, 保护用户隐私
● 专为中文优化, 支持国产 AI 模型如通义千问、Kimi 等
● 独创 "ASR 精准识别 + LLM 智能优化 " 的两段式引擎
● 能准确识别并格式化编程术语, 支持自定义 AI 指令
● 提供全局快捷键唤醒, 实时识别和无缝粘贴功能

#AI #Voice #Tool #GitHub
GitHub

GitHub - yan5xu/ququ: 开源免费的 Wispr Flow 替代方案 | 集成FunASR本地模型和可配置大语言模型的下一代中文桌面语音工作流

开源免费的 Wispr Flow 替代方案 | 集成FunASR本地模型和可配置大语言模型的下一代中文桌面语音工作流 - yan5xu/ququ

AI Voice Tool GitHub
20:00 · 2025年10月16日 · 周四

WhisperLiveKit - 本地语音转录工具（开源语音识别转文字）

https://github.com/QuentinFuxa/WhisperLiveKit

WhisperLiveKit 是一个开源的本地语音转录工具，集实时语音转文本、翻译和说话人分离于一体。它使用了最新的语音识别和语音分离技术，可以提供低延迟和高准确度的转录结果，能用于会议实时记录和跨语言交流。

● 提供实时语音转文本功能，支持多达 100 种语言的翻译
● 支持实时说话人识别和分离
● 提供简单易用的前端和后端 API
● 支持在浏览器和 Chrome 扩展中使用
● 支持在 Docker 容器中部署

#Voice #AI #Tool #GitHub
GitHub

GitHub - QuentinFuxa/WhisperLiveKit: Simultaneous speech-to-text models

Simultaneous speech-to-text models. Contribute to QuentinFuxa/WhisperLiveKit development by creating an account on GitHub.

Voice AI Tool GitHub
18:46 · 2025年10月9日 · 周四

Handy - 开源离线语音转文本应用，语音输入

https://github.com/cjpais/Handy

Handy 是一款免费、开源且可扩展的离线语音转文本应用程序，无需将语音发送到云端就可以将语音直接转录为文本，保证隐私。

● 支持配置快捷键开始 / 停止录音，或使用推动式对话模式
● 支持使用 Whisper 模型或 Parakeet V3 模型进行语音转录
● 使用 Tauri (Rust + React/TypeScript) 构建，跨平台支持 Windows、macOS 和 Linux 平台
● 支持 GPU 加速的 Whisper 模型，以及 CPU 优化的 Parakeet V3 模型
● 支持自动语言检测

#Voice #AI #Tool #GitHub
GitHub

GitHub - cjpais/Handy: A free, open source, and extensible speech-to-text application that works completely offline.

A free, open source, and extensible speech-to-text application that works completely offline. - cjpais/Handy

Voice AI Tool GitHub
17:44 · 2025年9月28日 · 周日

Abogen - 从 EPUB、PDF 等文本文件生成有同步字幕的有声书

https://github.com/denizsafak/abogen

Abogen 是一个基于 Kokoro-82M 的文本转语音工具，能够快速将 EPUB、PDF 或 Markdown 等文本文件转换为具有同步字幕的高质量音频，适用于制作有声读物，Instagram、YouTube、TikTok 等社交媒体的配音旁白，或其他任何需要自然语音的项目。

● 支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
● 提供同步字幕功能，支持多种字幕样式
● 支持自定义语音配置，包括语速、语音选择和语音混合
● 支持批量处理，可以添加多个文件到队列中进行转换
● 支持自动检测章节并分别保存为独立音频文件
● 支持为 M4B 文件添加元数据标签

#TTS #Voice #AI #Tool #GitHub
GitHub

GitHub - denizsafak/abogen: Generate audiobooks from EPUBs, PDFs and text with synchronized captions.

Generate audiobooks from EPUBs, PDFs and text with synchronized captions. - denizsafak/abogen

TTS Voice AI Tool GitHub

Search: #Voice