Skip to main content

Search: #Voice

Thinking...
❤️ PM:https://t.me/iokhk?direct
  1. Koe(声) - macOS 语音输入工具

    https://github.com/missuo/koe

    所有配置存储在纯文本文件中(~/.koe/),纯文本词典文件辅助语音识别,可通过 AI 批量添加相关专业术语。

    支持云端 ASR(豆包 / 千问)和本地 ASR(MLX / Sherpa-ONNX)两种方式,通过 OpenAI 格式 API 调用 LLM 进行文本纠正。

    应用体积仅 15 MB 左右,内存占用约 20 MB,基于 Rust 核心库来处理 ASR、LLM 和配置管理。

    #macOS #Voice #AI #Tool #GitHub GitHub - missuo/koe: A zero-GUI macOS voice input tool. Press a hotkey, speak, and the corrected text is pasted into whatever app…
  2. Type4Me - macOS 上本地运行的语音输入工具,基于 SherpaOnnx (Paraformer / Zipformer) 引擎,所有识别完全在设备端完成,无需申请 API Key、无需注册云服务账号、无网络依赖。
    https://github.com/joewongjc/type4me
    #Voice #macOS #Tool #AI GitHub - joewongjc/type4me: MacOS语音输入法,实时识别、大模型文本优化、全本地存储
  3. v2s - macOS 实时双语字幕,适用于会议、通话、直播和视频

    https://github.com/franklioxygen/v2s

    v2s 可以将麦克风输入或指定应用的音频转换成简洁的双行字幕条,让你在不离开当前屏幕的情况下,一边听原语言,一边看目标语言字幕。(适合看片

    本地语音转写:基于 Apple Speech 框架进行语音识别。
    本地翻译:基于 Apple Translation 框架进行翻译处理。
    灵活的音频输入:既可使用麦克风,也可只捕获某个正在运行的 macOS 应用音频。
    双语字幕悬浮条:第一行显示翻译结果,第二行显示原始语音文本,便于快速对照。

    #macOS #GitHub #Tool #Voice #Video GitHub - franklioxygen/v2s: Live bilingual subtitles for any app on macOS. Captures audio, transcribes speech, and translates —…
  4. LocalVocal - 开源 OBS 插件,本地实时语音识别 / 转录 / 翻译

    https://github.com/royshil/obs-localvocal

    LocalVocal 是一个开源的 OBS 插件,支持本地实时语音识别、转录和翻译功能。

    基于 OpenAI 的 Whisper 模型,无需联网、无需 API。所有处理都在本地完成,保证隐私。

    实时语音转文本转录(支持 100+ 语言)
    实时字幕翻译(支持主流语言及多个云服务商)
    屏幕字幕显示、文件保存(.txt/.srt 格式)
    RTMP 流字幕投送(YouTube、Twitch 等)
    自定义 GGML Whisper 模型支持
    字幕过滤和替换功能
    流式字幕体验(部分转录)
    多硬件平台优化支持(NVIDIA CUDA、AMD ROCm、Apple Metal 等)

    #Video #Voice #AI #Tool #GitHub
  5. Vibe Voice - 微软开源 AI 语音框架

    https://github.com/microsoft/VibeVoice

    VibeVoice 是微软开源的 AI 语音框架,用于从文本生成富有表现力的长篇多说话人对话音频(如播客),通过 LLM 理解文本上下文和对话流,生成高保真音频。

    长篇多说话人模型:支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
    实时流式 TTS 模型:初始音频延迟约 300 毫秒,支持流式文本输入的实时语音生成
    超低帧率语音分词器:以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
    多语言支持:支持英文、中文以及实验性支持 9 种语言(德、法、意、日、韩、荷、波、葡、西班牙语)
    风格化语音:提供 11 种不同的英文风格语音供用户选择

    #TTS #Voice #AI #GitHub GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI
  6. FluidVoice - macOS 实时语音转文字工具

    https://github.com/altic-dev/FluidVoice

    FluidVoice 是一个 macOS 实时语音转文本应用,提供实时转录、AI 增强和多种语音识别模型支持。

    项目默认使用本地 ASR 模型(如 Parakeet TDT),无需联网即可高效运行,保证隐私安全,同时还支持接入 OpenAI、Groq 或本地大模型以提升识别质量和文本润色效果

    实时转录预览:在屏幕顶部居中进行实时转录预览
    多种语音模型:支持 Parakeet TDT v3/v2、Apple Speech 和 Whisper
    低延迟转录:极低的实时转录延迟
    AI 增强:支持 OpenAI、Groq 和自定义 AI 提供商
    全局快捷键:即时语音捕获
    命令模式:通过语音执行 Mac 操作
    写入模式:在任何应用的文本框中进行智能输入
    菜单栏集成:快速访问功能
    自动更新:无缝重启更新

    #Voice #AI #Tool #GitHub GitHub - altic-dev/FluidVoice: FluidVoice - Fastest macOS Offline Dictation app - Voice to Text fully Local. One ⭐ takes us a long…
  7. 🎬 NAS-Subtitle-Manager - 自动化视频字幕提取与翻译的 NAS 管理工具

    https://github.com/aexachao/nas-subtitle-manager

    一个基于 Whisper + LLM 的智能字幕管理系统,自动扫描 NAS 媒体库,提取音轨生成字幕,并支持多语言翻译。适合家庭 NAS 环境的轻量级部署。

    自动化流程 - 扫描媒体库 → 提取字幕 → AI 翻译,全程自动化
    多语言支持 - Whisper 支持 99+ 语言识别,LLM 翻译支持中英日韩等主流语言
    多 AI 提供商 - 支持 Ollama (本地)、DeepSeek、Gemini、OpenAI 等
    一键部署 - Docker Compose 部署,无需复杂配置
    任务队列 - 后台异步处理,实时进度监控

    #Video #Voice #Tool #HomeLab #GitHub
  8. 蛐蛐 (QuQu) - 开源免费的 Wispr Flow 替代方案 | 为中文而生的下一代智能语音工作流

    https://github.com/yan5xu/ququ

    离线语音输入,无需会员,不连云端,保证隐私。


    蛐蛐 (QuQu) 是 一个开源免费的 Wispr Flow 替代方案, 专为中文用户打造的注重隐私的桌面端语音输入与文本处理工具。

    它集成了阿里巴巴开源的 FunASR 本地语音识别模型, 并支持配置国内顶尖的大语言模型, 提供高精度的中文语音转文字和智能文本优化功能。

    完全免费开源, 数据本地处理, 保护用户隐私
    专为中文优化, 支持国产 AI 模型如通义千问、Kimi 等
    独创 "ASR 精准识别 + LLM 智能优化 " 的两段式引擎
    能准确识别并格式化编程术语, 支持自定义 AI 指令
    提供全局快捷键唤醒, 实时识别和无缝粘贴功能

    #AI #Voice #Tool #GitHub
  9. WhisperLiveKit - 本地语音转录工具(开源语音识别转文字)

    https://github.com/QuentinFuxa/WhisperLiveKit

    WhisperLiveKit 是一个开源的本地语音转录工具,集实时语音转文本、翻译和说话人分离于一体。 它使用了最新的语音识别和语音分离技术,可以提供低延迟和高准确度的转录结果,能用于会议实时记录和跨语言交流。

    提供实时语音转文本功能,支持多达 100 种语言的翻译
    支持实时说话人识别和分离
    提供简单易用的前端和后端 API
    支持在浏览器和 Chrome 扩展中使用
    支持在 Docker 容器中部署

    #Voice #AI #Tool #GitHub GitHub - QuentinFuxa/WhisperLiveKit: Simultaneous speech-to-text models
  10. Handy - 开源离线语音转文本应用,语音输入

    https://github.com/cjpais/Handy

    Handy 是一款免费、开源且可扩展的离线语音转文本应用程序,无需将语音发送到云端就可以将语音直接转录为文本,保证隐私。

    支持配置快捷键开始 / 停止录音,或使用推动式对话模式
    支持使用 Whisper 模型或 Parakeet V3 模型进行语音转录
    使用 Tauri (Rust + React/TypeScript) 构建,跨平台支持 Windows、macOS 和 Linux 平台
    支持 GPU 加速的 Whisper 模型,以及 CPU 优化的 Parakeet V3 模型
    支持自动语言检测

    #Voice #AI #Tool #GitHub GitHub - cjpais/Handy: A free, open source, and extensible speech-to-text application that works completely offline.
  11. Abogen - 从 EPUB、PDF 等文本文件生成有同步字幕的有声书

    https://github.com/denizsafak/abogen

    Abogen 是一个基于 Kokoro-82M 的文本转语音工具,能够快速将 EPUB、PDF 或 Markdown 等文本文件转换为具有同步字幕的高质量音频,适用于制作有声读物,Instagram、YouTube、TikTok 等社交媒体的配音旁白,或其他任何需要自然语音的项目。

    支持将 EPUB、PDF、Markdown 等文本文件转换为高质量音频
    提供同步字幕功能,支持多种字幕样式
    支持自定义语音配置,包括语速、语音选择和语音混合
    支持批量处理,可以添加多个文件到队列中进行转换
    支持自动检测章节并分别保存为独立音频文件
    支持为 M4B 文件添加元数据标签

    #TTS #Voice #AI #Tool #GitHub GitHub - denizsafak/abogen: Generate audiobooks from EPUBs, PDFs and text with synchronized captions.
  12. edgetts-edgeone-pages - 部署在 EdgeOne Pages 上的 Edge TTS 服务

    https://github.com/seventycheung/edgetts-edgeone-pages

    一个部署在 EdgeOne Pages 上的高性能文本转语音( TTS )代理服务。

    OpenAI 兼容: 完全模拟 OpenAI 的 /v1/audio/speech 接口,可被官方的 OpenAI SDK 或任何现有工具直接调用
    高质量音色: 利用微软 Edge TTS 提供的多种自然、流畅的神经网络语音
    STREAMING: 支持流式和标准(非流式)两种响应模式,流式响应可极大降低长文本的首次播放延迟
    智能文本清理: 内置强大的 " 文本清理流水线 ",可自动处理从 PDF 或网页复制的杂乱文本
    灵活的参数配置: 支持通过 API 请求动态调整所有核心参数
    零依赖部署: 脚本完全自包含,无需配置 KV、队列等任何外部服务
    便捷的测试工具: 提供一个功能丰富的 index.html,让用户无需编写任何代码即可测试所有功能

    #TTS #Voice #Tool #GitHub GitHub - seventycheung/edgetts-edgeone-pages: 这是一个部署在 EdgeOne Pages 上的高性能文本转语音(TTS)代理服务。它巧妙地将微软 Edge 强大且自然的语音合成服务,封装成了一个兼容 OpenAI…
OKHK