TwoCast - 开源 AI 播客生成器
● Github: https://github.com/panyanyany/Twocast
● 官网: https://twocast.app/
Twocast 是一个基于 AI 的双人播客生成器,支持多种语言和多种生成方式。可以快速生成 3-5 分钟的播客内容,包括音频、大纲和脚本。项目支持三大主流播客平台:Fish Audio、Minimax 和 Google Gemini。
● 支持双人播客生成
● 一键生成 3-5 分钟的播客内容
● 支持多种生成方式:主题、链接、文档(doc/pdf/txt)、列表页(5-9 分钟)
● 支持多语言
● 可下载音频
● 包含音频、大纲和脚本
#AI #Voice #Tool link
● Github: https://github.com/panyanyany/Twocast
● 官网: https://twocast.app/
Twocast 是一个基于 AI 的双人播客生成器,支持多种语言和多种生成方式。可以快速生成 3-5 分钟的播客内容,包括音频、大纲和脚本。项目支持三大主流播客平台:Fish Audio、Minimax 和 Google Gemini。
● 支持双人播客生成
● 一键生成 3-5 分钟的播客内容
● 支持多种生成方式:主题、链接、文档(doc/pdf/txt)、列表页(5-9 分钟)
● 支持多语言
● 可下载音频
● 包含音频、大纲和脚本
#AI #Voice #Tool link
ElevenLabs 推出了 11ai AI 个人语音助手
https://11.ai
11ai 是一款基于 ElevenLabs 对话式 AI 构建的个人 AI 语音助手,旨在帮助用户通过语音管理日常任务、进行客户研究、处理工单和团队沟通。
英语语色不错,可以用来练英语口语
支持中文,但感觉效果一般
● 主要功能包括日程规划、客户研究(通过 Perplexity)、管理 Linear 工单和 Slack 团队消息。
● 支持 MCP(多功能连接平台),可连接 Perplexity、Linear、Slack 等,也可自定义工作流。
● 提供 5000 多种预设声音选择,或支持用户克隆自己的声音。
#AI #Tool #URL #Voice
https://11.ai
11ai 是一款基于 ElevenLabs 对话式 AI 构建的个人 AI 语音助手,旨在帮助用户通过语音管理日常任务、进行客户研究、处理工单和团队沟通。
英语语色不错,可以用来练英语口语
支持中文,但感觉效果一般
● 主要功能包括日程规划、客户研究(通过 Perplexity)、管理 Linear 工单和 Slack 团队消息。
● 支持 MCP(多功能连接平台),可连接 Perplexity、Linear、Slack 等,也可自定义工作流。
● 提供 5000 多种预设声音选择,或支持用户克隆自己的声音。
#AI #Tool #URL #Voice
MacWhisper - 音频转文本
https://goodsnooze.gumroad.com/l/macwhisper
MacWhisper 是一款利用 OpenAI 的 Whisper 技术,能够快速准确地将音频文件转录为文本的 Mac 应用程序,现已支持 iPhone 和 iPad。
● 核心功能包括录音转录、系统级听写替代 Apple 自带听写、拖放文件转录、会议自动录音等。
● 所有转录过程均在本地设备上完成,保障用户数据隐私。
● 支持多种导出格式,包括 SRT、VTT 字幕以及 Word、PDF、Markdown 等文档格式。
● 利用 Metal GPU 加速,实现高达 30 倍实时速度的快速转录。
● 支持 100 多种语言的转录,并提供音频播放与文本同步、文本搜索、片段编辑等功能。
● Pro 版本提供自动说话人识别、自动拼写 / 标点 / 语法改进、批量转录、YouTube 视频转录、文件夹监视等高级功能。
● Pro 版本还支持与 OpenAI(ChatGPT)、Anthropic(Claude)、Groq 等多种 AI 模型和云转录服务集成。
● 产品采用一次性付费模式,无订阅费用,提供终身使用和未来更新。
● 支持 M 系列 Mac,对内存有较高要求(建议 8GB 以上 RAM)。
#Voice #AI #Apple #Tool #macOS
https://goodsnooze.gumroad.com/l/macwhisper
MacWhisper 是一款利用 OpenAI 的 Whisper 技术,能够快速准确地将音频文件转录为文本的 Mac 应用程序,现已支持 iPhone 和 iPad。
● 核心功能包括录音转录、系统级听写替代 Apple 自带听写、拖放文件转录、会议自动录音等。
● 所有转录过程均在本地设备上完成,保障用户数据隐私。
● 支持多种导出格式,包括 SRT、VTT 字幕以及 Word、PDF、Markdown 等文档格式。
● 利用 Metal GPU 加速,实现高达 30 倍实时速度的快速转录。
● 支持 100 多种语言的转录,并提供音频播放与文本同步、文本搜索、片段编辑等功能。
● Pro 版本提供自动说话人识别、自动拼写 / 标点 / 语法改进、批量转录、YouTube 视频转录、文件夹监视等高级功能。
● Pro 版本还支持与 OpenAI(ChatGPT)、Anthropic(Claude)、Groq 等多种 AI 模型和云转录服务集成。
● 产品采用一次性付费模式,无订阅费用,提供终身使用和未来更新。
● 支持 M 系列 Mac,对内存有较高要求(建议 8GB 以上 RAM)。
#Voice #AI #Apple #Tool #macOS
VoiceInk - macOS 语音转文本应用
https://github.com/beingpax/VoiceInk
https://tryvoiceink.com/
VoiceInk 是一款适用于 macOS 的语音转文本应用程序, 可以几乎即时地将您说的话转录为文字。
● 准确的转录: 使用本地 AI 模型将语音转录为文字, 准确率高达 99%
● 注重隐私:100% 离线处理, 确保您的数据永不离开您的设备
● 智能模式: 根据应用程序或网页的内容自动应用最佳预配置设置
● 上下文感知: 智能 AI 理解您的屏幕内容并适应上下文
● 全局快捷键: 可配置的键盘快捷键, 用于快速录音和推动对话
● 个人词典: 训练 AI 识别您独特的术语、行业术语和智能文本替换
● 智能模式: 可快速切换到针对不同写作风格和上下文优化的 AI 模式
● AI 助手: 内置语音助手模式, 提供类似 ChatGPT 的对话式助手
#AI #Voice #macOS #Tool #GitHub
https://github.com/beingpax/VoiceInk
https://tryvoiceink.com/
VoiceInk 是一款适用于 macOS 的语音转文本应用程序, 可以几乎即时地将您说的话转录为文字。
● 准确的转录: 使用本地 AI 模型将语音转录为文字, 准确率高达 99%
● 注重隐私:100% 离线处理, 确保您的数据永不离开您的设备
● 智能模式: 根据应用程序或网页的内容自动应用最佳预配置设置
● 上下文感知: 智能 AI 理解您的屏幕内容并适应上下文
● 全局快捷键: 可配置的键盘快捷键, 用于快速录音和推动对话
● 个人词典: 训练 AI 识别您独特的术语、行业术语和智能文本替换
● 智能模式: 可快速切换到针对不同写作风格和上下文优化的 AI 模式
● AI 助手: 内置语音助手模式, 提供类似 ChatGPT 的对话式助手
#AI #Voice #macOS #Tool #GitHub
Spokenly - macOS 语音转文本应用
https://apps.apple.com/us/app/spokenly-whisper-dictation-ai/id6740315592
Spokenly 是一款高效的语音转文字工具,专为简化文本输入而设计。它能在电脑上的任何应用或文本框中实时将语音转换为文字,通过语音输入替代键盘敲击,Spokenly 让文本创作更流畅,帮助用户更专注地思考和完成任务。
● 快速快捷键:自定义快捷键一键启动 / 停止听写。
● 实时转录:自然语速输入,文字即时显示。
● 多场景兼容:支持各类文本框、网页表单、聊天窗口及编辑工具。
● 高精度识别:适配多种口音、语言和背景,准确率高。
● 个性化设置:可开关声音提示,提升使用体验。
#AI #Voice #Tool #macOS
https://apps.apple.com/us/app/spokenly-whisper-dictation-ai/id6740315592
Spokenly 是一款高效的语音转文字工具,专为简化文本输入而设计。它能在电脑上的任何应用或文本框中实时将语音转换为文字,通过语音输入替代键盘敲击,Spokenly 让文本创作更流畅,帮助用户更专注地思考和完成任务。
● 快速快捷键:自定义快捷键一键启动 / 停止听写。
● 实时转录:自然语速输入,文字即时显示。
● 多场景兼容:支持各类文本框、网页表单、聊天窗口及编辑工具。
● 高精度识别:适配多种口音、语言和背景,准确率高。
● 个性化设置:可开关声音提示,提升使用体验。
#AI #Voice #Tool #macOS
MiniMax Speech-02 语音模型
项目地址:
https://minimax-ai.github.io/tts_tech_report
体验地址:
内地: https://www.minimaxi.com/audio
海外: https://www.minimax.io/audio
全球第一个真正实现多样化、个性化定义的语音模型。
除了常用的语音克隆及TTS外,还可以实现通过对音色的文字描述生成对应音色(C端暂未上线),在同一段语音中,也可实现跨语言的高质量语音合成。
#TTS #AI #Voice #Tool #URL link
项目地址:
https://minimax-ai.github.io/tts_tech_report
体验地址:
内地: https://www.minimaxi.com/audio
海外: https://www.minimax.io/audio
全球第一个真正实现多样化、个性化定义的语音模型。
除了常用的语音克隆及TTS外,还可以实现通过对音色的文字描述生成对应音色(C端暂未上线),在同一段语音中,也可实现跨语言的高质量语音合成。
#TTS #AI #Voice #Tool #URL link
Speakr - AI 音频录音转录和摘要工具
https://github.com/murtaza-nasir/speakr
Speakr 是一个自托管网页应用,支持将音频文件(如会议录音、访谈等)自动转录成文本,并通过 AI 生成摘要、标题。
通过聊天界面与内容进行交互。用户可以将所有会议记录和见解安全地保存在自己的服务器上。
● 音频上传:通过拖放或文件选择上传音频文件( MP3、WAV、M4A 等)。
● 后台处理:转录和摘要生成在后台进行,不会阻塞用户界面。
● 转录:使用 OpenAI 兼容的语音转文本( STT ) API (可配置,例如自托管的 Whisper )。
● AI 摘要和标题生成:使用可配置的 LLM 通过 OpenAI 兼容的 API (如 OpenRouter )生成简洁的标题和摘要。
● 交互式聊天:使用 AI 模型询问问题并与转录内容进行交互。
● 搜索、收件箱和高亮:用于突出显示和轻松处理。
● 元数据编辑:编辑与录音相关的标题、参与者、会议日期、摘要和备注。
#GitHub #Tool #AI #Voice
https://github.com/murtaza-nasir/speakr
Speakr 是一个自托管网页应用,支持将音频文件(如会议录音、访谈等)自动转录成文本,并通过 AI 生成摘要、标题。
通过聊天界面与内容进行交互。用户可以将所有会议记录和见解安全地保存在自己的服务器上。
● 音频上传:通过拖放或文件选择上传音频文件( MP3、WAV、M4A 等)。
● 后台处理:转录和摘要生成在后台进行,不会阻塞用户界面。
● 转录:使用 OpenAI 兼容的语音转文本( STT ) API (可配置,例如自托管的 Whisper )。
● AI 摘要和标题生成:使用可配置的 LLM 通过 OpenAI 兼容的 API (如 OpenRouter )生成简洁的标题和摘要。
● 交互式聊天:使用 AI 模型询问问题并与转录内容进行交互。
● 搜索、收件箱和高亮:用于突出显示和轻松处理。
● 元数据编辑:编辑与录音相关的标题、参与者、会议日期、摘要和备注。
#GitHub #Tool #AI #Voice
AnyVoice - 3 秒钟复刻人声
https://anyvoice.net/
(可能需要配置网络环境)
只需要点击首页的的录音按钮,就可以克隆音色
https://www.v2ex.com/t/1128515
#AI #Voice #Tool #URL
https://anyvoice.net/
(可能需要配置网络环境)
只需要点击首页的的录音按钮,就可以克隆音色
https://www.v2ex.com/t/1128515
#AI #Voice #Tool #URL
RealtimeVoiceChat - 实时语音聊天与 AI 自然对话
使用 Docker 进行部署管理,适合用来实现语音助手和聊天机器人应用
https://github.com/KoljaB/RealtimeVoiceChat
一个基于语音的实时人工智能聊天系统。它允许用户通过语音与一个大型语言模型(LLM)进行自然对话,并实时获得语音响应。该系统采用了一个复杂的客户端-服务器架构,以实现低延迟的交互体验。
1. 流畅的对话体验:用户可以像真实对话一样说话和倾听。
2. 实时反馈:用户可以看到部分转录和AI响应的实时更新。
3. 低延迟设计:优化的架构使用音频块流传输来实现低延迟。
4. 智能转话:动态静默检测(turndetect.py)可以适应对话节奏。
5. 灵活的AI大脑:可插拔的LLM后端(默认为Ollama,支持OpenAI)。
6. 可定制的语音:支持不同的文本到语音引擎(Kokoro、Coqui、Orpheus)。
7. 网页界面:使用原生JavaScript和Web Audio API实现简洁美观的UI。
8. 容器化部署:推荐使用Docker Compose进行更简单的依赖管理。
#GitHub #Voice #Tool #Docker #AI
使用 Docker 进行部署管理,适合用来实现语音助手和聊天机器人应用
https://github.com/KoljaB/RealtimeVoiceChat
一个基于语音的实时人工智能聊天系统。它允许用户通过语音与一个大型语言模型(LLM)进行自然对话,并实时获得语音响应。该系统采用了一个复杂的客户端-服务器架构,以实现低延迟的交互体验。
1. 流畅的对话体验:用户可以像真实对话一样说话和倾听。
2. 实时反馈:用户可以看到部分转录和AI响应的实时更新。
3. 低延迟设计:优化的架构使用音频块流传输来实现低延迟。
4. 智能转话:动态静默检测(turndetect.py)可以适应对话节奏。
5. 灵活的AI大脑:可插拔的LLM后端(默认为Ollama,支持OpenAI)。
6. 可定制的语音:支持不同的文本到语音引擎(Kokoro、Coqui、Orpheus)。
7. 网页界面:使用原生JavaScript和Web Audio API实现简洁美观的UI。
8. 容器化部署:推荐使用Docker Compose进行更简单的依赖管理。
核心AI/ML库:
- RealtimeSTT (语音转文字)
- RealtimeTTS (文字转语音)
- transformers (转话检测, 分词)
- torch / torchaudio (机器学习框架)
- ollama / openai (LLM客户端)
音频处理: numpy, scipy
#GitHub #Voice #Tool #Docker #AI
Real Time Speech Transcription with FastRTC - 实时语音转录,让语音秒变文字
https://github.com/sofi444/realtime-transcription-fastrtc
本地运行,无需联网,保护隐私;支持多种语言,满足多语种需求;高效实时,低延迟转录,流畅体验
● 使用 FastRTC 处理实时音频流
● 使用 Whisper 模型进行实时语音转录
● 提供简单的 web 界面,可以在本地运行
● 允许用户调整各种参数,如音频流、语音活动检测等
#GitHub #AI #Voice #Tool
https://github.com/sofi444/realtime-transcription-fastrtc
本地运行,无需联网,保护隐私;支持多种语言,满足多语种需求;高效实时,低延迟转录,流畅体验
● 使用 FastRTC 处理实时音频流
● 使用 Whisper 模型进行实时语音转录
● 提供简单的 web 界面,可以在本地运行
● 允许用户调整各种参数,如音频流、语音活动检测等
#GitHub #AI #Voice #Tool
VideoTextPro - 字幕生成/文字提取
https://github.com/ldlkuz/video-to-text-conversion
VideoTextPro 是一个专为抖音直播录制视频优化的文字转换工具。
基于 WEIFENG2333/AsrTools 开发,特别适合处理直播回放和录制视频的文字提取及字幕生成。
● 优化支持 FLV 格式(抖音直播录制标准格式)
● 自动扫描录播文件夹并批量处理
● 支持多种字幕格式(SRT、ASS、TXT)
● 多线程并发处理,提高效率
● 清晰的文件处理状态显示
● 记忆上次使用的工作目录和导出格式
● 支持软件启动时自动执行任务
● 新增一键打开工作目录功能
#Video #Voice #Tool #GitHub
https://github.com/ldlkuz/video-to-text-conversion
VideoTextPro 是一个专为抖音直播录制视频优化的文字转换工具。
基于 WEIFENG2333/AsrTools 开发,特别适合处理直播回放和录制视频的文字提取及字幕生成。
● 优化支持 FLV 格式(抖音直播录制标准格式)
● 自动扫描录播文件夹并批量处理
● 支持多种字幕格式(SRT、ASS、TXT)
● 多线程并发处理,提高效率
● 清晰的文件处理状态显示
● 记忆上次使用的工作目录和导出格式
● 支持软件启动时自动执行任务
● 新增一键打开工作目录功能
#Video #Voice #Tool #GitHub
小牛视频翻译
https://github.com/agan-j/xiaoniu
项目目前尚未开源
小牛视频翻译是一款智能视频AI翻译工具,可以将全球视频的语音和字幕自动翻译为中文语音和字幕,帮助用户更好地学习和理解全世界的知识。
1. 视频翻译: 一键将视频中的语音或字幕翻译为中文、英语、日语、法语、韩语等多种语言,支持本地和YouTube视频。
2. 字幕翻译: 自动生成多语言字幕,并提供多种字幕样式选择。
3. 字幕转语音: 将字幕内容转换为音频,支持多种男女声线选择,实现声音与画面的精准对齐。
4. 语音转字幕: 智能识别视频语音并生成字幕,支持多语言。
5. 人声分离与翻译: 自动分离背景音乐和人声,将人声翻译为其他语言音频。
6. 创作Web UI界面: 在视频观看时实时修改字幕内容和语音。
#GitHub #Video #Voice #Tool
https://github.com/agan-j/xiaoniu
项目目前尚未开源
小牛视频翻译是一款智能视频AI翻译工具,可以将全球视频的语音和字幕自动翻译为中文语音和字幕,帮助用户更好地学习和理解全世界的知识。
1. 视频翻译: 一键将视频中的语音或字幕翻译为中文、英语、日语、法语、韩语等多种语言,支持本地和YouTube视频。
2. 字幕翻译: 自动生成多语言字幕,并提供多种字幕样式选择。
3. 字幕转语音: 将字幕内容转换为音频,支持多种男女声线选择,实现声音与画面的精准对齐。
4. 语音转字幕: 智能识别视频语音并生成字幕,支持多语言。
5. 人声分离与翻译: 自动分离背景音乐和人声,将人声翻译为其他语言音频。
6. 创作Web UI界面: 在视频观看时实时修改字幕内容和语音。
#GitHub #Video #Voice #Tool
妙幕 / SmartSub - 字幕生成/翻译
https://github.com/buxuku/SmartSub
「妙幕」是一款跨平台客户端工具,可以批量为视频或者音频生成字幕文件,并支持对字幕进行翻译,支持多家翻译服务。
● 支持多种视频/音频格式生成字幕
● 支持对生成的字幕或导入的字幕进行翻译
● 支持本地化处理,无需上传视频,保护隐私的同时也拥有更快的处理速度
● 支持多种翻译服务,包括火山引擎翻译、百度翻译、微软翻译器、DeepLX 翻译、本地模型 Ollama 翻译、AI 聚合平台 DeerAPI 等
● 支持自定义字幕文件名和翻译后的字幕内容
● 支持硬件加速,包括 NVIDIA CUDA 和 Apple Core ML
● 支持运行本地安装的 whisper 命令
#Video #Voice #GitHub #Tool
https://github.com/buxuku/SmartSub
「妙幕」是一款跨平台客户端工具,可以批量为视频或者音频生成字幕文件,并支持对字幕进行翻译,支持多家翻译服务。
● 支持多种视频/音频格式生成字幕
● 支持对生成的字幕或导入的字幕进行翻译
● 支持本地化处理,无需上传视频,保护隐私的同时也拥有更快的处理速度
● 支持多种翻译服务,包括火山引擎翻译、百度翻译、微软翻译器、DeepLX 翻译、本地模型 Ollama 翻译、AI 聚合平台 DeerAPI 等
● 支持自定义字幕文件名和翻译后的字幕内容
● 支持硬件加速,包括 NVIDIA CUDA 和 Apple Core ML
● 支持运行本地安装的 whisper 命令
#Video #Voice #GitHub #Tool
EasyVoice - 开源文本转语音工具,支持超长文本,多角色配音
https://easyvoice.ioplus.tech/
https://github.com/cosin2077/easyVoice
EasyVoice 是一个开源的文本、小说智能转语音解决方案,提供一键生成语音和字幕、AI 智能推荐配音、完全免费无限制等功能。
可以轻松将大段文本转为语音,并支持流式传输、多语言、自定义设置等高级功能。
- 文本转语音:一键将大段文本转为语音,高效又省时
- 流式传输:再多的文本,都可以迅速返回音频直接开始试听
- 多语言支持:支持中文、英文等多种语言
- 字幕支持:自动生成字幕文件,方便视频制作和字幕翻译
- 角色配音:提供多种声音选项,完美适配不同角色
- 自定义设置:可调整语速、音调等参数,打造专属语音风格
- AI 推荐:通过 AI 智能推荐最适合的语音配置
- 试听功能:生成前可试听效果,确保每一句都如你所愿
#AI #GitHub #Tool #TTS #Voice
https://easyvoice.ioplus.tech/
https://github.com/cosin2077/easyVoice
EasyVoice 是一个开源的文本、小说智能转语音解决方案,提供一键生成语音和字幕、AI 智能推荐配音、完全免费无限制等功能。
可以轻松将大段文本转为语音,并支持流式传输、多语言、自定义设置等高级功能。
- 文本转语音:一键将大段文本转为语音,高效又省时
- 流式传输:再多的文本,都可以迅速返回音频直接开始试听
- 多语言支持:支持中文、英文等多种语言
- 字幕支持:自动生成字幕文件,方便视频制作和字幕翻译
- 角色配音:提供多种声音选项,完美适配不同角色
- 自定义设置:可调整语速、音调等参数,打造专属语音风格
- AI 推荐:通过 AI 智能推荐最适合的语音配置
- 试听功能:生成前可试听效果,确保每一句都如你所愿
#AI #GitHub #Tool #TTS #Voice
KrillinAI - AI 视频翻译和配音工具
https://github.com/krillinai/KrillinAI
KrillinAI 是一款基于 AI 大模型的视频翻译和配音工具,提供专业级翻译和一键部署全流程,可以生成适配抖音、小红书、哔哩哔哩、视频号、TikTok、YouTube Shorts 等平台的内容。
● 一键启动工作流程,新的桌面版更易使用
● 支持视频下载(集成 yt-dlp)和本地文件上传
● 基于 Whisper 的高精度字幕识别
● 基于 LLM 的字幕智能分段和对齐
● 专业级段落翻译,确保翻译一致性
● 一键替换特定领域词汇
● 支持配音和语音克隆
● 自动调整视频格式,适配横竖屏
#AI #Video #Voice #GitHub #Tool
https://github.com/krillinai/KrillinAI
KrillinAI 是一款基于 AI 大模型的视频翻译和配音工具,提供专业级翻译和一键部署全流程,可以生成适配抖音、小红书、哔哩哔哩、视频号、TikTok、YouTube Shorts 等平台的内容。
● 一键启动工作流程,新的桌面版更易使用
● 支持视频下载(集成 yt-dlp)和本地文件上传
● 基于 Whisper 的高精度字幕识别
● 基于 LLM 的字幕智能分段和对齐
● 专业级段落翻译,确保翻译一致性
● 一键替换特定领域词汇
● 支持配音和语音克隆
● 自动调整视频格式,适配横竖屏
#AI #Video #Voice #GitHub #Tool
meeting-minutes - AI 驱动的会议记录助手
https://github.com/Zackriya-Solutions/meeting-minutes
Meetily 是一个开源的 AI 驱动的实时会议记录和会议纪要生成器,可以完全在本地设备上运行(已支持 macOS 和 Windows OS,正在开发 Linux 支持)。
它可以捕获实时会议音频,实时转录,并生成会议纪要,同时确保用户隐私。
这个解决方案与其他会议转录工具不同,因为它提供了隐私优先、成本效益、灵活性和可定制性等优势。
● 实时音频捕获(麦克风和系统音频)
● 使用 Whisper.cpp 进行实时转录
● 支持扬声器分离
● 本地处理,保护隐私
● 为 macOS 和 Windows 打包应用程序
● 支持导出为 Markdown/PDF
#AI #GitHub #Tool #Voice
https://github.com/Zackriya-Solutions/meeting-minutes
Meetily 是一个开源的 AI 驱动的实时会议记录和会议纪要生成器,可以完全在本地设备上运行(已支持 macOS 和 Windows OS,正在开发 Linux 支持)。
它可以捕获实时会议音频,实时转录,并生成会议纪要,同时确保用户隐私。
这个解决方案与其他会议转录工具不同,因为它提供了隐私优先、成本效益、灵活性和可定制性等优势。
● 实时音频捕获(麦克风和系统音频)
● 使用 Whisper.cpp 进行实时转录
● 支持扬声器分离
● 本地处理,保护隐私
● 为 macOS 和 Windows 打包应用程序
● 支持导出为 Markdown/PDF
#AI #GitHub #Tool #Voice
Step-Audio
业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点:
1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型 Step-Audio-Chat。
高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖,生成高质量的合成音频数据,并同步开源首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B 。
精细语音控制: 支持多种情绪(如生气,高兴,悲伤)、方言(包括粤语、四川话等)和唱歌(包括 RAP、干声哼唱)的精准调控,满足用户对多样化语音生成的需求。
扩展工具调用: 通过 ToolCall 机制和角色扮演增强,进一步提升其在 Agents 和复杂任务中的表现。
https://github.com/stepfun-ai/Step-Audio
#AI #GitHub #Voice
业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点:
1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型 Step-Audio-Chat。
高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖,生成高质量的合成音频数据,并同步开源首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B 。
精细语音控制: 支持多种情绪(如生气,高兴,悲伤)、方言(包括粤语、四川话等)和唱歌(包括 RAP、干声哼唱)的精准调控,满足用户对多样化语音生成的需求。
扩展工具调用: 通过 ToolCall 机制和角色扮演增强,进一步提升其在 Agents 和复杂任务中的表现。
https://github.com/stepfun-ai/Step-Audio
#AI #GitHub #Voice
文字转语音工具,支持多种语言和语音,如 jessie、C3PO、ghostface 等 TikTok 语音,每个语言下都有很多角色,比如中文就有 熊二、猴哥、小萝莉 等,最多可输入 500 字
#TTS #URL #Tool #Voice