Skip to main content

VoiceStreamAI

  1. VoiceStreamAI

    https://github.com/alesaccoia/VoiceStreamAI

    VoiceStreamAI 是一个可以自己托管的 Whisper 解决方案,服务端是 Python,客户端是 JS,基于 WebSocket 实时通信,可以做到语音的实时传输和文本转换。

    系统内部运用了来自Huggingface的语音活动检测(Voice Activity Detection, VAD)技术,以及来自OpenAI的Whisper模型,从而实现对语音的准确识别和处理。

    功能

    支持WebSocket,实现实时音频流的传输。
    采用来自Huggingface的VAD技术,对语音活动进行精确检测。
    利用来自OpenAI的Whisper模型,完成语音转写。
    可针对音频块进行个性化处理。
    具备多语言转写功能。


    https://fxtwitter.com/dotey/status/1740863315264336018

    #RePost #AI #GitHub #Voice 宝玉 (@dotey)
OKHK