RealtimeSTT

一个面向实时应用的低延迟语音转写 Python 库，具备语音活动检测、唤醒词触发和即时转录能力。

Kolja Beigel · Since 2023-08-29

正在加载评分...

详细介绍

RealtimeSTT 是一个面向实时场景的语音转写库，旨在以最低的延迟提供高质量的转录输出。它支持本地和 GPU 加速推理，内置多种语音活动检测（VAD）策略与唤醒词触发机制，方便在语音助手、实时字幕与交互式应用中使用。项目由社区维护，注重易用性与实时性能。

RealtimeSTT 适用于语音助手、会议实时字幕、实时语音输入法、可视化直播字幕及需要即时文字反馈的交互式系统。它既可用于本地部署以保护隐私，也可在具备 GPU 的服务器上提供更高精度的实时转录服务。

该项目在转录流程中结合了先进的模型（如 Faster_Whisper）与多阶段 VAD 策略，支持 CUDA 加速、流式批处理与回调式 API。配置项允许调节实时批量大小、后处理静默阈值和 beam search 参数，以在延迟与准确率间灵活取舍。