Silero VAD:一款轻量级、高精度语音活动检测器
Silero VAD:一款轻量级、高精度的语音活动检测器
https://github.com/snakers4/silero-vad
Silero VAD 是一个预训练的,企业级语音活动检测器 (VAD),也提供语音识别模型。
为什么选择 Silero VAD?
- **高精度:**Silero VAD 在语音检测任务上表现出色,拥有领先的检测精度。
- **快速:**单个音频片段(30+ 毫秒)在单核 CPU 上处理时间不到 1ms。使用批处理或 GPU 可以进一步提高性能。
- **轻量级:**JIT 模型大小约为 2MB。
- **通用性:**Silero VAD 在包含 6000 多种语言的庞大语料库上进行训练,并在不同领域、不同背景噪音和音频质量水平的音频上表现良好。
- **灵活的采样率支持:**Silero VAD 支持 8000 Hz 和 16000 Hz 的采样率。
- **高度可移植性:**Silero VAD 充分利用了 PyTorch 和 ONNX 丰富的生态系统,可以在这些运行时环境中运行。
- **自由使用:**Silero VAD 以 permissive 许可证 (MIT) 发布,没有附加条件 - 没有 telemetry、密钥、注册、内置到期时间、密钥或供应商锁定。
快速入门
import torch
torch.set_num_threads(1)
model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad', model='silero_vad')
(get_speech_timestamps, _, read_audio, _, _) = utils
wav = read_audio('path_to_audio_file')
speech_timestamps = get_speech_timestamps(wav, model)
典型用例
- 语音活动检测用于物联网/边缘/移动用例
- 数据清理和准备,语音检测
- 电话和呼叫中心自动化,语音机器人
- 语音接口
- 原文作者:iamdev
- 原文链接:https://blog.iamdev.cn/post/2024/Silero_VAD_%E4%B8%80%E6%AC%BE%E8%BD%BB%E9%87%8F%E7%BA%A7_%E9%AB%98%E7%B2%BE%E5%BA%A6%E8%AF%AD%E9%9F%B3%E6%B4%BB%E5%8A%A8%E6%A3%80%E6%B5%8B%E5%99%A8__/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止转载 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。