Silero VAD:一款轻量级、高精度的语音活动检测器

https://github.com/snakers4/silero-vad

Silero VAD 是一个预训练的,企业级语音活动检测器 (VAD),也提供语音识别模型。

为什么选择 Silero VAD?

  • **高精度:**Silero VAD 在语音检测任务上表现出色,拥有领先的检测精度。
  • **快速:**单个音频片段(30+ 毫秒)在单核 CPU 上处理时间不到 1ms。使用批处理或 GPU 可以进一步提高性能。
  • **轻量级:**JIT 模型大小约为 2MB。
  • **通用性:**Silero VAD 在包含 6000 多种语言的庞大语料库上进行训练,并在不同领域、不同背景噪音和音频质量水平的音频上表现良好。
  • **灵活的采样率支持:**Silero VAD 支持 8000 Hz 和 16000 Hz 的采样率。
  • **高度可移植性:**Silero VAD 充分利用了 PyTorch 和 ONNX 丰富的生态系统,可以在这些运行时环境中运行。
  • **自由使用:**Silero VAD 以 permissive 许可证 (MIT) 发布,没有附加条件 - 没有 telemetry、密钥、注册、内置到期时间、密钥或供应商锁定。

快速入门

import torch
torch.set_num_threads(1)

model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad', model='silero_vad')
(get_speech_timestamps, _, read_audio, _, _) = utils

wav = read_audio('path_to_audio_file')
speech_timestamps = get_speech_timestamps(wav, model)

典型用例

  • 语音活动检测用于物联网/边缘/移动用例
  • 数据清理和准备,语音检测
  • 电话和呼叫中心自动化,语音机器人
  • 语音接口