Silero VAD：一款轻量级、高精度语音活动检测器

2024年7月9日

| 阅读

Silero VAD：一款轻量级、高精度的语音活动检测器

https://github.com/snakers4/silero-vad

Silero VAD 是一个预训练的，企业级语音活动检测器 (VAD)，也提供语音识别模型。

为什么选择 Silero VAD？

**高精度：**Silero VAD 在语音检测任务上表现出色，拥有领先的检测精度。
**快速：**单个音频片段（30+ 毫秒）在单核 CPU 上处理时间不到 1ms。使用批处理或 GPU 可以进一步提高性能。
**轻量级：**JIT 模型大小约为 2MB。
**通用性：**Silero VAD 在包含 6000 多种语言的庞大语料库上进行训练，并在不同领域、不同背景噪音和音频质量水平的音频上表现良好。
**灵活的采样率支持：**Silero VAD 支持 8000 Hz 和 16000 Hz 的采样率。
**高度可移植性：**Silero VAD 充分利用了 PyTorch 和 ONNX 丰富的生态系统，可以在这些运行时环境中运行。
**自由使用：**Silero VAD 以 permissive 许可证 (MIT) 发布，没有附加条件 - 没有 telemetry、密钥、注册、内置到期时间、密钥或供应商锁定。

快速入门

import torch
torch.set_num_threads(1)

model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad', model='silero_vad')
(get_speech_timestamps, _, read_audio, _, _) = utils

wav = read_audio('path_to_audio_file')
speech_timestamps = get_speech_timestamps(wav, model)

典型用例

语音活动检测用于物联网/边缘/移动用例
数据清理和准备，语音检测
电话和呼叫中心自动化，语音机器人
语音接口

原文作者：iamdev
原文链接：https://blog.iamdev.cn/post/2024/Silero_VAD_%E4%B8%80%E6%AC%BE%E8%BD%BB%E9%87%8F%E7%BA%A7_%E9%AB%98%E7%B2%BE%E5%BA%A6%E8%AF%AD%E9%9F%B3%E6%B4%BB%E5%8A%A8%E6%A3%80%E6%B5%8B%E5%99%A8__/
版权声明：本作品采用知识共享署名-非商业性使用-禁止转载 4.0 国际许可协议进行许可，非商业转载请注明出处（作者，原文链接），商业转载请联系作者获得授权。

See Also