基于 Whisper 的说话人识别流水线
基于 OpenAI Whisper 的说话人识别流水线:精准识别每句话的说话者
https://github.com/MahmoudAshraf97/whisper-diarization
什么是这个项目?
这个仓库将 Whisper 语音识别能力与语音活动检测 (VAD) 和说话人嵌入结合起来,从而识别出 Whisper 生成的每句话的说话者。
以下是它的工作原理:
- 提取语音: 首先,从音频中提取语音信号,以提高说话人嵌入的准确性。
- 生成文字: 然后使用 Whisper 生成文本转录。
- 时间戳校准: 使用 WhisperX 校正并对齐时间戳,以帮助最大程度地减少由于时间偏移导致的识别错误。
- 语音活动检测: 将音频输入 MarbleNet 进行 VAD 和分割,排除沉默部分。
- 说话人嵌入: 使用 TitaNet 从每个片段中提取说话人嵌入,以便识别每个片段的说话者。
- 说话人关联: 将结果与 WhisperX 生成的时间戳关联起来,根据时间戳检测出每一句话的说话者。
- 标点符号重对齐: 使用标点符号模型补偿轻微的时间偏移,进一步提高准确性。
WhisperX 和 NeMo 参数:
……