包含标签 Speaker Embedding 的文章

基于 Whisper 的说话人识别流水线

2024年8月11日

基于 OpenAI Whisper 的说话人识别流水线：精准识别每句话的说话者

https://github.com/MahmoudAshraf97/whisper-diarization

什么是这个项目？

这个仓库将 Whisper 语音识别能力与语音活动检测 (VAD) 和说话人嵌入结合起来，从而识别出 Whisper 生成的每句话的说话者。

以下是它的工作原理：

提取语音: 首先，从音频中提取语音信号，以提高说话人嵌入的准确性。
生成文字: 然后使用 Whisper 生成文本转录。
时间戳校准: 使用 WhisperX 校正并对齐时间戳，以帮助最大程度地减少由于时间偏移导致的识别错误。
语音活动检测: 将音频输入 MarbleNet 进行 VAD 和分割，排除沉默部分。
说话人嵌入: 使用 TitaNet 从每个片段中提取说话人嵌入，以便识别每个片段的说话者。
说话人关联: 将结果与 WhisperX 生成的时间戳关联起来，根据时间戳检测出每一句话的说话者。
标点符号重对齐: 使用标点符号模型补偿轻微的时间偏移，进一步提高准确性。

WhisperX 和 NeMo 参数:

……