告别慢吞吞,用 Faster-Whisper 快速转写语音!

https://github.com/SYSTRAN/faster-whisper

你还在为语音转文字的速度慢而头疼?别担心,今天就来介绍一个神器—— Faster-Whisper!它基于 OpenAI 的 Whisper 模型,利用 CTranslate2 这个高效的 Transformer 推理引擎,让转写速度比原版 Whisper 快 4 倍,同时还能节省内存!

Faster-Whisper 的优势:

  • 速度更快: 相较于原版 Whisper,Faster-Whisper 在相同精度下,速度提升 4 倍
  • 内存更低: Faster-Whisper 在转写过程中需要的内存更少,可以更轻松地处理大文件。
  • 8 位量化: Faster-Whisper 支持 8 位量化,在 CPU 和 GPU 上都能进一步提升效率。

实际使用场景:

假设你有一段 13 分钟的音频文件,需要进行转写。使用原版 Whisper,可能需要花费几分钟甚至更长时间。而使用 Faster-Whisper,只需要短短几分钟就能完成转写!

安装和使用:

安装 Faster-Whisper 非常简单,只需使用 pip 命令即可:

pip install faster-whisper

使用 Faster-Whisper 进行转写也很容易,只需几行代码:

from faster_whisper import WhisperModel

model_size = "large-v3"
model = WhisperModel(model_size, device="cuda", compute_type="float16")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

更多功能:

  • Distil-Whisper 支持: Faster-Whisper 支持 Distil-Whisper 模型,提供更轻量级的转写方案。
  • 词级别时间戳: 可以获取每个单词的开始和结束时间戳。
  • VAD 过滤: 可以过滤掉音频中的无语音部分,提高转写效率。

总结:

Faster-Whisper 是一个高效、易用的语音转文字工具,可以显著提高你的转写速度,节省你的时间和精力。现在就来体验 Faster-Whisper 的强大功能吧!