Faster-Whisper:告别慢吞吞,快速高效语音转写
告别慢吞吞,用 Faster-Whisper 快速转写语音!
https://github.com/SYSTRAN/faster-whisper
你还在为语音转文字的速度慢而头疼?别担心,今天就来介绍一个神器—— Faster-Whisper!它基于 OpenAI 的 Whisper 模型,利用 CTranslate2 这个高效的 Transformer 推理引擎,让转写速度比原版 Whisper 快 4 倍,同时还能节省内存!
Faster-Whisper 的优势:
- 速度更快: 相较于原版 Whisper,Faster-Whisper 在相同精度下,速度提升 4 倍!
- 内存更低: Faster-Whisper 在转写过程中需要的内存更少,可以更轻松地处理大文件。
- 8 位量化: Faster-Whisper 支持 8 位量化,在 CPU 和 GPU 上都能进一步提升效率。
实际使用场景:
假设你有一段 13 分钟的音频文件,需要进行转写。使用原版 Whisper,可能需要花费几分钟甚至更长时间。而使用 Faster-Whisper,只需要短短几分钟就能完成转写!
安装和使用:
安装 Faster-Whisper 非常简单,只需使用 pip 命令即可:
pip install faster-whisper
使用 Faster-Whisper 进行转写也很容易,只需几行代码:
from faster_whisper import WhisperModel
model_size = "large-v3"
model = WhisperModel(model_size, device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
更多功能:
- Distil-Whisper 支持: Faster-Whisper 支持 Distil-Whisper 模型,提供更轻量级的转写方案。
- 词级别时间戳: 可以获取每个单词的开始和结束时间戳。
- VAD 过滤: 可以过滤掉音频中的无语音部分,提高转写效率。
总结:
Faster-Whisper 是一个高效、易用的语音转文字工具,可以显著提高你的转写速度,节省你的时间和精力。现在就来体验 Faster-Whisper 的强大功能吧!
- 原文作者:iamdev
- 原文链接:https://blog.iamdev.cn/post/2024/Faster_Whisper_%E5%91%8A%E5%88%AB%E6%85%A2%E5%90%9E%E5%90%9E_%E5%BF%AB%E9%80%9F%E9%AB%98%E6%95%88%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%86%99__/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止转载 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。