EmotiVoice-个性化多声音调的开源语音合成引擎

2024年7月12日

| 阅读

EmotiVoice: 体验个性化多声音调的语音合成引擎

大家好！今天来给大家介绍一个非常酷的开源项目——EmotiVoice，它是一款功能强大、现代化的文本转语音引擎，并且完全免费！ https://github.com/netease-youdao/EmotiVoice

EmotiVoice 支持中文和英文，拥有超过 2000 种不同的语音（具体可以查看语音列表）。最令人兴奋的是，它拥有情绪合成功能，可以让你生成各种情绪的语音，比如开心、激动、悲伤、愤怒等等。

使用方式简单易行：

Web 页面： EmotiVoice 提供了一个易于使用的 Web 界面，让你轻松体验它的功能。
脚本接口： 如果你需要批量生成语音，还可以使用脚本接口。

更多精彩功能:

演示平台： 在 Replicate 上可以体验 EmotiVoice 演示版：EmotiVoice Demo
Mac 应用： EmotiVoice 的 Mac 应用于 2023 年 12 月 28 日发布，可以下载体验：下载链接
HTTP API： EmotiVoice HTTP API 于 2023 年 12 月 6 日发布，使用更方便，提供超过 13,000 次免费调用，并支持 Zhiyun 提供的更多吸引人的语音：API 文档
语音克隆： EmotiVoice 支持使用你的个人数据进行语音克隆，并提供了 DataBaker Recipe 和 LJSpeech Recipe：语音克隆文档

未来展望：

支持更多语言，例如日语和韩语。
EmotiVoice 非常重视社区反馈和用户需求，欢迎你贡献你的想法！

快速上手：

Docker 镜像： 最简单的方法是运行 Docker 镜像。你需要一台配备 NVidia GPU 的机器。如果没有，请按照 Linux 或 Windows WSL2 的说明设置 NVidia 容器工具。然后，可以使用以下命令运行 EmotiVoice：

docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest

conda 环境：

conda create -n EmotiVoice python=3.8 -y
conda activate EmotiVoice
pip install torch torchaudio pip install numpy numba scipy transformers soundfile yacs g2p_en jieba pypinyin pypinyin_dict

下载预训练模型文件： 请参考 wiki 页面：https://github.com/syq163/EmotiVoice/wiki/How-to-download-the-pretrained-model-files
推理： 下载预训练模型后，可以使用以下命令进行推理：

python inference_am_vocoder_joint.py \
    --logdir prompt_tts_open_source_joint \
    --config_folder config/joint \
    --checkpoint g_00140000 \
    --test_file data/inference/text

交互式 TTS 演示页面： 运行以下命令，使用交互式 TTS 演示页面：

pip install streamlit streamlit run demo_page.py

OpenAI 兼容 TTS API： 感谢 @lewangdev 添加了 OpenAI 兼容的 API。可以使用以下命令设置：

pip install fastapi pydub uvicorn[standard] pyrubberband uvicorn openaiapi:app --reload

希望这个介绍能帮助你更好地了解 EmotiVoice！

原文作者：iamdev
原文链接：https://blog.iamdev.cn/post/2024/EmotiVoice__%E4%B8%AA%E6%80%A7%E5%8C%96%E5%A4%9A%E5%A3%B0%E9%9F%B3%E8%B0%83%E7%9A%84%E5%BC%80%E6%BA%90%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90%E5%BC%95%E6%93%8E__/
版权声明：本作品采用知识共享署名-非商业性使用-禁止转载 4.0 国际许可协议进行许可，非商业转载请注明出处（作者，原文链接），商业转载请联系作者获得授权。

See Also