Dia:一次性生成超现实对话的 TTS 模型
Dia: 一款能够一次性生成超现实对话的 TTS 模型
Nari Labs 推出了 Dia,一个 16 亿参数的文本转语音(TTS)模型,它能够直接从文本稿本中生成高度逼真的对话。本文将介绍 Dia 的主要特性、使用方法以及相关的注意事项。
主要特性:
- 超现实对话生成: Dia 可以直接从脚本中生成逼真的对话,无需复杂的后处理。
- 情感和语调控制: 可以通过音频来调节输出,从而控制情感和语调。
- 非语言交流生成: 该模型可以生成非语言交流,例如笑声、咳嗽和清嗓子等。
- 语音克隆: 可以通过上传音频克隆声音,并用于生成新的对话内容。
- 支持对话角色标签: 通过
[S1]
和[S2]
标签来区别不同角色。
模型地址:
Dia 的预训练模型权重托管在 Hugging Face 上,你可以通过以下地址访问: nari-labs/Dia-1.6B
快速上手:
可以通过以下步骤快速体验 Dia:
-
克隆 GitHub 仓库:
git clone https://github.com/nari-labs/dia.git cd dia
-
运行 Gradio UI:
建议使用 uv 运行,如未安装,请先安装 uv
uv run app.py
或则:
python -m venv .venv source .venv/bin/activate pip install uv uv run app.py
这将启动一个 Gradio 用户界面,方便测试和使用模型。
使用方法 (Python 库):
以下代码展示了如何使用 Dia 的 Python 库生成音频:
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
硬件要求与推理速度:
- Dia 已经在 GPU(Pytorch 2.0+, CUDA 12.6)上进行了测试。 CPU支持将在稍后添加。
- 完整的 Dia 版本需要大约 10GB 的显存才能运行。
- 在 A4000 GPU 上,Dia 大致生成 40 个 token/秒(86 个 token 等于 1 秒的音频)。
协议:
该项目基于 Apache License 2.0 协议。
免责声明:
该项目提供了一个高保真语音生成模型,仅供研究和教育用途。严禁以下使用:
- 身份滥用: 未经许可,请勿生成与真实个人相似的音频。
- 欺骗性内容: 请勿使用此模型生成误导性内容(例如,虚假新闻)。
- 非法或恶意使用: 请勿将此模型用于非法或意图造成伤害的活动。
未来工作:
- Docker 支持
- 优化推理速度
- 添加量化以提高内存效率
希望 Dia 的发布能够促进 TTS 领域的研究和应用,欢迎大家积极参与贡献!
- 原文作者:iamdev
- 原文链接:https://blog.iamdev.cn/post/2025/Dia%E4%B8%80%E6%AC%A1%E6%80%A7%E7%94%9F%E6%88%90%E8%B6%85%E7%8E%B0%E5%AE%9E%E5%AF%B9%E8%AF%9D%E7%9A%84-TTS-%E6%A8%A1%E5%9E%8B/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止转载 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。