Dia: 一款能够一次性生成超现实对话的 TTS 模型

Nari Labs 推出了 Dia,一个 16 亿参数的文本转语音(TTS)模型,它能够直接从文本稿本中生成高度逼真的对话。本文将介绍 Dia 的主要特性、使用方法以及相关的注意事项。

主要特性:

  • 超现实对话生成: Dia 可以直接从脚本中生成逼真的对话,无需复杂的后处理。
  • 情感和语调控制: 可以通过音频来调节输出,从而控制情感和语调。
  • 非语言交流生成: 该模型可以生成非语言交流,例如笑声、咳嗽和清嗓子等。
  • 语音克隆: 可以通过上传音频克隆声音,并用于生成新的对话内容。
  • 支持对话角色标签: 通过 [S1][S2] 标签来区别不同角色。

模型地址:

……

阅读全文