谷歌现象级产品NotebookLM,被两个本科生自学3个月复刻了!

Nari Labs最新开源了一个超写实对话级文本转语音模型:Dia!

参数量为 16 亿,能够“一步生成”极为逼真的多角色对话语音。

image.png

Nari Lab创始成员Toby Kim与Jaeyong Sung,来自韩国首尔大学和韩国科学技术院(KAIST),其中还有一人在服兵役兼职工作,整个项目0融资启动,自学3个月完成。

image.png

项目完全开源,采用 Apache 2.0 协议,权重和推理代码公开,在GitHub上已经获得7.7Kstar!

image.png

核心功能

  • 高保真文本转对话语音:能直接根据对话文本生成自然、有情感的多说话人语音。

  • 情感与语调可控:可用音频条件(prompt)进行控制,实现情感、语调的定制。

  • 非语言动作生成:支持如(笑声)、(咳嗽)、(叹气)等非言语声音的合成。

  • 语音克隆:可通过音频prompt实现声音克隆(voice cloning)。

  • 一键推理体验:支持 Gradio UI、本地命令行、Python API 直接调用。

image.png

架构设计与技术亮点

  • 单步对话生成:一次性生成完整对话(支持多说话人,如[S1]、[S2]标签)。

  • 非语言标签支持:支持丰富的非语言动作标签,增强真实感。

  • 硬件支持与推理效率

    • 推荐在 GPU 上运行,支持 Pytorch 2.0+,CUDA 12.6。

    • 在企业级 GPU(如A4000)可实现近实时语音生成。

    • 后续会支持 CPU、模型量化、Docker 等。

  • 数据与工程实践:借鉴 SoundStorm、Parakeet、Descript Audio Codec 等前沿技术。

  • 可扩展性:未来计划优化推理速度、降低显存占用、支持更广泛硬件。

GitHub:https://github.com/nari-labs/dia/

Hugging Face:https://huggingface.co/nari-labs/Dia-1.6B

更多演示:https://yummy-fir-7a4.notion.site/dia

应用场景

  • AI 对话助手、语音机器人

  • 数字人、虚拟主播

  • 影视动画配音、多角色游戏语音

  • 内容创作与 remix

  • 语音交互体验、辅助沟通等


点赞(282)

评论列表共有 0 条评论

立即
投稿
返回
顶部