HeyGem.ai:一款完全离线的AI视频合成工具,打造你的专属数字形象

HeyGem.ai 是一个开源项目,致力于打造一款完全离线的视频合成工具,它可以在Windows系统上运行,并能精准地克隆你的外貌和声音,实现你的数字形象化。你可以通过文字和语音驱动虚拟形象,创作个性化的视频内容。由于完全离线运行,它能有效保护你的隐私,同时提供便捷高效的数字化体验。

核心功能:

  • 精准的外貌和声音克隆: 使用先进的AI算法捕捉人脸特征,构建逼真的虚拟模型;精准克隆声音,捕捉和重现人声的细微特征,支持各种声音参数设置,创造高相似度的克隆效果。
  • 文本和语音驱动的虚拟形象: 通过自然语言处理技术理解文本内容,将其转化为自然流畅的语音来驱动虚拟形象;也可以直接使用语音输入,让虚拟形象根据语音的节奏和语调执行相应的动作和面部表情,使虚拟形象的表演更加自然生动。
  • 高效的视频合成: 高度同步数字人视频图像和声音,实现自然流畅的口型同步,智能优化音视频同步效果。
  • 多语言支持: 脚本支持八种语言,包括英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

主要优势:

  • 完全离线运行: 无需连接互联网,有效保护用户隐私,允许用户在安全、独立的环境中进行创作,避免网络传输过程中潜在的数据泄露风险。
  • 用户友好: 界面简洁直观,即使是没有任何技术背景的初学者也能轻松上手,快速掌握软件的使用方法,开启数字人创作之旅。
  • 多种模型支持: 支持导入多个模型,并通过一键启动包进行管理,方便用户根据不同的创作需求和应用场景选择合适的模型。

技术支持:

  • 声音克隆技术: 使用人工智能等先进技术,基于给定的声音样本生成相似或相同声音,涵盖语音的语境、语调、速度等方面。
  • 自动语音识别(ASR): 将人类语音中的词汇内容转换为计算机可读的输入(文本格式),使计算机能够“理解”人类的语音。本项目基于fun-asr。
  • 计算机视觉技术: 用于视频合成中的视觉处理,包括人脸识别和口型分析,确保虚拟形象的口型与语音和文本内容匹配。

依赖项:

  • Nodejs 18
  • Docker镜像: docker pull guiji2025/fun-asr:1.0.2, docker pull guiji2025/fish-speech-ziming:1.0.39, docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

安装步骤:

  1. 先决条件:
    • D盘: 主要用于存储数字人和项目数据,需要30GB以上的可用空间。
    • C盘: 用于存储服务镜像文件,需要100GB以上的可用空间。如果C盘空间不足,可以在安装Docker后,选择剩余空间大于100GB的其他磁盘目录。
    • 系统要求: 目前支持 Windows 10 19042.1526 或更高版本。
    • 推荐配置: CPU:13th Gen Intel Core i5-13400F;内存:32GB;显卡:RTX 4070。
    • 确保安装了NVIDIA显卡并正确安装驱动程序。 NVIDIA驱动下载链接:https://www.nvidia.cn/drivers/lookup/
  2. 安装 Windows Docker:
    • 使用 wsl --list --verbose 命令检查是否安装了 WSL。如果已安装,则无需进一步安装。
    • WSL 安装命令:wsl --install。可能因网络问题导致失败,请多次尝试。
    • 安装过程中,需要设置并记住新的用户名和密码。
    • 使用 wsl --update 更新 WSL。
    • 下载 Docker for Windows,根据你的 CPU 架构选择合适的安装包。
  3. 运行 Docker:
    • 接受协议并跳过首次运行时的登录。
  4. 安装服务器:
    • 使用 Docker Compose 进行安装,docker-compose.yml 文件位于 /deploy 目录下。
    • /deploy 目录下执行 docker-compose up -d 命令。
    • 耐心等待(约半小时,速度取决于网络),下载将消耗约 70GB 的流量,请确保使用 WiFi。
    • 当在 Docker 中看到三个服务处于运行状态时,表示安装成功。
  5. 客户端:
    • 构建脚本为 npm run build:win,执行后将在 dist 目录中生成 HeyGem-1.0.0-setup.exe
    • 双击 HeyGem-1.0.0-setup.exe 进行安装。

开放 APIs:

已经开放了模型训练和视频合成的API。Docker启动后,将在本地暴露几个端口,可以通过 http://127.0.0.1 访问。

  • 模型训练API: http://127.0.0.1:18180/v1/preprocess_and_tranhttp://127.0.0.1:18180/v1/invoke
  • 视频合成API: http://127.0.0.1:8383/easy/submithttp://127.0.0.1:8383/easy/query?code=${taskCode}

具体代码请参考:

  • src/main/service/model.js
  • src/main/service/video.js
  • src/main/service/voice.js

提问前的自检步骤:

  1. 检查所有三个服务是否都处于 Running 状态。
  2. 确认你的机器是否安装了 NVIDIA 显卡,并且驱动程序已正确安装,这也是项目能运行的前提。
  3. 确保服务器和客户端都已更新到最新版本,由于项目是新开源的,社区非常活跃,并且更新频繁,你的问题可能已经在新版本中得到解决。
  4. GitHub Issues 会不断更新,问题每天都在解决和关闭,请经常查看,可能已经解决了你的问题。

遇到问题,可以通过以下方式解决:

  • 查看GitHub Issues
  • 服务器:前往 /deploy 目录并重新执行 docker-compose up -d
  • 客户端:拉取代码并重新构建
  • 邮箱: end_sub@hotmail.com

总之,HeyGem.ai 是一个有潜力的开源项目,值得关注和尝试。