HeyGem.ai：完全离线的AI视频合成工具，打造专属数字形象

HeyGem.ai：一款完全离线的AI视频合成工具，打造你的专属数字形象

HeyGem.ai 是一个开源项目，致力于打造一款完全离线的视频合成工具，它可以在Windows系统上运行，并能精准地克隆你的外貌和声音，实现你的数字形象化。你可以通过文字和语音驱动虚拟形象，创作个性化的视频内容。由于完全离线运行，它能有效保护你的隐私，同时提供便捷高效的数字化体验。

核心功能：

精准的外貌和声音克隆： 使用先进的AI算法捕捉人脸特征，构建逼真的虚拟模型；精准克隆声音，捕捉和重现人声的细微特征，支持各种声音参数设置，创造高相似度的克隆效果。
文本和语音驱动的虚拟形象： 通过自然语言处理技术理解文本内容，将其转化为自然流畅的语音来驱动虚拟形象；也可以直接使用语音输入，让虚拟形象根据语音的节奏和语调执行相应的动作和面部表情，使虚拟形象的表演更加自然生动。
高效的视频合成： 高度同步数字人视频图像和声音，实现自然流畅的口型同步，智能优化音视频同步效果。
多语言支持： 脚本支持八种语言，包括英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

主要优势：

完全离线运行： 无需连接互联网，有效保护用户隐私，允许用户在安全、独立的环境中进行创作，避免网络传输过程中潜在的数据泄露风险。
用户友好： 界面简洁直观，即使是没有任何技术背景的初学者也能轻松上手，快速掌握软件的使用方法，开启数字人创作之旅。
多种模型支持： 支持导入多个模型，并通过一键启动包进行管理，方便用户根据不同的创作需求和应用场景选择合适的模型。

技术支持：

声音克隆技术： 使用人工智能等先进技术，基于给定的声音样本生成相似或相同声音，涵盖语音的语境、语调、速度等方面。
自动语音识别（ASR）： 将人类语音中的词汇内容转换为计算机可读的输入（文本格式），使计算机能够“理解”人类的语音。本项目基于fun-asr。
计算机视觉技术： 用于视频合成中的视觉处理，包括人脸识别和口型分析，确保虚拟形象的口型与语音和文本内容匹配。

依赖项：

Nodejs 18
Docker镜像： docker pull guiji2025/fun-asr:1.0.2, docker pull guiji2025/fish-speech-ziming:1.0.39, docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

安装步骤：

先决条件：
- D盘： 主要用于存储数字人和项目数据，需要30GB以上的可用空间。
- C盘： 用于存储服务镜像文件，需要100GB以上的可用空间。如果C盘空间不足，可以在安装Docker后，选择剩余空间大于100GB的其他磁盘目录。
- 系统要求： 目前支持 Windows 10 19042.1526 或更高版本。
- 推荐配置： CPU：13th Gen Intel Core i5-13400F；内存：32GB；显卡：RTX 4070。
- 确保安装了NVIDIA显卡并正确安装驱动程序。 NVIDIA驱动下载链接：https://www.nvidia.cn/drivers/lookup/
安装 Windows Docker：
- 使用 wsl --list --verbose 命令检查是否安装了 WSL。如果已安装，则无需进一步安装。
- WSL 安装命令：wsl --install。可能因网络问题导致失败，请多次尝试。
- 安装过程中，需要设置并记住新的用户名和密码。
- 使用 wsl --update 更新 WSL。
- 下载 Docker for Windows，根据你的 CPU 架构选择合适的安装包。
运行 Docker：
- 接受协议并跳过首次运行时的登录。
安装服务器：
- 使用 Docker Compose 进行安装，docker-compose.yml 文件位于 /deploy 目录下。
- 在 /deploy 目录下执行 docker-compose up -d 命令。
- 耐心等待（约半小时，速度取决于网络），下载将消耗约 70GB 的流量，请确保使用 WiFi。
- 当在 Docker 中看到三个服务处于运行状态时，表示安装成功。
客户端:
- 构建脚本为 npm run build:win，执行后将在 dist 目录中生成 HeyGem-1.0.0-setup.exe。
- 双击 HeyGem-1.0.0-setup.exe 进行安装。

开放 APIs：

已经开放了模型训练和视频合成的API。Docker启动后，将在本地暴露几个端口，可以通过 http://127.0.0.1 访问。

模型训练API: http://127.0.0.1:18180/v1/preprocess_and_tran 和 http://127.0.0.1:18180/v1/invoke
视频合成API: http://127.0.0.1:8383/easy/submit和http://127.0.0.1:8383/easy/query?code=${taskCode}

具体代码请参考：

src/main/service/model.js
src/main/service/video.js
src/main/service/voice.js

提问前的自检步骤：

检查所有三个服务是否都处于 Running 状态。
确认你的机器是否安装了 NVIDIA 显卡，并且驱动程序已正确安装，这也是项目能运行的前提。
确保服务器和客户端都已更新到最新版本，由于项目是新开源的，社区非常活跃，并且更新频繁，你的问题可能已经在新版本中得到解决。
GitHub Issues 会不断更新，问题每天都在解决和关闭，请经常查看，可能已经解决了你的问题。

遇到问题，可以通过以下方式解决：

查看GitHub Issues
服务器：前往 /deploy 目录并重新执行 docker-compose up -d
客户端：拉取代码并重新构建
邮箱: end_sub@hotmail.com

总之，HeyGem.ai 是一个有潜力的开源项目，值得关注和尝试。

HeyGem.ai：完全离线的AI视频合成工具，打造专属数字形象

HeyGem.ai：一款完全离线的AI视频合成工具，打造你的专属数字形象

See Also

最近文章

分类

标签

友情链接

其它