轻松制作AI数字替身:让人物口型完美匹配音频的AI魔法!

Wav2Lip:制作教程

Wav2Lip 是一个使用深度学习技术将人物口型与给定音频同步的开源项目。它基于 PyTorch 实现,可以处理实时视频和图像序列。Wav2Lip 的优势在于它可以处理各种说话风格和语言,同时生成自然且准确的口型同步效果。本教程将指导您完成 Wav2Lip 的安装和使用过程。

准备工作

在开始之前,请确保您的计算机上安装了以下软件和库:

  • Python 3.6 或更高版本
  • ffmpeg
  • git
  • opencv-python
  • opencv-contrib-python

我这里实验使用的环境如下:

操作系统:Ubuntu 18.04 64位

CPU :intel Xeon(R) E5-2682 V4@2.5GHz *1

内存RAM:32GB

显卡: 英伟达Tesla P4   8G GDDR5

第 1 步:下载 Wav2Lip 项目

首先,克隆 Wav2Lip 项目地址:

接下来,导航到项目文件夹:

cd

第 2 步:安装依赖项

安装项目所需的 Python 依赖项。首先,创建一个虚拟环境:

python3 -m venv venv

激活虚拟环境(Windows 用户请运行 venvScriptsactivate):

source venv/bin/activate

使用 pip 安装依赖项:

pip install -r requirements.txt

这里安装的时候可能会因为requestments.txt中标注的opencv以及torch的版本过低报错:

openCV报错

轻松制作AI数字替身:让人物口型完美匹配音频的AI魔法!

torch报错

轻松制作AI数字替身:让人物口型完美匹配音频的AI魔法!

所以这里需要修改一下requestments.txt为如下内容,安装OpenCV和TORCH的时候可能需要等待挺长时间,根据你的电脑配置以及网速来决定。我到这里就很慢,等了很久。如果安装不上的库,就得独立安装一下。

轻松制作AI数字替身:让人物口型完美匹配音频的AI魔法!

requestments.txt

librosa==0.7.0
numpy==1.17.1
opencv-contrib-python>=4.2.0.34
opencv-python==4.1.0.25
torch==1.1.0
torchvision==0.3.0
tqdm==4.45.0
numba==0.48

第 3 步:下载预训练模型

从项目的 发布页面 下载预训练的 Wav2Lip 模型。将下载的文件解压缩到 Wav2Lip/checkpoints 文件夹中。

pth文件下载地址在本文末

 

第 4 步:准备输入文件

为了使用 Wav2Lip,您需要准备一个视频文件(包含说话者的画面)和一个音频文件(包含要同步的音频)。确保视频和音频文件的长度相匹配。

第 5 步:运行 Wav2Lip

使用以下命令运行 Wav2Lip:

python inference.py --checkpoint_path checkpoints/wav2lip.pth --face input_video.mp4 --audio input_audio.wav --outfile output_video.mp4

其中:

  • --checkpoint_path:预训练模型的路径。
  • --face:输入视频文件的路径。
  • --audio:输入音频文件的路径。
  • --outfile:输出视频文件的路径。

运行此命令后,Wav2Lip 将开始处理输入文件并生成输出视频。

显存不够多线程时候会报错

轻松制作AI数字替身:让人物口型完美匹配音频的AI魔法!

经过耐心等待,输出训练后的视频

轻松制作AI数字替身:让人物口型完美匹配音频的AI魔法!

轻松制作AI数字替身:让人物口型完美匹配音频的AI魔法!

第 6 步:查看结果

在完成生成后,您可以使用任何视频播放器查看 output_video.mp4 文件。您应该会看到说话者的口型与输入音频完美同步。

结束语

恭喜!您现在已经成功使用 Wav2Lip 生成了一个口型与音频同步的视频。您可以尝试使用。

下载权限

查看
  • 免费下载
    评论并刷新后下载
    登录后下载

查看演示

  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
免责说明

本站资源部分来自网友投稿,如有侵犯你的权益请联系管理员或给邮箱发送邮件PubwinSoft@foxmail.com 我们会第一时间进行审核删除。
站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!


如果遇到评论下载的文章,评论后刷新页面点击对应的蓝字按钮即可跳转到下载页面
本站资源少部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR

给TA打赏
共{{data.count}}人
人已打赏
ChatGPTCode开源推荐Free资源开源源码

无限使用,随意切换:GPT-4 和 GPT-3.5【开源推荐】

2023-5-25 8:46:35

Code开源推荐开源源码

数字人:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官

2023-5-25 11:00:15

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索