Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >项目推荐:LivePortrait - 让静态照片“活”起来

项目推荐:LivePortrait - 让静态照片“活”起来

作者头像
wayn
发布于 2025-06-09 08:06:25
发布于 2025-06-09 08:06:25
23000
代码可运行
举报
文章被收录于专栏:wayn的程序开发wayn的程序开发
运行总次数:0
代码可运行

LivePortrait 是由 KwaiVGI 团队开发的一项前沿技术,旨在通过深度学习实现高效、逼真的人像动画生成。使得用户能够通过简单的驱动视频或动作模板,将静态图片“活化”为具有丰富表情和姿态变化的动态人像。

本文将详细介绍 LivePortrait 的功能特点、安装步骤、使用方法以及适用场景,并提供清晰的操作示例,帮助开发者快速上手这一强大工具。

一、LivePortrait 简介 📖

技术亮点

  • 高保真动画生成:支持从单张静态图像生成高质量的动态人物形象。
  • 高效的推理速度:在现代 GPU 上可实现接近实时的动画生成。
  • 灵活的控制方式
    • 支持使用驱动视频(如面部动作视频)或动作模板文件.pkl)进行控制。
    • 提供图像缝合(Stitching)与姿态重定向(Retargeting)两种模式,适应不同应用场景。
  • 跨平台支持
    • 支持 LinuxWindows 系统,兼容 NVIDIA GPU。
    • macOS(Apple Silicon)也提供部分支持,但性能较低。

二、安装与配置指南 ⚙️

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
硬件要求:
内存(RAM):至少 16GB
显卡(GPU):NVIDIA GPU,支持 CUDA 计算能力 ≥ 6.0(如 RTX 30 系列或更高)

1. 克隆仓库并创建环境

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/KwaiVGI/LivePortrait
cd LivePortrait

# 创建 conda 环境
conda create -n LivePortrait python=3.10
conda activate LivePortrait

根据你的 CUDA 版本安装 PyTorch:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 示例(请根据实际版本选择)
pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu118

然后安装依赖项:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install -r requirements.txt

Mac 用户注意:搭载 Apple Silicon 的设备需使用 requirements_macOS.txt 文件安装依赖。X-Pose 依赖项不支持 macOS,因此您可以跳过其安装。人类模式照常工作,但不支持动物模式

2. 下载预训练模型权重

推荐使用 HuggingFace CLI 下载预训练权重:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
huggingface-cli download KwaiVGI/LivePortrait --local-dir pretrained_weights --exclude "*.git*" "README.md" "docs"

若无法访问 HuggingFace,可使用镜像网站 hf-mirror:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download KwaiVGI/LivePortrait --local-dir pretrained_weights ...

下载完成后确保目录结构如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pretrained_weights
├── insightface
│   └── models
│       └── buffalo_l
│           ├── 2d106det.onnx
│           └── det_10g.onnx
├── liveportrait
│   ├── base_models
│   │   ├── appearance_feature_extractor.pth
│   │   ├── motion_extractor.pth
│   │   ├── spade_generator.pth
│   │   └── warping_module.pth
│   ├── landmark.onnx
│   └── retargeting_models
│       └── stitching_retargeting_module.pth
└── liveportrait_animals
    ├── base_models
    │   ├── appearance_feature_extractor.pth
    │   ├── motion_extractor.pth
    │   ├── spade_generator.pth
    │   └── warping_module.pth
    ├── retargeting_models
    │   └── stitching_retargeting_module.pth
    └── xpose.pth

三、使用教程 🚀

快速上手(人类模型)👤 👤

运行以下命令即可生成默认示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 对于Linux和Windows用户
python inference.py

# 对于搭载Apple Silicon的macOS用户(Intel未测试)。注意:这可能比RTX 409020PYTORCH_ENABLE_MPS_FALLBACK=1 python inference.py

输出结果保存在 animations/s6--d0_concat.mp4 中,包含原始输入、驱动视频和生成动画的拼接效果。

自定义输入参数:

或者,您可以通过指定-s-d参数来更改输入:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 输入图像 + 驱动视频
python inference.py -s assets/examples/source/s9.jpg -d assets/examples/driving/d0.mp4

# 输入视频 + 驱动视频(动态编辑)
python inference.py -s assets/examples/source/s13.mp4 -d assets/examples/driving/d0.mp4

查看所有参数选项:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python inference.py -h

快速上手(动物模型) 🐱🐶

动物模型仅支持 Linux 和 Windows 系统,并需要 NVIDIA GPU。

首先构建 X-Pose 所需的自定义算子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cd src/utils/dependencies/XPose/models/UniPose/ops
python setup.py build install
cd - # 等同于 cd ../../../../../../../

然后运行动物模型推理:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python inference_animals.py -s assets/examples/source/s39.jpg -d assets/examples/driving/wink.pkl --driving_multiplier 1.75 --no_flag_stitching

如果脚本成功运行,您将得到一个名为 animations/s39--wink_concat.mp4 的输出 mp4 文件。

驱动视频自动裁剪 📢📢📢

使用您自己的驱动视频时,我们推荐: ⬇️

  • 将其裁剪为1:1的宽高比(例如,512x512或256x256像素),或通过--flag_crop_driving_video启用自动裁剪。
  • 专注于头部区域,类似于示例视频。
  • 最小化肩部运动。
  • 确保驱动视频的第一帧是具有中性表情的正面面部。

建议对驱动视频进行裁剪以提升效果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python inference.py -s assets/examples/source/s9.jpg -d assets/examples/driving/d13.mp4 --flag_crop_driving_video

可选参数调整裁剪比例和偏移:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
--scale_crop_driving_video 1.2
--vy_ratio_crop_driving_video 0.5

Gradio 图形界面 🤗

LivePortrait 提供了基于 Gradio 的图形界面,方便非程序员用户使用:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 对于Linux和Windows用户(以及搭载Intel的macOS??)
python app.py # 人类模型模式

# 对于搭载Apple Silicon的macOS用户,不支持Intel,这可能比RTX 409020PYTORCH_ENABLE_MPS_FALLBACK=1 python app.py # 人类模型模式

支持参数:

  • --server_port:指定端口
  • --share:生成公网链接分享
  • --flag_do_torch_compile:启用编译优化(仅限 NVIDIA GPU)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 启用torch.compile以进行更快的推理
python app.py --flag_do_torch_compile

四、总结 ✅

LivePortrait 是一个极具潜力的人像动画生成项目,凭借其高效的推理架构、灵活的控制方式和良好的跨平台支持,非常适合用于虚拟主播、AI 换脸、数字人等领域。

无论是研究人员还是内容创作者,都可以通过简单几步快速部署并生成高质量的人像动画。如果你希望打造个性化的虚拟形象,或者探索 AI 驱动的视觉创作,LivePortrait 绝对值得一试!

📌 GitHub 地址:https://github.com/KwaiVGI/LivePortrait 📌 HuggingFace 页面:https://huggingface.co/KwaiVGI/LivePortrait

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 waynblog 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯开源突破技术:V-Express引领人像照片视频化新潮流
V-Express是腾讯AI Lab与南京大学共同研发的一项前沿技术,主要用于人像视频的生成。它的主要特点是能够将一张静态的人物照片转化为一段生动的说话视频,同时能够很好地处理多种控制信号,包括音频、姿势和图像参考等。
井九
2024/10/12
1880
自制数字人播报视频
本教程带您一下自制属于你自己的数字人播报视频,即通过人脸图像和一段语音音频生成照片说话视频。
Yunjie Ge
2024/01/22
4130
自制数字人播报视频
腾讯AniPortrait 照片转真人视频!
还记得阿里5.2kStar给Sora配音的EMO音视频项目吗?开源了,但是没完全开源,因为只开源了PPT,和readme,再看看咱们腾讯这才叫真开源
疯狂的KK
2024/04/03
1.7K0
腾讯AniPortrait 照片转真人视频!
[1309]MinerU、Magic-PDF、Magic-Doc
在线体验地址: https://opendatalab.com/OpenSourceTools/Extractor/PDF https://www.modelscope.cn/studios/OpenDataLab/MinerU
周小董
2024/11/24
1.2K0
[1309]MinerU、Magic-PDF、Magic-Doc
音视频开发之旅(72)- AI数字人-照片说话之SadTalker
AI数字人目前做的最好的无疑是heygen,但是费用也是很贵,也有一些其他的商业应用,比如:微软小冰、腾讯智影、万兴播爆和硅基智能等。
音视频开发之旅
2024/03/02
7000
AI 黑科技,老照片修复,模糊变高清
最近闲逛,发现腾讯开源的老照片修复算法FPGAN新出了V1.3预训练模型,手痒试了一下,满惊艳的。
Ai学习的老章
2022/04/11
5.1K0
AI 黑科技,老照片修复,模糊变高清
目标检测模型NanoDet(超轻量,速度很快)介绍和PyTorch版本实践
YOLO、SSD、Fast R-CNN等模型在目标检测方面速度较快和精度较高,但是这些模型比较大,不太适合移植到移动端或嵌入式设备;轻量级模型 NanoDet-m,对单阶段检测模型三大模块(Head、Neck、Backbone)进行轻量化,目标加检测速度很快;模型文件大小仅几兆(小于4M)。
润森
2022/09/22
2.6K0
目标检测模型NanoDet(超轻量,速度很快)介绍和PyTorch版本实践
无需4090,超低成本搭建一套不限量的AI短视频创作工具
ChatGPT、StableDiffusion的火爆,让很多同学都想在自己的电脑上部署本地大模型,进而学习AI、微调模型、二次开发等等。
Crossin先生
2024/05/31
3720
无需4090,超低成本搭建一套不限量的AI短视频创作工具
Stable Diffusion XL Turbo 文生图和图生图实践
本篇文章聊聊,如何快速上手 Stable Diffusion XL Turbo 模型的文生图和图生图实战。
soulteary
2024/01/15
7890
Stable Diffusion XL Turbo 文生图和图生图实践
github优秀项目分享:基于yolov3的轻量级人脸检测、增值税发票OCR识别 等8大项目
yolo-face-with-landmark 使用pytroch实现的基于yolov3的轻量级人脸检测
公众号机器学习与AI生成创作
2020/09/14
3.1K0
github优秀项目分享:基于yolov3的轻量级人脸检测、增值税发票OCR识别 等8大项目
在搭载 M1 及 M2 芯片 MacBook设备上玩 Stable Diffusion 模型
本篇文章,我们聊了如何使用搭载了 Apple Silicon 芯片(M1 和 M2 CPU)的 MacBook 设备上运行 Stable Diffusion 模型。
soulteary
2023/03/05
3.6K0
在搭载 M1 及 M2 芯片 MacBook设备上玩 Stable Diffusion 模型
【Github2.2K星】PyTorch资源列表:450个NLP/CV/SP、论文实现、教程、示例
https://github.com/bharathgs/Awesome-pytorch-list
新智元
2018/11/22
7600
零门槛人像转卡通、GIF表情包,这个项目不仅开源,还做成了小程序
之前开源的「人脸变卡通」项目往往可以提供很多鬼畜素材,要么嘴歪眼斜,要么脸型扭曲,甚至让你的五官看上去是随便放到脸盘里的,完全不像阳间该有的画风……但小视科技最近开源的一个项目似乎改变了这种印象,不仅可以生成逼真的卡通头像,还能利用微信小程序做成动图表情包,普通人也可以零门槛上手。
机器之心
2020/04/22
1.3K0
让你的照片变成3D!
conda install pytorch==1.4.0 torchvision==0.5.0 cudatoolkit==10.1.243 -c pytorch
用户7917993
2022/05/30
1.2K0
0成本!基于腾讯云Cloud Studio,打造属于自己的数字人口播系统,照片+音乐=自动开口,效果炸裂
原文链接:https://mp.weixin.qq.com/s/G39ZHVITRilKlXnKn3mkrA
CloudStudio
2025/03/17
5460
【目标检测/实例分割】Mask R-CNN简介与Swin Transformer实践测试
之前在看Swin Transformer的时候,发现该算法在目标检测、实例分割等各种视觉任务上屠榜,于是想来实践测试一下。
zstar
2022/10/04
3.4K0
【目标检测/实例分割】Mask R-CNN简介与Swin Transformer实践测试
vid2vid 视频到视频转换vid2vid
Pytorch实现了我们的高分辨率(例如2048x1024)逼真的视频到视频转换方法。
iOSDevLog
2018/08/22
3.1K0
vid2vid 视频到视频转换vid2vid
使用 Docker 来运行 HuggingFace 海量模型
本篇文章将分享如何通过 Docker 来在本地快速运行 Hugging Face 上的有趣模型。用比原项目更少的代码,和更短的时间成本将模型跑起来。
soulteary
2022/05/28
2.1K0
使用 Docker 来运行 HuggingFace 海量模型
只有一个源视频的Deepfakes简介[通俗易懂]
Deepfakes 是人工智能生成的任何人或名人的合成视频,它冒充真实的人,并让他们采取行动或说出他们从未做过的任何事情。
全栈程序员站长
2022/09/01
1.7K0
只有一个源视频的Deepfakes简介[通俗易懂]
安利免费开源的声音克隆、文本转语音整合包软件、一键本地安装!
大家好,我是星哥,今天给大家介绍两款声音克隆、文本转语音的软件,一个是ChatTTS和Spark-TTS,并且都有一键安装包,让你无需复杂的配置,就能在本地轻松体验声音的魅力。
星哥玩云
2025/04/02
1.2K0
安利免费开源的声音克隆、文本转语音整合包软件、一键本地安装!
推荐阅读
相关推荐
腾讯开源突破技术:V-Express引领人像照片视频化新潮流
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验