文章/答案/技术大牛

发布

社区首页 >专栏 >项目推荐：LivePortrait - 让静态照片“活”起来

项目推荐：LivePortrait - 让静态照片“活”起来

wayn

发布于 2025-06-09 08:06:25

23000

代码可运行

文章被收录于专栏：wayn的程序开发wayn的程序开发

运行总次数：0

代码可运行

LivePortrait 是由 KwaiVGI 团队开发的一项前沿技术，旨在通过深度学习实现高效、逼真的人像动画生成。使得用户能够通过简单的驱动视频或动作模板，将静态图片“活化”为具有丰富表情和姿态变化的动态人像。

本文将详细介绍 LivePortrait 的功能特点、安装步骤、使用方法以及适用场景，并提供清晰的操作示例，帮助开发者快速上手这一强大工具。

一、LivePortrait 简介 📖

技术亮点

高保真动画生成：支持从单张静态图像生成高质量的动态人物形象。
高效的推理速度：在现代 GPU 上可实现接近实时的动画生成。
灵活的控制方式：
- 支持使用驱动视频（如面部动作视频）或动作模板文件（.pkl）进行控制。
- 提供图像缝合（Stitching）与姿态重定向（Retargeting）两种模式，适应不同应用场景。
跨平台支持：
- 支持 Linux 和 Windows 系统，兼容 NVIDIA GPU。
- macOS（Apple Silicon）也提供部分支持，但性能较低。

二、安装与配置指南 ⚙️

硬件要求：
内存（RAM）：至少 16GB
显卡（GPU）：NVIDIA GPU，支持 CUDA 计算能力 ≥ 6.0（如 RTX 30 系列或更高）

1. 克隆仓库并创建环境

git clone https://github.com/KwaiVGI/LivePortrait
cd LivePortrait

# 创建 conda 环境
conda create -n LivePortrait python=3.10
conda activate LivePortrait

根据你的 CUDA 版本安装 PyTorch：

# 示例（请根据实际版本选择）
pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu118

然后安装依赖项：

pip install -r requirements.txt

Mac 用户注意：搭载 Apple Silicon 的设备需使用 requirements_macOS.txt 文件安装依赖。X-Pose 依赖项不支持 macOS，因此您可以跳过其安装。人类模式照常工作，但不支持动物模式

2. 下载预训练模型权重

推荐使用 HuggingFace CLI 下载预训练权重：

huggingface-cli download KwaiVGI/LivePortrait --local-dir pretrained_weights --exclude "*.git*" "README.md" "docs"

若无法访问 HuggingFace，可使用镜像网站 hf-mirror：

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download KwaiVGI/LivePortrait --local-dir pretrained_weights ...

下载完成后确保目录结构如下：

pretrained_weights
├── insightface
│   └── models
│       └── buffalo_l
│           ├── 2d106det.onnx
│           └── det_10g.onnx
├── liveportrait
│   ├── base_models
│   │   ├── appearance_feature_extractor.pth
│   │   ├── motion_extractor.pth
│   │   ├── spade_generator.pth
│   │   └── warping_module.pth
│   ├── landmark.onnx
│   └── retargeting_models
│       └── stitching_retargeting_module.pth
└── liveportrait_animals
    ├── base_models
    │   ├── appearance_feature_extractor.pth
    │   ├── motion_extractor.pth
    │   ├── spade_generator.pth
    │   └── warping_module.pth
    ├── retargeting_models
    │   └── stitching_retargeting_module.pth
    └── xpose.pth

三、使用教程 🚀

快速上手（人类模型）👤 👤

运行以下命令即可生成默认示例：

# 对于Linux和Windows用户
python inference.py

# 对于搭载Apple Silicon的macOS用户（Intel未测试）。注意：这可能比RTX 4090慢20倍
PYTORCH_ENABLE_MPS_FALLBACK=1 python inference.py

输出结果保存在 animations/s6--d0_concat.mp4 中，包含原始输入、驱动视频和生成动画的拼接效果。

自定义输入参数：

或者，您可以通过指定-s和-d参数来更改输入：

# 输入图像 + 驱动视频
python inference.py -s assets/examples/source/s9.jpg -d assets/examples/driving/d0.mp4

# 输入视频 + 驱动视频（动态编辑）
python inference.py -s assets/examples/source/s13.mp4 -d assets/examples/driving/d0.mp4

查看所有参数选项：

python inference.py -h

快速上手（动物模型） 🐱🐶

动物模型仅支持 Linux 和 Windows 系统，并需要 NVIDIA GPU。

首先构建 X-Pose 所需的自定义算子：

cd src/utils/dependencies/XPose/models/UniPose/ops
python setup.py build install
cd - # 等同于 cd ../../../../../../../

然后运行动物模型推理：

python inference_animals.py -s assets/examples/source/s39.jpg -d assets/examples/driving/wink.pkl --driving_multiplier 1.75 --no_flag_stitching

如果脚本成功运行，您将得到一个名为 animations/s39--wink_concat.mp4 的输出 mp4 文件。

驱动视频自动裁剪 📢📢📢

使用您自己的驱动视频时，我们推荐： ⬇️

将其裁剪为1:1的宽高比（例如，512x512或256x256像素），或通过--flag_crop_driving_video启用自动裁剪。
专注于头部区域，类似于示例视频。
最小化肩部运动。
确保驱动视频的第一帧是具有中性表情的正面面部。

建议对驱动视频进行裁剪以提升效果：

python inference.py -s assets/examples/source/s9.jpg -d assets/examples/driving/d13.mp4 --flag_crop_driving_video

可选参数调整裁剪比例和偏移：

--scale_crop_driving_video 1.2
--vy_ratio_crop_driving_video 0.5

Gradio 图形界面 🤗

LivePortrait 提供了基于 Gradio 的图形界面，方便非程序员用户使用：

# 对于Linux和Windows用户（以及搭载Intel的macOS？？）
python app.py # 人类模型模式

# 对于搭载Apple Silicon的macOS用户，不支持Intel，这可能比RTX 4090慢20倍
PYTORCH_ENABLE_MPS_FALLBACK=1 python app.py # 人类模型模式

支持参数：

--server_port：指定端口
--share：生成公网链接分享
--flag_do_torch_compile：启用编译优化（仅限 NVIDIA GPU）

# 启用torch.compile以进行更快的推理
python app.py --flag_do_torch_compile

四、总结 ✅

LivePortrait 是一个极具潜力的人像动画生成项目，凭借其高效的推理架构、灵活的控制方式和良好的跨平台支持，非常适合用于虚拟主播、AI 换脸、数字人等领域。

无论是研究人员还是内容创作者，都可以通过简单几步快速部署并生成高质量的人像动画。如果你希望打造个性化的虚拟形象，或者探索 AI 驱动的视觉创作，LivePortrait 绝对值得一试！

📌 GitHub 地址：https://github.com/KwaiVGI/LivePortrait 📌 HuggingFace 页面：https://huggingface.co/KwaiVGI/LivePortrait

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-06-05，如有侵权请联系 cloudcommunity@tencent.com 删除

动画

本文分享自 waynblog 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

多租户的 4 种常用方案

3227

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

2244

60页PPT全解：DeepSeek系列论文技术要点整理

3549

Java与Go差别在哪，谁要被时代抛弃？

2858

大模型 Token 究竟是啥：图解大模型Token

2125

MCP协议详解：一文读懂跨时代的模型上下文协议

7747

腾讯开源突破技术：V-Express引领人像照片视频化新潮流

开源模型视频腾讯 express

V-Express是腾讯AI Lab与南京大学共同研发的一项前沿技术，主要用于人像视频的生成。它的主要特点是能够将一张静态的人物照片转化为一段生动的说话视频，同时能够很好地处理多种控制信号，包括音频、姿势和图像参考等。

井九

2024/10/12

1880

自制数字人播报视频

python3 工具模型视频音频

本教程带您一下自制属于你自己的数字人播报视频，即通过人脸图像和一段语音音频生成照片说话视频。

Yunjie Ge

2024/01/22

4130

腾讯AniPortrait 照片转真人视频！

aigc 热点技术征文第五期Sora 玩转AI绘画

还记得阿里5.2kStar给Sora配音的EMO音视频项目吗？开源了，但是没完全开源，因为只开源了PPT,和readme，再看看咱们腾讯这才叫真开源

疯狂的KK

2024/04/03

1.7K0

[1309]MinerU、Magic-PDF、Magic-Doc

json pdf 表格工具模型

在线体验地址： https://opendatalab.com/OpenSourceTools/Extractor/PDF https://www.modelscope.cn/studios/OpenDataLab/MinerU

周小董

2024/11/24

1.2K0

音视频开发之旅（72）- AI数字人-照片说话之SadTalker

aigc

AI数字人目前做的最好的无疑是heygen，但是费用也是很贵，也有一些其他的商业应用，比如：微软小冰、腾讯智影、万兴播爆和硅基智能等。

音视频开发之旅

2024/03/02

7000

AI 黑科技，老照片修复，模糊变高清

fpga https 网络安全机器学习神经网络

最近闲逛，发现腾讯开源的老照片修复算法FPGAN新出了V1.3预训练模型，手痒试了一下，满惊艳的。

Ai学习的老章

2022/04/11

5.1K0

目标检测模型NanoDet（超轻量，速度很快）介绍和PyTorch版本实践

图像识别 arm python ide

YOLO、SSD、Fast R-CNN等模型在目标检测方面速度较快和精度较高，但是这些模型比较大，不太适合移植到移动端或嵌入式设备；轻量级模型 NanoDet-m，对单阶段检测模型三大模块（Head、Neck、Backbone）进行轻量化，目标加检测速度很快；模型文件大小仅几兆（小于4M）。

润森

2022/09/22

2.6K0

无需4090，超低成本搭建一套不限量的AI短视频创作工具

工具模型视频云主机短视频

ChatGPT、StableDiffusion的火爆，让很多同学都想在自己的电脑上部署本地大模型，进而学习AI、微调模型、二次开发等等。

Crossin先生

2024/05/31

3720

Stable Diffusion XL Turbo 文生图和图生图实践

程序镜像论文模型实践

本篇文章聊聊，如何快速上手 Stable Diffusion XL Turbo 模型的文生图和图生图实战。

soulteary

2024/01/15

7890

github优秀项目分享：基于yolov3的轻量级人脸检测、增值税发票OCR识别等8大项目

https 网络安全 github git 开源

yolo-face-with-landmark 使用pytroch实现的基于yolov3的轻量级人脸检测

公众号机器学习与AI生成创作

2020/09/14

3.1K0

github优秀项目分享：基于yolov3的轻量级人脸检测、增值税发票OCR识别等8大项目

在搭载 M1 及 M2 芯片 MacBook设备上玩 Stable Diffusion 模型

https 网络安全 python anaconda

本篇文章，我们聊了如何使用搭载了 Apple Silicon 芯片（M1 和 M2 CPU）的 MacBook 设备上运行 Stable Diffusion 模型。

soulteary

2023/03/05

3.6K0

在搭载 M1 及 M2 芯片 MacBook设备上玩 Stable Diffusion 模型

【Github2.2K星】PyTorch资源列表：450个NLP/CV/SP、论文实现、教程、示例

pytorch

https://github.com/bharathgs/Awesome-pytorch-list

新智元

2018/11/22

7600

零门槛人像转卡通、GIF表情包，这个项目不仅开源，还做成了小程序

开源面向对象编程

之前开源的「人脸变卡通」项目往往可以提供很多鬼畜素材，要么嘴歪眼斜，要么脸型扭曲，甚至让你的五官看上去是随便放到脸盘里的，完全不像阳间该有的画风……但小视科技最近开源的一个项目似乎改变了这种印象，不仅可以生成逼真的卡通头像，还能利用微信小程序做成动图表情包，普通人也可以零门槛上手。

机器之心

2020/04/22

1.3K0

让你的照片变成3D！

GPU 云服务器 python linux anaconda pytorch

conda install pytorch==1.4.0 torchvision==0.5.0 cudatoolkit==10.1.243 -c pytorch

用户7917993

2022/05/30

1.2K0

0成本！基于腾讯云Cloud Studio，打造属于自己的数字人口播系统，照片+音乐=自动开口，效果炸裂

Cloud Studio（云端 IDE）

原文链接：https://mp.weixin.qq.com/s/G39ZHVITRilKlXnKn3mkrA

CloudStudio

2025/03/17

5460

【目标检测/实例分割】Mask R-CNN简介与Swin Transformer实践测试

机器学习神经网络深度学习人工智能 python

之前在看Swin Transformer的时候，发现该算法在目标检测、实例分割等各种视觉任务上屠榜，于是想来实践测试一下。

zstar

2022/10/04

3.4K0

【目标检测/实例分割】Mask R-CNN简介与Swin Transformer实践测试

vid2vid 视频到视频转换vid2vid

其他

Pytorch实现了我们的高分辨率（例如2048x1024）逼真的视频到视频转换方法。

iOSDevLog

2018/08/22

3.1K0

使用 Docker 来运行 HuggingFace 海量模型

容器镜像服务人工智能模型测试机器学习深度学习

本篇文章将分享如何通过 Docker 来在本地快速运行 Hugging Face 上的有趣模型。用比原项目更少的代码，和更短的时间成本将模型跑起来。

soulteary

2022/05/28

2.1K0

只有一个源视频的Deepfakes简介[通俗易懂]

https 网络安全

Deepfakes 是人工智能生成的任何人或名人的合成视频，它冒充真实的人，并让他们采取行动或说出他们从未做过的任何事情。

全栈程序员站长

2022/09/01

1.7K0

安利免费开源的声音克隆、文本转语音整合包软件、一键本地安装！

腾讯技术创作特训营S12#AI进化论

大家好，我是星哥，今天给大家介绍两款声音克隆、文本转语音的软件，一个是ChatTTS和Spark-TTS，并且都有一键安装包，让你无需复杂的配置，就能在本地轻松体验声音的魅力。

星哥玩云

2025/04/02

1.2K0