DAMODEL平台实战：CogVideoX-2b模型部署与使用指南

易辰君

发布于 2024-11-07 22:11:26

21200

代码可运行

文章被收录于专栏：CSDNCSDN

运行总次数：0

代码可运行

前言

该文章主要记录DAMODEL丹摩智算平台实践过程与心得体会，本次实践的内容为CogVideoX-2b-部署与使用；DAMODEL平台地址为：丹摩DAMODEL｜让AI开发更简单！算力租赁上丹摩！

一、平台账号注册并登录

点击上方DAMODEL地址，点击右上角"登录"按钮，选择下方的"去注册"按钮，设置用户名密码以及手机号后点击"立即注册"即可

注册完成后进到登录界面，使用账号登录或手机号登录

登录后的主界面为

二、部署CogVideoX

（一）简介

智谱AI于8月6日宣布开源视频生成模型CogVideoX。该模型支持最多226个token的提示词生成6秒视频，帧率为8帧/秒，分辨率为720x480。这只是初代版本，未来将推出性能更强、参数量更大的模型。CogVideoX的核心技术是3D变分自编码器，能将视频数据压缩至原来的2%，在大幅降低计算资源需求的同时，保持视频帧的连贯性，解决生成过程中闪烁的问题。

（二）部署

1. 创建实例

进入控制台，选择GPU云实例，点击"创建按钮"

由于CogVideoX 在 FP-16 精度下的推理至少需 18GB 显存，微调则需要 40GB 显存，所以实例配置可以选择NVIDIA-L40S，GPU数量、硬盘数量按照默认配置即可

框架选择PyTorch 2.3.0，设置好登录实例后并点击立即创建

立即创建之后等实例状态变成运行中就是创建成功了

2. 配置环境和依赖

（1）控制台实例界面进入JupyterLab

（2）点击Other页签下的Terminal进入终端

（3）拉取CogVideo代码的仓库

wget http://file.s3/damodel-openfile/CogVideoX/CogVideo-main.tar

效果图：

（4）下载后解压缩 CogVideo-main.tar

tar -xf CogVideo-main.tar

效果图：

（5）进入 CogVideo-main 文件夹，输入安装对应依赖

cd CogVideo-main/
pip install -r requirements.txt

效果图：

依赖安装好后，在终端输入python，并用以下代码进行测试：

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

如下所示没有报错说明依赖安装成功

测试完成后输入quit()退出python

3.预制模型与配置文件

处理配置环境和依赖之外，还需要上传CogVideoX模型和对于的配置文件，同样在终端执行以下命令：

（1）下载CogVideoX模型

cd /root/workspace
wget http://file.s3/damodel-openfile/CogVideoX/CogVideoX-2b.tar

效果图：

（2）下载完解压缩

tar -xf CogVideoX-2b.tar

（3）解压后的目录如图

三、开始运行

调试

按照第二点部署环境后，接下来就是调试，CogVideoX所用的编程语言是Python，进入CogVideo-main文件夹，使用该路径下的test.py文件进行测试，运行完后会生成一个output.mp4的文件

cd /root/workspace/CogVideo-main
python test.py

效果图：

test.py 代码主要使用了 diffusers 库中的 CogVideoXPipeline 模型，并加载了一个预训练的 CogVideo 模型。通过提供详细的文本描述（prompt），代码生成相应的视频内容：

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

# prompt里写自定义想要生成的视频内容
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "/root/workspace/CogVideoX-2b", # 这里填CogVideo模型存放的位置，此处是放在了数据盘中
    torch_dtype=torch.float16
).to("cuda")

# 参数do_classifier_free_guidance设置为True可以启用无分类器指导，增强生成内容一致性和多样性
# num_videos_per_prompt控制每个prompt想要生成的视频数量
# max_sequence_length控制输入序列的最大长度
prompt_embeds, _ = pipe.encode_prompt(
    prompt=prompt,
    do_classifier_free_guidance=True,
    num_videos_per_prompt=1,
    max_sequence_length=226,
    device="cuda",
    dtype=torch.float16,
)

video = pipe(
    num_inference_steps=50,
    guidance_scale=6,
    prompt_embeds=prompt_embeds,
).frames[0]

export_to_video(video, "output.mp4", fps=8)