A street artist, clad in a worn-out denim jacket and a colorful bandana, stands before a vast concrete wall in the heart, holding a can of spray paint, spray-painting a colorful bird on a mottled wall.
CogVideoX-2b展示效果:https://live.csdn.net/v/embed/433472
前言:丹摩平台,作为一个集创新、高效与便捷于一体的综合性平台,为CogVideoX-2b的部署与应用提供了得天独厚的环境。在这里,CogVideoX-2b不仅能够充分发挥其强大的视频生成能力,还能在丹摩平台的支持下,实现更加灵活、高效的部署与优化。
随着人工智能技术的飞速发展,AI视频生成已经成为了一个备受瞩目的领域。在众多前沿技术中,CogVideoX以其卓越的性能和广泛的应用前景,成为了众多研究者和开发者关注的焦点。
CogVideoX作为一种先进的AI模型,不仅在视频生成方面展现出了惊人的创造力,还在部署方面提供了极大的灵活性和便捷性。通过精心设计和优化,CogVideoX能够在各种环境中稳定运行,为AI视频生成带来了前所未有的可能性。
CogVideoX 的核心在于它的 3D 变分自编码器,这项技术能够将视频数据压缩至原来的 2%,极大地降低了模型处理视频时所需的计算资源,还巧妙地保持了视频帧与帧之间的连贯性,有效避免了视频生成过程中可能出现的闪烁问题。
CogVideoX技术亮点:
以下网址能让对CogVideoX的了解更进一层:
我们这里为了方便,节省时间选择性能强大的4090 显卡显卡,并配置了PyTorch2.3.0、Ubuntu-22.04以及CUDA12.1的镜像环境
登录实例,创建密钥对 -> 这里输入密钥对名称即可
在完成创建后,等待示例运行
1. CogVideoX代码仓库的拉取、解压以及依赖的安装:
wget http://file.s3/damodel-openfile/CogVideoX/CogVideo-main.tar
下载完成后解压缩CogVideo-main.tar
tar -xf CogVideo-main.tar
其次,进入 CogVideo-main 文件夹,输入安装对应依赖:
cd CogVideo-main/
pip install -r requirements.txt
以上依赖安装好后,可以在终端输入 python,然后输入以下代码进行测试:
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
显示如下状态,没有报错就说明依赖安装成功!输入quit()可退出 python。
除了配置代码文件和项目依赖,还需要上传 CogVideoX 模型文件和对应的配置文件。平台已为您预置了 CogVideoX 模型,我们可内网高速下载
cd /root/workspace
wget http://file.s3/damodel-openfile/CogVideoX/CogVideoX-2b.tar
下载完成后解压缩CogVideoX-2b.tar
tar -xf CogVideoX-2b.tar
解压后的目录如图所示:
通过丹摩平台提供的便捷环境,我得以轻松部署CogVideoX-2b模型,并开始了我的视频生成之旅。我尝试输入各种创意指令和精美图片,CogVideoX-2b总能迅速响应,生成出既符合指令要求又充满个性的视频内容。从简单的风景描绘到复杂的角色动画,CogVideoX-2b都展现出了惊人的生成能力和创造力。
进入CogVideo-main文件夹,运行test.py文件:
cd /root/workspace/CogVideo-main
python test.py
test.py 代码内容如下,主要使用diffusers库中的CogVideoXPipeline模型,加载了一个预训练的 CogVideo 模型,然后根据一个详细的文本描述(prompt),生成对应视频:
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
# prompt里写自定义想要生成的视频内容
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."
pipe = CogVideoXPipeline.from_pretrained(
"/root/workspace/CogVideoX-2b", # 这里填CogVideo模型存放的位置,此处是放在了数据盘中
torch_dtype=torch.float16
).to("cuda")
# 参数do_classifier_free_guidance设置为True可以启用无分类器指导,增强生成内容一致性和多样性
# num_videos_per_prompt控制每个prompt想要生成的视频数量
# max_sequence_length控制输入序列的最大长度
prompt_embeds, _ = pipe.encode_prompt(
prompt=prompt,
do_classifier_free_guidance=True,
num_videos_per_prompt=1,
max_sequence_length=226,
device="cuda",
dtype=torch.float16,
)
video = pipe(
num_inference_steps=50,
guidance_scale=6,
prompt_embeds=prompt_embeds,
).frames[0]
export_to_video(video, "output.mp4", fps=8)
运行成功后,可以在当前文件夹中找到对应 prompt 生成的 output.mp4 视频:
我们来生成一个属于自己的视频:
实践视频
模型官方也提供了 webUIDemo,进入CogVideo-main文件夹,运行gradio_demo.py文件:
cd /root/workspace/CogVideo-main
python gradio_demo.py
运行后我们可以看到,访问路径是本地 urlhttp://0.0.0.0:7870:
此时我们需要通过丹摩平台提供的端口映射能力,把内网端口映射到公网;
路径:进入GPU 云实例页面,点击操作-更多-访问控制: 点击添加端口,添加7870端口
添加成功后,通过访问链接即可访问到刚刚启动的 gradio 页面:
作为一名热衷于AI技术探索的开发者,我有幸在丹摩平台上部署并实践了CogVideoX-2b这一前沿的AI视频生成技术。这次实践不仅让我深刻体验到了CogVideoX-2b的强大功能,也让我对丹摩平台的便捷性和高效性有了更深入的认识。
在部署CogVideoX-2b的过程中,我首先被其简洁明了的部署流程所吸引。丹摩平台提供了完善的文档和教程,让我能够迅速上手,避免了繁琐的配置和调试过程。同时,平台的稳定性也为我提供了可靠的保障,确保了CogVideoX-2b能够持续、高效地运行。
我相信,在未来的日子里,随着技术的不断进步和应用场景的不断拓展,CogVideoX-2b将在AI视频生成领域发挥更加重要的作用,而丹摩平台也将成为更多开发者探索和创新的首选平台。