什么是 NVIDIA Container Toolkit?
描述:NVIDIA Container Toolkit(容器工具包)使用户能够构建和运行 GPU 加速的容器,该工具包括一个容器运行时库和实用程序,用于自动配置容器以利用 NVIDIA GPU。
项目地址:https://github.com/NVIDIA/nvidia-container-toolkit
NVIDIA 容器工具包层级架构图:
weiyigeek.top-NVIDIA容器工具包层级架构图
温馨提示:nvidia-docker
项目已经被 NVIDIA Container Toolkit
所取代。
NVIDIA 容器支持的平台
Supported Linux distributions are listed below:
OS Name / Version | amd64 / x86_64 | ppc64le | arm64 / aarch64 |
---|---|---|---|
Amazon Linux 2023 | √ | √ 1 | |
Amazon Linux 2 | √ | √ | |
Open Suse/SLES 15.x | √ | ||
Debian Linux 10 | √ | ||
Debian Linux 11 | √ | ||
Centos 7 | √ | √ | |
Centos 8 | √ | √ | √ |
RHEL 7.x | √ | √ | |
RHEL 8.x | √ | √ | √ |
RHEL 9.x | √ | √ | √ |
Ubuntu 18.04 | √ | √ | √ |
Ubuntu 20.04 | √ | √ | √ |
Ubuntu 22.04 | √ | √ | √ |
The arm64
/ aarch64
architecture includes support for Tegra-based systems.
看友,关注作者一下,给我持续更新的动力吧!
安装 NVIDIA Container Toolkit
描述:此处以前面文章安装的 Ubuntu 24.04 TLS 操作系统以及离线安装docker的文章《运维Tips | 解决 Docker 安装源无法访问:Ubuntu 24.04 离线安装实践!》为基础,使用 apt 命令进行安装,当然也可以使用源码安装,当前稳定版本 v1.15.0
, 随着时间推移你可以前往官网下载最新的包。
Step 1.配置nvidia-container-toolkit
软件存储库,并从存储库更新软件包列表:
# 为 apt 获取 HTTPS 支持
apt install apt-transport-https curl
# 添加 NVIDIA 软件存储库
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# 更新软件包列表
systemctl daemon-reload
sudo apt-get update
Step 2.安装 NVIDIA Container Toolkit:
# 常规安装(由于是在github速度稍慢)
sudo apt-get install -y nvidia-container-toolkit
# 代理方式(科学上网)
sudo apt-get -o Acquire::http::proxy="http://10.10.10.12:10809/" install -y nvidia-container-toolkit
Step 3.配置 nvidia-container-runtime
,注意在此之前你需要提前安装了受支持的容器引擎(Docker、Containerd、CRI-O、Podman)。
$ docker --version
Docker version 27.0.3, build 7d4bcd8
$ containerd --version
containerd containerd.io 1.7.18 ae71819c4f5e67bb4d5ae76a6b735f29cc25774e
# 使用 nvidia-ctk 命令修改主机上的 /etc/docker/daemon.json 文件
$ sudo nvidia-ctk runtime configure --runtime=docker
# INFO[0000] Loading config from /etc/docker/daemon.json
# INFO[0000] Wrote updated config to /etc/docker/daemon.json
# INFO[0000] It is recommended that docker daemon be restarted.
# 新增配置:
"runtimes": {
"nvidia": {
"args": [],
"path": "nvidia-container-runtime"
}
},
weiyigeek.top-nvidia-container-runtime图
Step 4.配置完成后重载systemd以及重启Docker服务。
# 服务重启
sudo systemctl daemon-reload
sudo systemctl restart containerd docker
# 验证运行时
docker info | grep "Runtimes"
# Runtimes: io.containerd.runc.v2 nvidia runc
Step 5.安装和配置工具包并安装NVIDIA GPU驱动程序后,您可以通过运行示例工作负载来验证您的安装。
sudo docker run --rm --runtime=nvidia --gpus all ubuntu nvidia-smi
weiyigeek.top-通过运行示例工作负载验证安装图
文档地址:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html