nvidia-gpu(NVIDIA GPU 组件)

最近更新时间:2025-06-18 09:17:41

我的收藏

组件介绍

组件详情请参见 nvidia-gpu 说明

变更记录

发布时间
版本号
变更内容
限制和影响
2025-06-13
v1.0.4
1. nvidia-device-plugin 升级到v0.14.5版本,修复设置。DP_DISABLE_HEALTHCHECKS env 后,GPU pod 无法启动的问题。
2. 修复因并发读写 map 导致 nvidia-gpu-exporter panic 的问题。
3. 组件升级时,保留为 plugin 和 exporter 设置的 cpu、memory 资源。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级
2025-01-06
v1.0.3
修复1.0.2引入的容器发生重启后 gpu exporter 无法更新和收集指标的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-09-19
v1.0.2
支持 cgroup v2及自动探测 kubelet 使用的 cgroup driver。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-07-11
v1.0.1
为 nvidia-gpu-exporter svc 增加 name 标签,去掉 selector 中多余的标签,满足 Prometheus 等监控组件的服务发现需求。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-03-01
v1.0.0
1. 首次发布 nvidia-gpu addon,纳管 nvidia-device-plugin daemonset,支持以组件方式进行管理和升级。
2. 集成 TKE 研发的 gpu exporter,支持容器、Pod 和节点纬度的 GPU 指标。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。