组件介绍
变更记录
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2025-06-13 | v1.0.4 | 1. nvidia-device-plugin 升级到v0.14.5版本,修复设置。DP_DISABLE_HEALTHCHECKS env 后,GPU pod 无法启动的问题。 2. 修复因并发读写 map 导致 nvidia-gpu-exporter panic 的问题。 3. 组件升级时,保留为 plugin 和 exporter 设置的 cpu、memory 资源。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级 |
2025-01-06 | v1.0.3 | 修复1.0.2引入的容器发生重启后 gpu exporter 无法更新和收集指标的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-09-19 | v1.0.2 | 支持 cgroup v2及自动探测 kubelet 使用的 cgroup driver。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-07-11 | v1.0.1 | 为 nvidia-gpu-exporter svc 增加 name 标签,去掉 selector 中多余的标签,满足 Prometheus 等监控组件的服务发现需求。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-03-01 | v1.0.0 | 1. 首次发布 nvidia-gpu addon,纳管 nvidia-device-plugin daemonset,支持以组件方式进行管理和升级。 2. 集成 TKE 研发的 gpu exporter,支持容器、Pod 和节点纬度的 GPU 指标。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |