qGPU(GPU 隔离组件)

最近更新时间:2025-07-03 16:15:21

我的收藏

组件介绍

组件详情请参见 qGPU 概述

变更记录

发布时间
版本号
变更内容
限制和影响
2024-06-26
v1.0.23
修复垃圾回收时存在的时序问题,可能会导致 qgpu 设备创建后被马上回收删除,业务 Pod 无法正常使用 GPU。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-03-19
v1.0.22
优化 completed pod 的处理逻辑及 update 事件的处理逻辑,避免累积导致缓存释放慢影响调度。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-03-01
v1.0.21
支持470/515小版本及525/535等高版本驱动。
支持 H800显卡(不支持在离线混部;建议使用 cuda 12.0+,低版本存在 qgpu 设备初始化慢的问题)。
qgpu-manager 增加检查 qgpu 资源的逻辑,如因某些原因导致资源数量为0,则退出重新启动注册。
自动安装 qgpu exporter 组件,支持 GPU 基础监控。
升级时,保留 qgpu scheduler 的 CPU 和内存资源设置(qgpu scheduler 占用的内存数量与集群规模有关系,需要客户根据实际情况进行设置)。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-01-24
v1.0.20
进一步收敛 qgpu-manager 权限,仅保留最小必要权限。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-12-18
v1.0.19
修复因未设置必须的 qgpu 资源请求导致 qgpu scheduler panic 问题。
调度前,检查 pod 资源是否满足限制条件,不满足则返回错误,调度失败,避免由此带来的 panic 及隔离不生效等问题。
修改 qgpu-manager updateStrategy,maxUnavailable设置为10%,加快更新速度。
给 qgpu-installer init 容器增加资源 limit,确保 qgpu-manager pod 是Guaranteed,避免节点资源压力大时被优先驱逐。
修复节点发生迁移 GPU 数量变化引起的 qgpu scheduler panic 问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-11-28
v1.0.18
收敛 qgpu-manager 的权限,避免提权风险。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-08-30
v1.0.17
改进 Pod 删除时的处理逻辑,加快删除,减小 Recreate 策略的 Deployment 更新时新 Pod 调度失败的发生率。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-08-22
v1.0.16
修复 Pod 删除后变为 DeletedFinalStateUnknown 对象时强制转换为 Pod 引起 panic 的问题。
节点设置 label tke.cloud.tencent.com/qgpu-mode=base 后,安装 base 版本的 qgpu 模块,无需修改内核参数。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-06-20
v1.0.15
增加表示显存分配单位的标签 tke.cloud.tencent.com/qgpu.memory-unit,值为1G或者128M。
qgpu hook 兼容 nvidia 方案。
qgpu 安装失败时,日志中提示检查是否是支持的 GPU类型。
支持新的TencentOS-3.1 5.4内核。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-05-09
v1.0.14
支持原生节点、公共镜像、16卡、显存以128MB为单位。
兼容 nvidia 515(515.65.01) 驱动。
qGPU 调度器增加 /metrics 及 /caches 接口。
修复导致 qGPU 设备创建或销毁失败以及调度缓存信息不一致的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-02-08
v1.0.13
处理 qGPU 资源为0的 Pod 时,直接返回全部节点或者打分全部为0,避免处理大量节点耗时过长,阻塞 qgpu pod 的调度。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-12-20
v1.0.12
支持16卡。优化日志,避免打印干扰信。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-10-28
v1.0.11
删除 Pod 时,直接批量删除该 Pod 相关的指标,而不是按照容器逐个删除,避免某些情况下指标未删除的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-10-24
v1.0.10
修复某些多卡机型上,GPU 卡序号与次设备号不一致,导致 qGPU 挂错显卡,业务无法正常运行的问题。私有化允许安装不支持混部的 base 版本 run 包,此时不需要修改内核参数及重启节点。
修复未设置 qgpu-memory 却提示缺少 qgpu-core 的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-29
v1.0.9
修复 crd 引入的回归问题,该问题导致 qGPU 调度器重启后在未同步 Pod 分配信息的情况下就开始调度新 Pod,产生不一致问题。
更新 Pod 容器指标前,先清理相关数据,避免脏数据。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-21
v1.0.8
增加 /metrics 接口,暴露分配给 Pod 容器的 GPU 信息(node_gpu_core_request,node_gpu_memory_request_bytes; 类型Gauge,标签"node", "gpu", "namespace", "pod", "container"),Pod 删除后,相关容器的指标即被删除。
对于各种原因遗留的 qGPU 设备,在每分钟进行的 gc 中兜底删除,避免影响创建新的 qGPU 设备。
修复 Pod 删除后同名 Pod 马上被创建和调度到同一个节点可能导致创建 qGPU 设备失败的问题。
支持原生节点安装使用 qGPU(原生节点的 qGPU 不支持在离线混部功能)。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-06
v1.0.7
修复 qGPU 调度器未清理已删除节点信息的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-08-31
v1.0.6
支持使用节点的 kubeconfig 访问 apiserver (此时不能启用 crd 参数)。
支持使用 TencentOS 2.4(TK4) 公有镜像安装 qGPU。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-07-20
v1.0.5
支持使用公有镜像安装和使用 qGPU。
支持关闭给节点打 label 的功能(--enable-label=false)。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-06-08
v1.0.3
qgpu manager 镜像更新为 tkeimages/elastic-gpu-agent:v1.0.2。
qgpu scheduler 镜像更新为 tkeimages/elastic-gpu-scheduler:v1.0.2。
支持使用 GPU CRD 管理 GPU 资源。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-04-21
v1.0.2
更新了 qgpu manager 镜像版本,支持自动所在节点设置 GPU 驱动版本以及其他信息。
更新了 clusterrole qgpu-manager,增加了对 nodes 的操作权限。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。