组件版本维护说明

最近更新时间:2024-10-31 19:14:52

我的收藏

更新说明

腾讯云容器服务提供了涵盖网络、存储、监控、镜像、调度、GPU 相关场景下的增强组件来扩展集群功能,您可在容器集群详情中的组件管理页面查看当前组件版本,并支持对组件版本进行手动升级操作。

升级须知

1. 升级属于不可逆操作。
2. 仅支持向上升级容器服务提供的组件版本,在满足集群 kubernetes 版本限制的情况下,默认升级至当前最新版本。
3. 针对已废弃的组件版本,容器团队将不再提供技术支持,建议您及时升级。

版本迭代记录

CBS-CSI(腾讯云硬盘存储组件)

组件详情请参见 CBS-CSI 简介
发布时间
版本号
变更内容
限制和影响
2024-09-26
v1.1.7
支持本地极速快照。
修复 norm token 过期的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-06-06
v1.1.6
支持共享盘,pod 多节点挂载。
支持 workload 设置 request/limit。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-04-26
v1.1.5
支持自定义标签。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-12-04
v1.1.4
支持原生节点 CVM 模式。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-11-21
v1.1.3
优化:
删除快照/云盘的时候,支持幂等。
driver-registrar 添加健康检查。
插件创建云盘/挂载/解挂云盘/扩容等场景对调用时间优化
新的 feature:
老版本集群中的 Intree 类型 pv 也支持进行快照备份。
cbs 插件接入资源管理中心,在调用资源的删除接口前进行审计。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-08-07
v1.1.2
csi-provisioner
支持使用快照 ID 进行 PVC 的快速数据恢复。

csi-attacher
添加退避算法,防止高频调用 CBS attach/detach 接口。

cbs-csi
支持 CDC 云硬盘场景。
优化 Pod 启动挂盘时间。
创建增强型 SSD 时支持设置额外性能。
CBS 快照幂等优化。
CHC、裸金属以及注册节点禁止 CBS 挂盘。
修复了1.24版本无法使用 LVM 功能的 Bug。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-03-24
v1.1.1
适配 tke 1.24 版本。
兼容旧版本收费模式参数。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-02-21
v1.1.0
支持自动感知 CVM 最大可挂载数。
优化云盘卸载逻辑,保证云盘状态正常。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-11-23
v1.0.9
支持 LVM 条带模式。
调高 csi-resizer 配额。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-11-15
v1.0.8
支持 LVM 多盘管理。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-10-20
v1.0.7
支持 xfs 文件系统快照。
支持1G粒度云盘创建。
支持 block 类型 volume。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-13
v1.0.6
支持从快照恢复时扩容。
支持 xfs 文件系统扩容。
支持 TKE 集群添加超级节点模式。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-07-06
v1.0.5
支持云标签重复时的云盘创建。
解决在线扩容时序问题。
回收 csi-node secret 资源权限。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-05-31
v1.0.4
优化插件启动逻辑。
csi-attacher 默认并发数调大至50。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-05-06
v1.0.3
插件支持配置污点容忍。
插件新增 type 启动参数。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-04-24
v1.0.2
取消插件 NodeUnpublishVolume 接口中的目录清理逻辑。
插件支持通过 Serial 获取盘符。
插件删除时保留对应 crd 资源。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-03-16
v1.0.1
支持使用了 intree cbs 的业务负载在集群从1.18升级到1.20时原地无损迁移到 csi。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

Cerberus(镜像签名验证组件)

组件详情请参见 Cerberus 说明
发布时间
版本号
变更内容
限制和影响
2022-09-26
v0.0.1
镜像验签组件。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

CFS-CSI(腾讯云文件存储组件)

组件详情请参见 CFS-CSI 说明
发布时间
版本号
变更内容
限制和影响
2024-09-26
v1.1.6
支持共享实例初始化过程中的错误暴露到相关 pvc 的事件中,方便排查 pending 的原因。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-05-08
v1.1.5
支持 workload 设置 request/limit。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-12-27
v1.1.3
删除 cfs 文件系统前调用资源管理中心进行校验审计。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-09-12
v1.1.2
存量升级,兼容 k8s 版本小于1.14集群中的 cfs 组件升级场景。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-07-05
v1.1.1
cfsclient 统一使用 PVC/PV 挂载方式。
CFS 实例增加标签功能。
修复部分问题,提升组件稳定性。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-03-07
v1.1.0
支持 inline 形式挂载。
更新负载配置,提升组件稳定性。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-23
v1.0.8
支持 TKE 集群添加超级节点模式。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-07-14
v1.0.7
动态存储功能适配 Serverless 集群。
共享存储功能适配 Serverless 集群。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-05-24
v1.0.5
支持 Serverless 集群 cfs provisioner。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-05-06
v1.0.4
插件支持配置污点容忍。
tcfs 配置文件中新增优先级和 hostAliases。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-04-19
v1.0.3
tcfs crd 增加资源标签字段。
1.12及以下 k8s 版本不安装 tcfs 相关的资源。
cfs-csi startServer 注册启动优化。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-04-12
v1.0.2
插件 umount 幂等性支持。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-03-24
v1.0.1
支持动态创建时共享存储实例,通过自动生成的子目录进行数据隔离。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

COS-CSI(腾讯云对象存储组件)

组件详情请参见 COS-CSI 说明
发布时间
版本号
变更内容
限制和影响
2024-09-26
v1.0.6
默认关闭 cos launcher 的 coredump 设置,可以通过设置 env ENABLE_COREDUMP=true 来开启。
集群版本 >1.18。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-05-14
v1.0.5
cos-csi 增加挂载 target 健康状态指标。
cosfs 挂载操作支持托管到 cvm。
集群版本 >1.18。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-11-30
v1.0.4
cos-csi 插件收敛部分权限,提高组件安全性。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-09-21
v1.0.3
优化:
cosfs 挂载的时候 odbglevel 和 opasswd_file 参数以用户的配置为准。
umount 支持重入,防止挂载目录被删除后,pod一直 terminating。
升级 cosfs 版本,提高稳定性。
cosfs 配置 core dump,防止 cosfs 进程挂掉后无法追溯。
新增 feature:
新增 cos 使用 goose-lite 方式热挂载。
cos 组件开启全容忍。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-05-06
v1.0.1
插件支持配置污点容忍。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

CFSTURBO-CSI (腾讯云高性能并行文件系统)

组件详情请参见 CFSTURBO-CSI 说明
发布时间
版本号
变更内容
限制和影响
2023-12-04
v1.0.1
cfsturbo-csi 插件收敛部分权限,提高组件安全性。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

Craned(Request 推荐组件)

组件详情请参见 Request 智能推荐
发布时间
版本号
变更内容
限制和影响
2023-11-30
v2.1.2
Craned 支持 qos initializer webhook。
Craned 组件提权风险问题修复。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-05-16
v2.1.0
修复了从旧版本升级后额外生成推荐 CRD 的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-05-05
v2.0.0
升级到推荐框架版本。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-02-24
v1.3.0
提升了组件的稳定性。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-12-09
v1.2.0
优化内存推荐逻辑,增加推荐数据精度。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-20
v1.1.0
请求腾讯云可观测平台的 metric 间隔调成5m,推荐频率降低到12小时一次。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

CranesScheduler(原生节点专用调度器)

组件详情请参见 原生节点专用调度器介绍
发布时间
版本号
变更内容
限制和影响
2024-10-30
v1.5.0
功能新增:
cranescheduler 支持针对所有原生节点开启负载感知调度功能,可在组件管理配置页按需开启。
cranescheduler 支持当多 cnrp 选中同一个节点时,仅最新的cnrp 生效。
crane-descheduler 支持设置策略执行间隔时间,高负载打散时最小低负载节点数。
优化:
pod 调度到原生节点将跳过 workload 为 ds 类型,适配集群中有原生节点和普通节点场景。
修复因数据延迟,descheduler 驱逐后,调度器又将 pod 调回源节点的问题。
修复新建的原生节点因前5分钟利用率数据为空,创建后5分钟才能调度的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-08-22
v1.4.3
优化 crane-descheduler 在降低节点负载(驱逐 pod)过程中,调度器往高负载节点上调度 pod。
优化高负载打散策略执行效率,降低发现高负载节点的延迟、优化策略执行间隔。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-07-12
v1.4.2
优化 “Pod 负载扣减调度”特性,避免造成 CA 阻塞。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-06-27
v1.4.1
支持关闭驱逐停止水位线,优化关闭节点自动放大后节点的 annotation。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-06-13
v1.4.0
新增“节点动态放大”特性,控制台按需开启。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-05-09
v1.3.0
新增 “Pod 负载扣减调度”特性,控制台按需开启。
调整热点默认权重,优化 metrics 等更新。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-01-29
v1.2.0
收敛安全权限。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-10-13
v1.1.1
组件默认多副本工作,提高可用性。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-08-16
v1.1.10
修复获取 Pod load 失败的问题。
修复在 node memory 达到驱逐水位线时,驱逐过多 Pod 的问题。
新增加一条驱逐停止水位线。
添加 hot-value metric,供外部观测。
计算节点热点值时,默认忽略 daemonset-pod。
支持各组件在超级节点上正常工作。
提升各组件在普通节点上 QoS 及优先级,保证组件高优先级工作。
下线由 node-annotator 实现的 hotvalue 方案。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-07-27
v1.1.9
使用 podinformer 方式实现 hot-value 功能。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-07-17
v1.1.8
下线以 prebind 扩展点实现的 hot-value 方案,仍使用原来的 annotate node 方式实现。prebind 方案有单点故障问题,会阻塞整个集群的调度,风险过高。
修复v1.18升级到v1.20版本的集群配置调度器失败的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-06-30
v1.1.7
crane-scheduler-controller 证书算法更新,从sha1更换到sha256,支持v1.22及以上集群。
Helm 管理优化:
hook deletePolicy 支持可重入操作。
添加 managecontrolplane 的 post-install、post-upgrade 和 pre-upgrade 拓展点,支持 prebind 的原地升级。
重做 hot-value 功能,添加 Prebind 拓展点,避免节点热点问题:
crane-scheduler目前只能支持单副本运行。
crane-scheduler-controller 兼容 hotvalue.weight 配置。
优化指标上报,缓解 OOM 问题。
取消 crane-scheduler-controller 及 descheduler 的 hostnetwork 网络模式,避免因端口冲突引起存活探针失败。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-06-21
v1.1.6
去除 crane-scheduler-controller 及 descheduler 的 deployment 上的 hostnetwork 设置。
crane-scheduler-controller 兼容 hotvalue.weight 配置。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-06-20
v1.1.5
证书算法更新,sha1更换到sha256,crane-scheduler-controller 支持v1.22及以上集群。
helm hook deletePolicy 支持可重入。
添加 Prebind 拓展点,使用调度器缓存热点,避免节点热点问题。
优化指标上报,缓解 OOM 问题。
添加 managecontrolplane 的 post-install、post-upgrade、pre-upgrade 拓展点,支持 prebind 的原地升级。
修改默认 cranescheduler 的 hotvalue 配置。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-03-23
v1.1.4
修复原生节点新加入节点打分阶段得分低,Pod 难以调度的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-21
v1.1.3
fix helm repo 参数缺失导致节点的指标无法更新到 node 上。
将 descheduler 融入到 cranescheduler,新增重调度器驱逐水位,动态调度器水位和重调度器目标水位一致。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

DeScheduler(重调度器插件)

组件详情请参见 DeScheduler 说明
发布时间
版本号
变更内容
限制和影响
2023-01-12
v1.0.2
修复集群节点 name 和 IP 不一致导致监控指标无法获取的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-06-07
v1.0.1
TMP 认证支持:
prom-probe 中添加 auth 认证。
descheduler 和 init container 中传入 token/appid 等环境变量,并进行解码。
descheduler 中增加 prometheus client 认证功能。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

DynamicScheduler(动态调度器)

组件详情请参见 DynamicScheduler 说明
发布时间
版本号
变更内容
限制和影响
2022-06-30
v1.0.2
TMP 认证支持:
probe-prometheus 中添加 auth 认证。
node-annotator 和 init container 中传入 token,appid 等环境变量,并进行解码。
node-annotator 中增加 prometheus client 认证功能,更新镜像到 v3.2.1。
对于使用 ip 作为 node exporter 上报标签的 promql 语句适配,修复无法查数据 bug。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

Nginx Ingress(开源七层网络接入层)

组件详情请参见 Nginx-ingress 说明
发布时间
版本号
变更内容
限制和影响
2023-11-30
v1.4.1
收敛到最小必须权限,避免提权风险。
支持定期 resync。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-08-09
v1.3.1
支持 TKE 1.22和 1.24集群增量 nginx ingress 实例的 IngressClass 能力。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-07-20
v1.3.0
支持 ingres-nginx v1.6.4版本,已用来支持 TKE 1.26及以上。
支持 IngressClass 对象,从v1.6.4版本开始。
支持上海自动驾驶地域 shadc。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-08-17
v1.2.0
接口迁移,不再依赖弹性网卡。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-04-18
v1.1.0
eks.tke.cloud.tencent.com/norm: "true"
eks.tke.cloud.tencent.com/disable-metrics:"true"
考虑到 TKE 集群添加超级节点模式,将原来在 Serverless 集群下生效的注解开放到 TKE 集群添加超级节点模式下生效。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

pod-identity-webhook(Pod 身份注入器)

发布时间
版本号
变更内容
限制和影响
2022-08-25
v1.0.0
添加 chart,支持 Pod 绑定一个 sa,sa 支持扮演 cam 角色来访问其他资源的能力。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

Cluster Autoscaler(CA 组件)

组件详情请参见 Cluster Autoscaler 概述
发布时间
版本号
变更内容
限制和影响
2024-01-11
v2.0.11
CA 生成节点池模板时扣除 kubelet 运行所需内存。
伸缩组修复大小失败时不阻塞其他健康节点池扩缩容。
仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。
2023-12-28
v2.0.10
修复原生节点缩容原子性问题导致的扩缩容异常。
仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。
2023-12-14
v2.0.9
修复 crane 场景无法正常扩容的情况。
仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。
2023-10-13
v2.0.8
修复原生节点无法正常移除节点时,ca 的异常减少节点池期望的问题。
仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。
2023-09-15
v2.0.7
增加对 pending pod 等2秒时间供调度器尝试调度。
仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。
2023-07-04
v2.0.6
校验 workload group。
支持删除创建失败原生节点。
仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。

nvidia-gpu(NVIDIA GPU 组件)

组件详情请参见 nvidia-gpu 说明
发布时间
版本号
变更内容
限制和影响
2024-03-01
v1.0.0
1. 首次发布 nvidia-gpu addon,纳管 nvidia-device-plugin daemonset,支持以组件方式进行管理和升级。
2. 集成 TKE 研发的 gpu exporter,支持容器、Pod 和节点纬度的 GPU 指标。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

qGPU(GPU 隔离组件)

组件详情请参见 qGPU 概述
发布时间
版本号
变更内容
限制和影响
2024-03-19
v1.0.22
优化 completed pod 的处理逻辑及 update 事件的处理逻辑,避免累积导致缓存释放慢影响调度。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-03-01
v1.0.21
支持470/515小版本及525/535等高版本驱动。
支持 H800显卡(不支持在离线混部;建议使用 cuda 12.0+,低版本存在 qgpu 设备初始化慢的问题)。
qgpu-manager 增加检查 qgpu 资源的逻辑,如因某些原因导致资源数量为0,则退出重新启动注册。
自动安装 qgpu exporter 组件,支持 GPU 基础监控。
升级时,保留 qgpu scheduler 的 CPU 和内存资源设置(qgpu scheduler 占用的内存数量与集群规模有关系,需要客户根据实际情况进行设置)。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-01-24
v1.0.20
进一步收敛 qgpu-manager 权限,仅保留最小必要权限。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-12-18
v1.0.19
修复因未设置必须的 qgpu 资源请求导致 qgpu scheduler panic 问题。
调度前,检查 pod 资源是否满足限制条件,不满足则返回错误,调度失败,避免由此带来的 panic 及隔离不生效等问题。
修改 qgpu-manager updateStrategy,maxUnavailable设置为10%,加快更新速度。
给 qgpu-installer init 容器增加资源 limit,确保 qgpu-manager pod 是Guaranteed,避免节点资源压力大时被优先驱逐。
修复节点发生迁移 GPU 数量变化引起的 qgpu scheduler panic 问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-11-28
v1.0.18
收敛 qgpu-manager 的权限,避免提权风险。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-08-30
v1.0.17
改进 Pod 删除时的处理逻辑,加快删除,减小 Recreate 策略的 Deployment 更新时新 Pod 调度失败的发生率。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-08-22
v1.0.16
修复 Pod 删除后变为 DeletedFinalStateUnknown 对象时强制转换为 Pod 引起 panic 的问题。
节点设置 label tke.cloud.tencent.com/qgpu-mode=base 后,安装 base 版本的 qgpu 模块,无需修改内核参数。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-06-20
v1.0.15
增加表示显存分配单位的标签 tke.cloud.tencent.com/qgpu.memory-unit,值为1G或者128M。
qgpu hook 兼容 nvidia 方案。
qgpu 安装失败时,日志中提示检查是否是支持的 GPU类型。
支持新的TencentOS-3.1 5.4内核。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-05-09
v1.0.14
支持原生节点、公共镜像、16卡、显存以128MB为单位。
兼容 nvidia 515(515.65.01) 驱动。
qGPU 调度器增加 /metrics 及 /caches 接口。
修复导致 qGPU 设备创建或销毁失败以及调度缓存信息不一致的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-02-08
v1.0.13
处理 qGPU 资源为0的 Pod 时,直接返回全部节点或者打分全部为0,避免处理大量节点耗时过长,阻塞 qgpu pod 的调度。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-12-20
v1.0.12
支持16卡。优化日志,避免打印干扰信。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-10-28
v1.0.11
删除 Pod 时,直接批量删除该 Pod 相关的指标,而不是按照容器逐个删除,避免某些情况下指标未删除的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-10-24
v1.0.10
修复某些多卡机型上,GPU 卡序号与次设备号不一致,导致 qGPU 挂错显卡,业务无法正常运行的问题。私有化允许安装不支持混部的 base 版本 run 包,此时不需要修改内核参数及重启节点。
修复未设置 qgpu-memory 却提示缺少 qgpu-core 的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-29
v1.0.9
修复 crd 引入的回归问题,该问题导致 qGPU 调度器重启后在未同步 Pod 分配信息的情况下就开始调度新 Pod,产生不一致问题。
更新 Pod 容器指标前,先清理相关数据,避免脏数据。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-21
v1.0.8
增加 /metrics 接口,暴露分配给 Pod 容器的 GPU 信息(node_gpu_core_request,node_gpu_memory_request_bytes; 类型Gauge,标签"node", "gpu", "namespace", "pod", "container"),Pod 删除后,相关容器的指标即被删除。
对于各种原因遗留的 qGPU 设备,在每分钟进行的 gc 中兜底删除,避免影响创建新的 qGPU 设备。
修复 Pod 删除后同名 Pod 马上被创建和调度到同一个节点可能导致创建 qGPU 设备失败的问题。
支持原生节点安装使用 qGPU(原生节点的 qGPU 不支持在离线混部功能)。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-09-06
v1.0.7
修复 qGPU 调度器未清理已删除节点信息的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-08-31
v1.0.6
支持使用节点的 kubeconfig 访问 apiserver (此时不能启用 crd 参数)。
支持使用 TencentOS 2.4(TK4) 公有镜像安装 qGPU。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-07-20
v1.0.5
支持使用公有镜像安装和使用 qGPU。
支持关闭给节点打 label 的功能(--enable-label=false)。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-06-08
v1.0.3
qgpu manager 镜像更新为 tkeimages/elastic-gpu-agent:v1.0.2。
qgpu scheduler 镜像更新为 tkeimages/elastic-gpu-scheduler:v1.0.2。
支持使用 GPU CRD 管理 GPU 资源。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-04-21
v1.0.2
更新了 qgpu manager 镜像版本,支持自动所在节点设置 GPU 驱动版本以及其他信息。
更新了 clusterrole qgpu-manager,增加了对 nodes 的操作权限。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

QOSAgent(QOS 保障组件)

组件详情请参见 QoSAgent
发布时间
版本号
变更内容
限制和影响
2023-11-30
v1.1.6
开启 qos initializer webhook。
优化 crane agent 内存消耗。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-11-23
v1.1.5
支持内存压缩。
收敛权限,提高组件稳定性。
修复离线pod水位压制失败的bug。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-09-20
v1.1.4
支持应用启动时一段时间内提高 cpu limit,加速应用启动。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-08-14
v1.1.3
修复 caculateCPUUsage 时因为 nil 指针引起的 panic。
升级 cadvisor 版本,修复 CPU 负载高的问题。
DiskIO Manager 中禁用可能会导致内核 panic 的 bfq 功能。
修复打开再关闭 DiskIO manager 后,可能会导致 Pod 的 probe 执行失败的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-01-01
v1.0.1
修复了一些参数 default 值设置的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-08-30
v1.0.0
添加 chart,初步支持基于内核的 QoS 能力。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

SecurityGroupPolicy(安全组策略插件)

组件详情请参见 Pod 安全组
发布时间
版本号
变更内容
限制和影响
2023-01-15
v1.0.5
修复绑定多个重复的安全组造成 Pod 创建失败。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2022-08-25
v1.0.0
添加 chart,支持一批 TKE Serverless Pod 绑定同一个安全组来使用安全组放通安全组的能力。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

HPC(定时 HPA 组件)

组件详情请参见 HPC 说明
发布时间
版本号
变更内容
限制和影响
2024-08-01
v1.0.7
修复修改 hpc 的扩容对象不生效的问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2024-01-24
v1.0.6
调整 tke-hpc-controller 涉及权限。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-03-12
v1.0.5
修复资源更新操作导致资源属性丢失问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。
2023-01-08
v1.0.4
修复定时任务因用户误删除 finalizer 会被重复添加问题。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。

imc-operator(镜像缓存)

组件详情请参见 镜像缓存
发布时间
版本号
变更内容
限制和影响
2023-06-25
v0.2.2
涉及 crd 新增字段、clusterrole 增加权限、controller 镜像版本更新。
默认使用集群内子网制作镜像缓存,并支持用户 CRD 子网自定义设定。
此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。