更新说明
腾讯云容器服务提供了涵盖网络、存储、监控、镜像、调度、GPU 相关场景下的增强组件来扩展集群功能,您可在容器集群详情中的组件管理页面查看当前组件版本,并支持对组件版本进行手动升级操作。
升级须知
1. 升级属于不可逆操作。
2. 仅支持向上升级容器服务提供的组件版本,在满足集群 kubernetes 版本限制的情况下,默认升级至当前最新版本。
3. 针对已废弃的组件版本,容器团队将不再提供技术支持,建议您及时升级。
版本迭代记录
CBS-CSI(腾讯云硬盘存储组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2024-09-26 | v1.1.7 | 支持本地极速快照。 修复 norm token 过期的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-06-06 | v1.1.6 | 支持共享盘,pod 多节点挂载。 支持 workload 设置 request/limit。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-04-26 | v1.1.5 | 支持自定义标签。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-12-04 | v1.1.4 | 支持原生节点 CVM 模式。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-11-21 | v1.1.3 | 优化: 删除快照/云盘的时候,支持幂等。 driver-registrar 添加健康检查。 插件创建云盘/挂载/解挂云盘/扩容等场景对调用时间优化 新的 feature: 老版本集群中的 Intree 类型 pv 也支持进行快照备份。 cbs 插件接入资源管理中心,在调用资源的删除接口前进行审计。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-08-07 | v1.1.2 | csi-provisioner 支持使用快照 ID 进行 PVC 的快速数据恢复。 csi-attacher 添加退避算法,防止高频调用 CBS attach/detach 接口。 cbs-csi 支持 CDC 云硬盘场景。 优化 Pod 启动挂盘时间。 创建增强型 SSD 时支持设置额外性能。 CBS 快照幂等优化。 CHC、裸金属以及注册节点禁止 CBS 挂盘。 修复了1.24版本无法使用 LVM 功能的 Bug。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-03-24 | v1.1.1 | 适配 tke 1.24 版本。 兼容旧版本收费模式参数。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-02-21 | v1.1.0 | 支持自动感知 CVM 最大可挂载数。 优化云盘卸载逻辑,保证云盘状态正常。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-11-23 | v1.0.9 | 支持 LVM 条带模式。 调高 csi-resizer 配额。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-11-15 | v1.0.8 | 支持 LVM 多盘管理。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-10-20 | v1.0.7 | 支持 xfs 文件系统快照。 支持1G粒度云盘创建。 支持 block 类型 volume。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-09-13 | v1.0.6 | 支持从快照恢复时扩容。 支持 xfs 文件系统扩容。 支持 TKE 集群添加超级节点模式。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-07-06 | v1.0.5 | 支持云标签重复时的云盘创建。 解决在线扩容时序问题。 回收 csi-node secret 资源权限。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-05-31 | v1.0.4 | 优化插件启动逻辑。 csi-attacher 默认并发数调大至50。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-05-06 | v1.0.3 | 插件支持配置污点容忍。 插件新增 type 启动参数。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-04-24 | v1.0.2 | 取消插件 NodeUnpublishVolume 接口中的目录清理逻辑。 插件支持通过 Serial 获取盘符。 插件删除时保留对应 crd 资源。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-03-16 | v1.0.1 | 支持使用了 intree cbs 的业务负载在集群从1.18升级到1.20时原地无损迁移到 csi。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
Cerberus(镜像签名验证组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2022-09-26 | v0.0.1 | 镜像验签组件。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
CFS-CSI(腾讯云文件存储组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2024-09-26 | v1.1.6 | 支持共享实例初始化过程中的错误暴露到相关 pvc 的事件中,方便排查 pending 的原因。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-05-08 | v1.1.5 | 支持 workload 设置 request/limit。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-12-27 | v1.1.3 | 删除 cfs 文件系统前调用资源管理中心进行校验审计。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-09-12 | v1.1.2 | 存量升级,兼容 k8s 版本小于1.14集群中的 cfs 组件升级场景。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-07-05 | v1.1.1 | cfsclient 统一使用 PVC/PV 挂载方式。 CFS 实例增加标签功能。 修复部分问题,提升组件稳定性。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-03-07 | v1.1.0 | 支持 inline 形式挂载。 更新负载配置,提升组件稳定性。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-09-23 | v1.0.8 | 支持 TKE 集群添加超级节点模式。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-07-14 | v1.0.7 | 动态存储功能适配 Serverless 集群。 共享存储功能适配 Serverless 集群。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-05-24 | v1.0.5 | 支持 Serverless 集群 cfs provisioner。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-05-06 | v1.0.4 | 插件支持配置污点容忍。 tcfs 配置文件中新增优先级和 hostAliases。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-04-19 | v1.0.3 | tcfs crd 增加资源标签字段。 1.12及以下 k8s 版本不安装 tcfs 相关的资源。 cfs-csi startServer 注册启动优化。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-04-12 | v1.0.2 | 插件 umount 幂等性支持。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-03-24 | v1.0.1 | 支持动态创建时共享存储实例,通过自动生成的子目录进行数据隔离。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
COS-CSI(腾讯云对象存储组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2024-09-26 | v1.0.6 | 默认关闭 cos launcher 的 coredump 设置,可以通过设置 env ENABLE_COREDUMP=true 来开启。 | 集群版本 >1.18。 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-05-14 | v1.0.5 | cos-csi 增加挂载 target 健康状态指标。 cosfs 挂载操作支持托管到 cvm。 | 集群版本 >1.18。 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-11-30 | v1.0.4 | cos-csi 插件收敛部分权限,提高组件安全性。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-09-21 | v1.0.3 | 优化: cosfs 挂载的时候 odbglevel 和 opasswd_file 参数以用户的配置为准。 umount 支持重入,防止挂载目录被删除后,pod一直 terminating。 升级 cosfs 版本,提高稳定性。 cosfs 配置 core dump,防止 cosfs 进程挂掉后无法追溯。 新增 feature: 新增 cos 使用 goose-lite 方式热挂载。 cos 组件开启全容忍。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-05-06 | v1.0.1 | 插件支持配置污点容忍。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
CFSTURBO-CSI (腾讯云高性能并行文件系统)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2023-12-04 | v1.0.1 | cfsturbo-csi 插件收敛部分权限,提高组件安全性。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
Craned(Request 推荐组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2023-11-30 | v2.1.2 | Craned 支持 qos initializer webhook。 Craned 组件提权风险问题修复。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-05-16 | v2.1.0 | 修复了从旧版本升级后额外生成推荐 CRD 的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-05-05 | v2.0.0 | 升级到推荐框架版本。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-02-24 | v1.3.0 | 提升了组件的稳定性。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-12-09 | v1.2.0 | 优化内存推荐逻辑,增加推荐数据精度。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-09-20 | v1.1.0 | 请求腾讯云可观测平台的 metric 间隔调成5m,推荐频率降低到12小时一次。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
CranesScheduler(原生节点专用调度器)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2024-10-30 | v1.5.0 | 功能新增: cranescheduler 支持针对所有原生节点开启负载感知调度功能,可在组件管理配置页按需开启。 cranescheduler 支持当多 cnrp 选中同一个节点时,仅最新的cnrp 生效。 crane-descheduler 支持设置策略执行间隔时间,高负载打散时最小低负载节点数。 优化: pod 调度到原生节点将跳过 workload 为 ds 类型,适配集群中有原生节点和普通节点场景。 修复因数据延迟,descheduler 驱逐后,调度器又将 pod 调回源节点的问题。 修复新建的原生节点因前5分钟利用率数据为空,创建后5分钟才能调度的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-08-22 | v1.4.3 | 优化 crane-descheduler 在降低节点负载(驱逐 pod)过程中,调度器往高负载节点上调度 pod。 优化高负载打散策略执行效率,降低发现高负载节点的延迟、优化策略执行间隔。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-07-12 | v1.4.2 | 优化 “Pod 负载扣减调度”特性,避免造成 CA 阻塞。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-06-27 | v1.4.1 | 支持关闭驱逐停止水位线,优化关闭节点自动放大后节点的 annotation。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-06-13 | v1.4.0 | 新增“节点动态放大”特性,控制台按需开启。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-05-09 | v1.3.0 | 新增 “Pod 负载扣减调度”特性,控制台按需开启。 调整热点默认权重,优化 metrics 等更新。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-01-29 | v1.2.0 | 收敛安全权限。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-10-13 | v1.1.1 | 组件默认多副本工作,提高可用性。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-08-16 | v1.1.10 | 修复获取 Pod load 失败的问题。 修复在 node memory 达到驱逐水位线时,驱逐过多 Pod 的问题。 新增加一条驱逐停止水位线。 添加 hot-value metric,供外部观测。 计算节点热点值时,默认忽略 daemonset-pod。 支持各组件在超级节点上正常工作。 提升各组件在普通节点上 QoS 及优先级,保证组件高优先级工作。 下线由 node-annotator 实现的 hotvalue 方案。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-07-27 | v1.1.9 | 使用 podinformer 方式实现 hot-value 功能。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-07-17 | v1.1.8 | 下线以 prebind 扩展点实现的 hot-value 方案,仍使用原来的 annotate node 方式实现。prebind 方案有单点故障问题,会阻塞整个集群的调度,风险过高。 修复v1.18升级到v1.20版本的集群配置调度器失败的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-06-30 | v1.1.7 | crane-scheduler-controller 证书算法更新,从sha1更换到sha256,支持v1.22及以上集群。 Helm 管理优化: hook deletePolicy 支持可重入操作。 添加 managecontrolplane 的 post-install、post-upgrade 和 pre-upgrade 拓展点,支持 prebind 的原地升级。 重做 hot-value 功能,添加 Prebind 拓展点,避免节点热点问题: crane-scheduler目前只能支持单副本运行。 crane-scheduler-controller 兼容 hotvalue.weight 配置。 优化指标上报,缓解 OOM 问题。 取消 crane-scheduler-controller 及 descheduler 的 hostnetwork 网络模式,避免因端口冲突引起存活探针失败。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-06-21 | v1.1.6 | 去除 crane-scheduler-controller 及 descheduler 的 deployment 上的 hostnetwork 设置。 crane-scheduler-controller 兼容 hotvalue.weight 配置。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-06-20 | v1.1.5 | 证书算法更新,sha1更换到sha256,crane-scheduler-controller 支持v1.22及以上集群。 helm hook deletePolicy 支持可重入。 添加 Prebind 拓展点,使用调度器缓存热点,避免节点热点问题。 优化指标上报,缓解 OOM 问题。 添加 managecontrolplane 的 post-install、post-upgrade、pre-upgrade 拓展点,支持 prebind 的原地升级。 修改默认 cranescheduler 的 hotvalue 配置。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-03-23 | v1.1.4 | 修复原生节点新加入节点打分阶段得分低,Pod 难以调度的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-09-21 | v1.1.3 | fix helm repo 参数缺失导致节点的指标无法更新到 node 上。 将 descheduler 融入到 cranescheduler,新增重调度器驱逐水位,动态调度器水位和重调度器目标水位一致。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
DeScheduler(重调度器插件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2023-01-12 | v1.0.2 | 修复集群节点 name 和 IP 不一致导致监控指标无法获取的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-06-07 | v1.0.1 | TMP 认证支持: prom-probe 中添加 auth 认证。 descheduler 和 init container 中传入 token/appid 等环境变量,并进行解码。 descheduler 中增加 prometheus client 认证功能。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
DynamicScheduler(动态调度器)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2022-06-30 | v1.0.2 | TMP 认证支持: probe-prometheus 中添加 auth 认证。 node-annotator 和 init container 中传入 token,appid 等环境变量,并进行解码。 node-annotator 中增加 prometheus client 认证功能,更新镜像到 v3.2.1。 对于使用 ip 作为 node exporter 上报标签的 promql 语句适配,修复无法查数据 bug。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
Nginx Ingress(开源七层网络接入层)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2023-11-30 | v1.4.1 | 收敛到最小必须权限,避免提权风险。 支持定期 resync。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-08-09 | v1.3.1 | 支持 TKE 1.22和 1.24集群增量 nginx ingress 实例的 IngressClass 能力。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-07-20 | v1.3.0 | 支持 ingres-nginx v1.6.4版本,已用来支持 TKE 1.26及以上。 支持 IngressClass 对象,从v1.6.4版本开始。 支持上海自动驾驶地域 shadc。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-08-17 | v1.2.0 | 接口迁移,不再依赖弹性网卡。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-04-18 | v1.1.0 | eks.tke.cloud.tencent.com/norm: "true" eks.tke.cloud.tencent.com/disable-metrics:"true" 考虑到 TKE 集群添加超级节点模式,将原来在 Serverless 集群下生效的注解开放到 TKE 集群添加超级节点模式下生效。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
pod-identity-webhook(Pod 身份注入器)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2022-08-25 | v1.0.0 | 添加 chart,支持 Pod 绑定一个 sa,sa 支持扮演 cam 角色来访问其他资源的能力。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
Cluster Autoscaler(CA 组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2024-01-11 | v2.0.11 | CA 生成节点池模板时扣除 kubelet 运行所需内存。 伸缩组修复大小失败时不阻塞其他健康节点池扩缩容。 | 仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。 |
2023-12-28 | v2.0.10 | 修复原生节点缩容原子性问题导致的扩缩容异常。 | 仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。 |
2023-12-14 | v2.0.9 | 修复 crane 场景无法正常扩容的情况。 | 仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。 |
2023-10-13 | v2.0.8 | 修复原生节点无法正常移除节点时,ca 的异常减少节点池期望的问题。 | 仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。 |
2023-09-15 | v2.0.7 | 增加对 pending pod 等2秒时间供调度器尝试调度。 | 仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。 |
2023-07-04 | v2.0.6 | 校验 workload group。 支持删除创建失败原生节点。 | 仅支持1.16及以上集群版本,此次升级不会对已有业务造成影响。 |
nvidia-gpu(NVIDIA GPU 组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2024-03-01 | v1.0.0 | 1. 首次发布 nvidia-gpu addon,纳管 nvidia-device-plugin daemonset,支持以组件方式进行管理和升级。 2. 集成 TKE 研发的 gpu exporter,支持容器、Pod 和节点纬度的 GPU 指标。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
qGPU(GPU 隔离组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2024-03-19 | v1.0.22 | 优化 completed pod 的处理逻辑及 update 事件的处理逻辑,避免累积导致缓存释放慢影响调度。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-03-01 | v1.0.21 | 支持470/515小版本及525/535等高版本驱动。 支持 H800显卡(不支持在离线混部;建议使用 cuda 12.0+,低版本存在 qgpu 设备初始化慢的问题)。 qgpu-manager 增加检查 qgpu 资源的逻辑,如因某些原因导致资源数量为0,则退出重新启动注册。 自动安装 qgpu exporter 组件,支持 GPU 基础监控。 升级时,保留 qgpu scheduler 的 CPU 和内存资源设置(qgpu scheduler 占用的内存数量与集群规模有关系,需要客户根据实际情况进行设置)。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-01-24 | v1.0.20 | 进一步收敛 qgpu-manager 权限,仅保留最小必要权限。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-12-18 | v1.0.19 | 修复因未设置必须的 qgpu 资源请求导致 qgpu scheduler panic 问题。 调度前,检查 pod 资源是否满足限制条件,不满足则返回错误,调度失败,避免由此带来的 panic 及隔离不生效等问题。 修改 qgpu-manager updateStrategy,maxUnavailable设置为10%,加快更新速度。 给 qgpu-installer init 容器增加资源 limit,确保 qgpu-manager pod 是Guaranteed,避免节点资源压力大时被优先驱逐。 修复节点发生迁移 GPU 数量变化引起的 qgpu scheduler panic 问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-11-28 | v1.0.18 | 收敛 qgpu-manager 的权限,避免提权风险。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-08-30 | v1.0.17 | 改进 Pod 删除时的处理逻辑,加快删除,减小 Recreate 策略的 Deployment 更新时新 Pod 调度失败的发生率。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-08-22 | v1.0.16 | 修复 Pod 删除后变为 DeletedFinalStateUnknown 对象时强制转换为 Pod 引起 panic 的问题。 节点设置 label tke.cloud.tencent.com/qgpu-mode=base 后,安装 base 版本的 qgpu 模块,无需修改内核参数。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-06-20 | v1.0.15 | 增加表示显存分配单位的标签 tke.cloud.tencent.com/qgpu.memory-unit,值为1G或者128M。 qgpu hook 兼容 nvidia 方案。 qgpu 安装失败时,日志中提示检查是否是支持的 GPU类型。 支持新的TencentOS-3.1 5.4内核。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-05-09 | v1.0.14 | 支持原生节点、公共镜像、16卡、显存以128MB为单位。 兼容 nvidia 515(515.65.01) 驱动。 qGPU 调度器增加 /metrics 及 /caches 接口。 修复导致 qGPU 设备创建或销毁失败以及调度缓存信息不一致的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-02-08 | v1.0.13 | 处理 qGPU 资源为0的 Pod 时,直接返回全部节点或者打分全部为0,避免处理大量节点耗时过长,阻塞 qgpu pod 的调度。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-12-20 | v1.0.12 | 支持16卡。优化日志,避免打印干扰信。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-10-28 | v1.0.11 | 删除 Pod 时,直接批量删除该 Pod 相关的指标,而不是按照容器逐个删除,避免某些情况下指标未删除的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-10-24 | v1.0.10 | 修复某些多卡机型上,GPU 卡序号与次设备号不一致,导致 qGPU 挂错显卡,业务无法正常运行的问题。私有化允许安装不支持混部的 base 版本 run 包,此时不需要修改内核参数及重启节点。 修复未设置 qgpu-memory 却提示缺少 qgpu-core 的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-09-29 | v1.0.9 | 修复 crd 引入的回归问题,该问题导致 qGPU 调度器重启后在未同步 Pod 分配信息的情况下就开始调度新 Pod,产生不一致问题。 更新 Pod 容器指标前,先清理相关数据,避免脏数据。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-09-21 | v1.0.8 | 增加 /metrics 接口,暴露分配给 Pod 容器的 GPU 信息(node_gpu_core_request,node_gpu_memory_request_bytes; 类型Gauge,标签"node", "gpu", "namespace", "pod", "container"),Pod 删除后,相关容器的指标即被删除。 对于各种原因遗留的 qGPU 设备,在每分钟进行的 gc 中兜底删除,避免影响创建新的 qGPU 设备。 修复 Pod 删除后同名 Pod 马上被创建和调度到同一个节点可能导致创建 qGPU 设备失败的问题。 支持原生节点安装使用 qGPU(原生节点的 qGPU 不支持在离线混部功能)。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-09-06 | v1.0.7 | 修复 qGPU 调度器未清理已删除节点信息的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-08-31 | v1.0.6 | 支持使用节点的 kubeconfig 访问 apiserver (此时不能启用 crd 参数)。 支持使用 TencentOS 2.4(TK4) 公有镜像安装 qGPU。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-07-20 | v1.0.5 | 支持使用公有镜像安装和使用 qGPU。 支持关闭给节点打 label 的功能(--enable-label=false)。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-06-08 | v1.0.3 | qgpu manager 镜像更新为 tkeimages/elastic-gpu-agent:v1.0.2。 qgpu scheduler 镜像更新为 tkeimages/elastic-gpu-scheduler:v1.0.2。 支持使用 GPU CRD 管理 GPU 资源。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-04-21 | v1.0.2 | 更新了 qgpu manager 镜像版本,支持自动所在节点设置 GPU 驱动版本以及其他信息。 更新了 clusterrole qgpu-manager,增加了对 nodes 的操作权限。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
QOSAgent(QOS 保障组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2023-11-30 | v1.1.6 | 开启 qos initializer webhook。 优化 crane agent 内存消耗。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-11-23 | v1.1.5 | 支持内存压缩。 收敛权限,提高组件稳定性。 修复离线pod水位压制失败的bug。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-09-20 | v1.1.4 | 支持应用启动时一段时间内提高 cpu limit,加速应用启动。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-08-14 | v1.1.3 | 修复 caculateCPUUsage 时因为 nil 指针引起的 panic。 升级 cadvisor 版本,修复 CPU 负载高的问题。 DiskIO Manager 中禁用可能会导致内核 panic 的 bfq 功能。 修复打开再关闭 DiskIO manager 后,可能会导致 Pod 的 probe 执行失败的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-01-01 | v1.0.1 | 修复了一些参数 default 值设置的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-08-30 | v1.0.0 | 添加 chart,初步支持基于内核的 QoS 能力。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
SecurityGroupPolicy(安全组策略插件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2023-01-15 | v1.0.5 | 修复绑定多个重复的安全组造成 Pod 创建失败。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2022-08-25 | v1.0.0 | 添加 chart,支持一批 TKE Serverless Pod 绑定同一个安全组来使用安全组放通安全组的能力。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
HPC(定时 HPA 组件)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2024-08-01 | v1.0.7 | 修复修改 hpc 的扩容对象不生效的问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-01-24 | v1.0.6 | 调整 tke-hpc-controller 涉及权限。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-03-12 | v1.0.5 | 修复资源更新操作导致资源属性丢失问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-01-08 | v1.0.4 | 修复定时任务因用户误删除 finalizer 会被重复添加问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
imc-operator(镜像缓存)
发布时间 | 版本号 | 变更内容 | 限制和影响 |
2023-06-25 | v0.2.2 | 涉及 crd 新增字段、clusterrole 增加权限、controller 镜像版本更新。 默认使用集群内子网制作镜像缓存,并支持用户 CRD 子网自定义设定。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |