首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >趣丸科技基于TKE与TTSet混部方案将CPU利用率从8%提升至50%以上

趣丸科技基于TKE与TTSet混部方案将CPU利用率从8%提升至50%以上

原创
作者头像
IT资讯研究所
发布2026-05-30 18:53:24
发布2026-05-30 18:53:24
760
举报

突破低利用率瓶颈,实现资源错峰填谷

趣丸科技作为中国领先的国家高新技术企业,旗下拳头产品TT语音累计注册用户超2亿,业务覆盖兴趣社交、人工智能及电子竞技(LPL、KPL、PEL等官方合作伙伴)。随着业务规模扩张,企业面临资源利用率偏低的运营压力。在混部实践前,趣丸科技全网主机CPU利用率仅为 8%。企业拥有独立的Spark集群用于离线业务,但在“生长于云”及直播业务高在线的场景下,底层隔离能力受限,需要通过技术升级实现更高效的资源利用,达成降低成本的运营目标。

构建基于TKE与TTSet的三层混部调度体系

趣丸科技采用了“依托于云,拥抱社区”的策略,确立“调度优先、隔离为辅助”的总体方案,通过以下技术架构实现混部:

  1. 集群级调度优化:自研 TTSet混部调度系统,包含以下核心组件:
    • tt-scheduler:基于scheduler-framework开发,实现基于真实负载感知的调度、资源热点迁移与过载干预、基于优先级的驱逐算法以及基于最晚运行时间的调度。
    • tt-webhook:作为admission webhook,在Pod创建前修改参数,执行资源压缩与节流参数注入。
    • tt-agent:以DaemonSet方式部署在Kubernetes每一个Node节点上,负责采集数据、上报数据及干预Pod。
  2. 节点级隔离保障:采用 TencentOS Server(腾讯云针对云场景研发的Linux操作系统)与云原生节点(TKE容器服务团队推出的全新节点类型)。
    • CPU隔离:支持CPU Burst技术。
    • 内存隔离:支持异步回收与全局水位分级。
    • IO与网络隔离:支持优先级控制、IO限制及BPS限制。
  3. 弹性扩缩容:引入腾讯云 超级节点,支持按量计费与秒级扩容,并实现规避CA流程的无损瞬时缩容。

核心指标提升与资源模型验证

通过实施上述方案,趣丸科技在资源利用上取得了以下量化成果:

  • 利用率提升:全网主机CPU利用率从 8% 提升至 50%以上
  • 错峰效果:根据24小时资源监控数据,在线业务高峰时段(15:00-21:00)CPU实际利用率维持在 20%-47% 之间,而凌晨低峰时段(00:00-14:00)利用率稳定在 14%-15%,成功实现了离线集群对闲置资源的完全复用。
  • 资源模型:系统定义了“离线可用资源 = 在线业务已分配未使用资源 + 未分配资源(不稳定资源)”的模型,并设定 2分钟 的不稳定窗口(Unstable window size)进行精细化观测,确保调度策略的准确性。

“依托于云,拥抱社区,调度优先、隔离为辅助的总体方案,让我们成功将全网主机CPU利用率从8%提升到50%以上。” —— 黄金,趣丸科技

技术沉淀与服务支撑

该实践的成功基于以下核心要素:

  1. 立足业务:针对趣丸科技兴趣社交与电竞业务的高在线特性,定制负载感知调度。
  2. 合作共赢:结合腾讯云TKE的云原生节点能力与趣丸自研TTSet调度系统。
  3. 依托于云:利用腾讯云千万核容器运维的技术沉淀及TencentOS Server针对云的优化特性,确保系统的高稳定性和快响应能力。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 突破低利用率瓶颈,实现资源错峰填谷
  • 构建基于TKE与TTSet的三层混部调度体系
  • 核心指标提升与资源模型验证
  • 技术沉淀与服务支撑
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档