首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

4 个月节省千万成本的机器学习混部实践

当前,各大公司都存在着线下集群利用率不高的问题,且在尝试进行多业务类型的混合部署后,还可能会遇到各种稳定性和业务质量方面的挑战。因此,贝联珠贯在大数据领域针对万台规模的集群展开了研究,并成功落地了一种基于增强型 RunC 的新方案,在第一阶段的 4 个月里,成功地帮助客户提升了资源利用率,年度降本超过千万人民币,同时业务使用体验并未受到影响。在今年 9 月份的 QCon 全球软件开发大会(北京站),贝联珠贯 (www.lccomputing.com) 合伙人王元良老师以《增强型 RunC 的最佳实践:克服离线高压力混部场景的关键挑战》为题,分享了实际落地经验。本文由贝联珠贯公众号(ID:Lccomputing)整理节选自此次演讲。 完整幻灯片下载地址: https://qcon.infoq.cn/202309/beijing/presentation/5440

01

集群和负载均衡_分布式负载均衡

这是一个目前普遍使用的调度算法,算法在WRR的基础上加入了根据服务器端的负载信息周期性地调整服务器性能权值的过程。其基本思想是:根据CPU利用率、内存利用率、磁盘使用情况、连接数、进程数等硬件资源信息综合计算各个服务器的负载值,然后与一个己设定的代表系统利用率的阀值比较,如大于阀值则说明负载较重应调小权值,反之则调大权值。权值的大小决定了该服务器服务请求的能力大小。动态WRR是一种在算法复杂度和效率方面折中的较好算法,研究表明在请求的服务时间长度变化不大的情况下,动态WRR有较高的吞吐率和可伸缩性,包括思科和IBM的商业集群产品采用的也是动态WRR。

03
领券