首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    4 个月节省千万成本的机器学习混部实践

    当前,各大公司都存在着线下集群利用率不高的问题,且在尝试进行多业务类型的混合部署后,还可能会遇到各种稳定性和业务质量方面的挑战。因此,贝联珠贯在大数据领域针对万台规模的集群展开了研究,并成功落地了一种基于增强型 RunC 的新方案,在第一阶段的 4 个月里,成功地帮助客户提升了资源利用率,年度降本超过千万人民币,同时业务使用体验并未受到影响。在今年 9 月份的 QCon 全球软件开发大会(北京站),贝联珠贯 (www.lccomputing.com) 合伙人王元良老师以《增强型 RunC 的最佳实践:克服离线高压力混部场景的关键挑战》为题,分享了实际落地经验。本文由贝联珠贯公众号(ID:Lccomputing)整理节选自此次演讲。 完整幻灯片下载地址: https://qcon.infoq.cn/202309/beijing/presentation/5440

    01

    理解Load Average做好压力测试

    SIP的第四期结束了,因为控制策略的丰富,早先的的压力测试结果已经无法反映在高并发和高压力下SIP的运行状况,因此需要重新作压力测试。跟在测试人员后面做了快一周的压力测试,压力测试的报告也正式出炉,本来也就算是告一段落,但第二天测试人员说要修改报告,由于这次作压力测试的同学是第一次作,有一个指标没有注意,因此需要修改几个测试结果。那个没有注意的指标就是load average,他和我一样开始只是注意了CPU,内存的使用状况,而没有太注意这个指标,这个指标与他们通常的限制(10左右)有差别。重新测试的结果由于这个指标被要求压低,最后的报告显然不如原来的好看。自己也没有深入过压力测试,但是觉得不搞明白对将来机器配置和扩容都会有影响,因此去问了DBA和SA,得到的结果相差很大,看来不得不自己去找找问题的根本所在了。

    02
    领券