00:00
各位网友大家好,欢迎观看原动力云原生正发生降本增效大讲堂系列技术直播。本次大讲堂是由中国新通院、腾讯云奥产业标准工作组联合策划,目的是与开发者一同交流提升资源利用率、降本增效的方法与优秀实践。那今年大讲堂分为三期,共十讲。第一期聚焦再优秀实践方法论资源与弹性架构设计那第二期聚焦全章景在离线分布GPU资源效率提升Co源感知调度主题,第三期将邀请四家名企业分享各企业原生增效技术实践。从而给开发者带来更多样化场景业务下的技术干货。那时隔一周,我们又到了我们周四的分享的时间,今天是该大讲堂的第九讲。直播主题是京东云原生大规模实践之路。那在9月29号的晚上八点将进行第十讲的直播,欢迎大家预约观看。那今天我们请到了京东云GS研发组架构师杨叶飞来为我们分享京东云原生大规模实践之路,小伙伴们在直播观看过程当中呢,有技术问题可以在直播间或者技术交流群进行举手提问,那技术大咖会为你进行解答,那接下来我们有请杨叶飞老师。
01:25
各位线上的观众,各位专家和老师们,大家晚上好,很高兴今天由我给大家做这一次的分享。我是来自京东云街道研发组的杨叶飞。嗯,我呢,目前主要是从事于G到S平台的KS相关的一些架构和开发工作。本次呢,我分享的主题是。京东云原生大规模实践之路。这次的分享主要分三个部分给大家做一下介绍,第一个阿基米德调度,第二个是第三个是离线。
02:09
在给大家分别做介绍之前呢,我先简单的介绍一下京东JS的一个技术演进的一个路线。JS是京东的容器,管理平台是京东的统一。呃,原生技术底座。呃,目前呢,是京东集团内部所有的业务,包括在线应用啊,包括数据库中间件。包括大数据的实时计算和离线任务等等,都是跑到了GS平台上。呃,JDOS的技术演进呢,主要分为以下三个阶段,第一个是在一四到一六年的时候,我们上线了JDOS1.0。
03:00
主要做到的呢,是一个容器化部署。嗯,在一四到一六年之前呢,我们主要面临的一些问题是说物理机的部署资源利用率是很低的。然后第二个是说应用的。呃,部署它是没有一个隔离的存在。嗯,所以呢,我们在1.0主要用的技术方案是docker容器的一个部。嗯,1.0上线之后,我们线上这个机器的。呃,部署密度也得到了一个增加,然后宿主机的CPU的使用率也从10%提升到了15%。隔离性也得到了一个很大的增强,应用的资源使用更加的可控,应用的迁移也更加的方便,便于推广。在一七到一八年,我们上线了G2.0,就是基于阿基米德调度。
04:00
然后在1.0的时候,我们面临的一些问题是说成本的压缩,服务器采购受到了限制,没有办法满足大促时候应用资源申请量的一个要求。啊,第二个问题是说资源的利用率有待提升啊,因为它的使用率其实不是很高,第三个是资源的使用其实不太均衡,所以我们基于K8S阿基米德调度,然后使宿主机的这个CP的平均使用率从10%提升到了30%。然后大大的减少了服务器的数量。节省了数亿的采购成本。然后宿主机的使用率也更加的均衡,顺利的支撑了多次的618和双11的大促。第三个阶段就是一九年到现在,我们称为GS3.0,主要的技术,呃,变更就是增加了离线混的技术。
05:03
在2.0的阶段呢,应用的上下线成本,有一些应用的上下线成本还是比较高。然后呢,同时又有大量的新的业务要上线。导致大促的资源仍然是处于一个非常紧张的状态,然后呢,同时我们发现在线集群非高峰时段呢,资源的利用率其实并不是很高。所以我们在技术上选择了。跨集群的力在线,然后3.0上线之后呢,也是减少了应用的部署成本,为大数据的任务额外的提供了30~50万盒的这个CPU算力,然后在大促期间呢,又可以为在线的业务提供额外的20万盒的一个计算的资源。所以我们可以发现,其实京东呃,容器技术的演进,或者说原生的一个技术演进的路线,和我们的降本增效其实是息息相关的一个关系。
06:12
嗯,这一部分呢,首先介绍一下我们的阿基米德调度机器。啊,右边呢,是我们阿基米德的一些主要的模块的一些划分。然后原生的调度器,其实啊,在京东的一个使用场景下,会面临的一些问题,一个是嗯,资源使用率的不均衡。这个不均衡,一个是使用率,一个是任务的分配不够均衡。第二个呢,就是我们后面不管是。啊。呃,离线任务的调度啊,还有包括要求的这个调度速度,然后快速的启动,快速的销毁等等这些。
07:00
都需要调度速度有一个很好的一个表现,那原生的调度器呢,其实比如说在我们线上的。线上的一个集群,如果有1万台物理机,那它的调度速度基本上调度一个pod。要达到300毫秒以上才能把pod调度出来。那这样算起来的话,其实它是远远达不到我们的调度性能的一个要求的。嗯,所以我简单介绍一下我们,嗯。阿基米德调度目前是做了哪些事情?解决了哪些问题?第一个是基于预测的一个智能调度,我们都知道线上的这个任务默认的原生的KS的分配策略。是说基于request去做一个调度,但是因为request是一个静态的。然后呢,它实际的这个使用率,包括request和这个实际使用率的这个比值。
08:07
在线上可谓是千差万别的。所以说呢,我们如果只是依据request的这个静态数值去做调度,是没有办法很好的保证这个资源的一个均衡性的。所以说啊,我们呢,依依托于京东的大数据,然后利用机器学习,深度学习的一些算法,对应用的资源使用情况进行了一个画像的统计。并能对应用的未来资源使用情况进行一个预测,将在线与离线应用合理的进行混合调度部署。啊,同时呢,要很好的保障,保护节点的一个负载,避免热点的一个出现。嗯。第二个特性呢,是说调度过程的可视化,还有热点的分析。
09:03
啊,因为啊我们做。这个调度的过程中发现就是因为线上的规模也比较大,其实总会有一些原因导致可能有个别的。热点的机器出现。那基于这些,呃,热点的出现的这个情况呢,我们为了能够更好的去对现场做一些分析,所以我们会把这个调度的过程作为一个全程可视化的一个。方式同时呢啊。会对热点的机器的形成原因进行一个实质的分析,并出具一个分析报告。这样的话呢,就有助于我们后面对调度策略的一些调整和验证。嗯,第三个是调度器的仿真系统,还有回放功能。嗯,因为我们。
10:02
就是做调度的验证的过程中,其实不能简单的通过,比如说啊,十个节点,20个节点,或者100个节点这样的一个。集群的规模去验证我们的策略,因为很多时候他是没有办法达到那种复杂度的。呃,复杂度的那种情况的,所以说我们是通过一个。模拟器加上线上数据的一个回放。对调度的请求进行一个仿真的模拟形成,以此呢来形成一个新的数据建模,然后再通过这个建模。去优化和验证,去验证和优化我们的一个。调度方案,然后为智能调度提供一个更优的一个方案。嗯。
11:00
说完那个。使用率的不均衡,下面就是说还有一个分配的不均衡,比如说我们现在。嗯,线上我们一般的任务分级别是从P0到P3,这个级别我们肯定是希望。嗯,线上的所有的P0到P3的任务能够做到尽量均衡的分配,因为为了避免就是。嗯,就是要做一些业务的。啊容灾,所以说我们希望这个各个级别,它能做到一个尽量均衡的分配。那但是基于嗯,原生的一些调度策略可能不太好满足我们的需求,所以我们是有一些基于这个S等级的一些调度的策略,比如说我们可以规定P0和P1的任务。它们的和加起来不能超过node的。
12:01
呃,可用资源的一个上限,以此呢来保证这个分配的一个。均衡。嗯。第二个就比如说我们会基于这个监控的数据,对应用的这个类型彼此之间做一个反亲和,比如说都是呃,CPU密集型的任务,那我们就会给他加上一个。C、密集型任务的一个反的策略。然后来做到就是说同类应用的一个,呃。分配调度的一个均衡。嗯,所以呢,基基于以上的这些。策略和手段。我们。呃,在充分的利用申请的资源和实际使用的差距来提升pod的部署密度。
13:00
嗯,下一个要说的就是调度速度的优化,刚才也说我们呃,一秒钟调度三个pod,这个事儿是。生产上是没有办法容忍的,所以我们主要做了一些优化手段是。一个是调整这个调度策略和调度过程的一些逻辑,然后呢。包括对这些逻辑做的一些优化,比如说我们线上的任务,它实际的,嗯,可能对某些策略的使用是比较多,同时呢。这个策略的耗时又是比较短的,所以说我们会优先,如果它是一个筛选策略,我们会优先把这个策略往前放。然后以此呢来达到就是减少这个。呃,耗时的一个目的。第二个呢,是说调度策略可以在pod级别可以配置。
14:03
呃,我们知道原生的调度器,它的策略其实是在呃,全局的维度是一个可配的一个。方式啊,但是实际上啊,因为我们一个集群的规模都比较大,所以说不可能是说一个或者说很难做到一个统一的策略去满足线上。所有的这种调度诉求的同时,又能保证它的调度速度是最优化的。所以我们是一个在pod级别可配的一个。调度策略的一个模式。通过这样的策略呢,来减少一些,呃,筛选或者是优选的策略的。呃,使用来减少这个耗时。嗯,这里面呢,其实有一些策略。这个是很关键的。
15:02
嗯,因为他一个策略可能会在大规模集群的一个情况下,他一个策略可能会比其他所有策略加起来的一个耗时时长。嗯,还要。还要更多。所以如果这个pod没有使用这个策略,那。最好是把它给。嗯,把它给禁用掉,那这样的话调度速度会得到一个非常显著的一个提升。第三个是一个调度预测,加上快速失败的一个机制。调度预测是我们有一个资源管理的一个。系统这个系统呢,可以就是呃,有效的预测。就是在你部署应用之前,它可以有效的预测你在这个集群。能够拉起多少个副本,然后呢,用户在。
16:01
部署之前,通过这个预测的机制来判定他,来决定他是不是要在这个集群部署。嗯,然后呢,还有我们会有一个快速失败的机制。就是当一个任务,比如说他调度了多少次,或者多长时间之后。就会选择一个就会就会变成一个永远不可调度的一个状态,因为我们线上的这个带调度的pod很多。然后呢,其实啊,其实一个po,如果它啊,比如说。啊,我可以认为,比如说一分钟或者几分钟之内调度不出来,那其实。他在未来很长的一段时间,很大概率是调度不出来的。这种。不断重试的一个调度策略,其实是有一些得不偿失的,特别是在一个大规模的场景下。所以呢,我们会。
17:03
呃,做到一个快速的失败,然后当这个pod调度不出来,他就不会去一直占用我们的调度的资源,这样来保证我们的调度一直是处于一个有效调度的状态,以此来节省调度的资源,增快调度的速度。嗯,以上这些就是关于阿基米德调度的一些。介绍。嗯。第二部分我们介绍一下啊,我们做到的一个集群的,首先呢,这个是一个。应用。那为什么我们要做跨集群这件事儿?第一个方面是说,嗯,从业务的角度来说,他确实。有跨集群的这个需求,他希望他的呃任务是可以做到跨集群,甚至跨机房这样的一个容灾的一个模式。
18:09
那我们,呃,平台管理员的视角来看,其实我们也是希望。这个。嗯,能够在资源的调配方面能够做到可以把各个集群能够尽量的打通。然后打破各个集群那种资源孤岛的一个状态,这样的话,我们这个整体的一个调配,也是一个非常有利的一个。事情。所以说我们做的是一个跨的的一个方案。那这个方案其实主要的实现呢,都是基本上全是我们自研的一套实践方案,这里我主要介绍一下我们在实现这套方案的过程中啊,比较重要的一些特性。
19:01
比如说嗯,第一个是全局的一个资源预测,因为它是一个跨集群的方案,所以说就第一步是创建之后就要决策是在哪个集群,它的副本的分布数量是多少。所以我们需要做到一个。嗯,我们需要尽量去做到,就是保证。在这个副本分配到对应的集群之后,需要有资源能够正常的拉起它,所以说我们做的第一个事情就是说全局的一个资源的预测,也是基于我们的资源管理系统,能够提前预测各个集群可以调度的副本数,在基于用户设置的一些策略。比如说集中分散还是跨集群,跨机房等等,是强制的策略还是非强制的策略,然后呢,来决策各个集群对应的副本数是多少。
20:03
第二个特点是一个及时的弹性策略啊,我们的弹性策略支持定时实时这些,呃,原生的弹性策略那啊,同时增加了一个基于历史指标的一个弹性扩缩的策略。嗯,这个策略是指什么呢?就是在实时指标弹性扩缩的。策略基础之上,我们会考虑过去一段时间它的历史指标来作为一个参考,比如说我们啊未来。从当前时间到未来的,呃,半个小时,我们会采用过去啊,比如说七天或者一个月。当前时间到未来半个小时的这个使用率的指标,然后呢,去做一个使用率的一个判定,那这样的话,如果。
21:04
嗯,如果比如说未来的。就是基于历史的经验,如果未来的呃半个小时,它的使用率会有一个显著的上升,那我们就会提前的做一个扩容的一个策略。嗯,以此呢来保证,就是当我们流量来的来临的时候,我们的pod是处于一个ready的状态来承接这个流量,而不是说被流量去压垮,这个pod又没有起来。嗯,第三个特点呢,是说实力启停速度的一个优化,因为我们的sola的特点呢,肯定是说伴随着大量的或者说频繁的一个创建和销毁,所以它的启动和呃,销毁的速度是一个很关键的一个。
22:00
是一个很关键的一件事,呃,我们通过呢P这种方式来提升镜像的下载速度。然后基于NPD加各种故障探测的脚本。来解决这个启动和销毁的过程中各种各样的一个阻塞点。呃,以此呢,来保证这个启动消耗的速度都是控制在秒级以内的。嗯。这里比如说嗯,我们优化的点有什么呢?比如说这个销毁过程中。那可能你挂在了一个,但是这个盘呢,又被一些其他的系统占用。比如说日志采集的系统,那它会占用你的盘,没有去。呃,在你销毁的过程中去释放掉。呃,或者说释放掉又因为什么原因啊,又被什么其他的程序给读取到了。
23:01
那这个过程其实它会阻塞你的容器的销毁,会让你的pod一直处于一个terminating的状态。嗯,所以呢,我们的一些故障探测的脚本,就会解决这个创建和销毁过程中的一些问题。下一个特点是跨集群的LB,这个是基于我们一个高性能的DBDK做。呃,流量的转发,然后呢,支持权重的动态调节,同时呢,呃,有一个特征是就近解析和就近转发,比如说都是本群来的流量。会尽量的做到一个用本群的服务去。呃,转发的一个。一个特特点。嗯,下一个是说,嗯。下一个是说应用流量的一个自动发展。
24:03
嗯,其实我们在对内的场景,因为它依赖的服务是比较多的,或者说因为环境的复杂性。会导致,嗯,因为环境的复杂性呢,会导致一些很多额外的一些工作量。嗯,比如说我们的服务会依赖于RB,依赖于杰夫的这个上下线。比如说有一些应用呢,它在真正的上线达到状态之前,它需要做一个状态的预热。嗯,再比如说在我们金融的一个场景下,它对权限的审核是比较严格的,所以说啊,应用要想访问一些,嗯,比如说数据库啊之类的,他需要对这个IP做一些。授权等等的这些操作,我们都是通过这个一个单独的模块去。
25:06
可以做到一个可插拔的一个单独模块去把这些负载提前去给它,呃。就是提前去给他弄好。嗯,下一个的下一个的特征是。故障的一个自动恢复,这里,比如说嗯,能做到什么呢?比如说我们的。嗯,副本分布到一些集群之后发现没有。Po。就是没有资源可以把这个pod正常的起来。那就可以做到去。在一定的时间内,如果他一直达不到一个可用的状态,他就会尝试去跨级群做一个纯调度这样的一个事情。啊,最后一个特征呢,是一个智能的缩绒,这里为什么说智能,就是说在缩绒的之前,我们其实还是。
26:07
有一些比较复杂的策略的一个判定。嗯,做这个判定的目的是为了让集群的资源能够处于一个更好更均衡的一个状态。嗯。因,因为我们为什么要做这么一个相对复杂的一个策略。是因为实际上线上的任务不管是P0还是到P3,那其实除非是。呃,速主机发生了什么故障,呃,用户的业务他其实是不希望我们去给他直接去销毁,充电,去驱逐等等这些操作。那其实我们对驱逐这个场景,对于在线任务可操作的空间是比较有限的,那如果在线业务发生了不均衡。啊,那其实这个的这个so,就是一个很好的一个均衡的一种。
27:03
呃,一个一个一个点吧,就是我们可以在这个点做一个任务的。再一次的均衡。我们会基于这个node的评分和状态进行一个费用操作,比如说使用率啊,特征匹配程程度啊等等这些指标。嗯,介绍一个。部分介绍一下我们做的离在线混部。嗯,这个离在线混部在我看来其实最核心的两件事情。一个就是调度,要从全局的维度能够保证资源。能够在啊,能够尽量合理的去分配,保证每个node都是可以。有这个合理的这个负载分配上来。第二个就是要做好隔离,一个是保障这个。
28:05
呃,业务之间他们能够尽量的减少干扰,然后还有一个是保障,就是当我的呃。就是调度,比如说出现了一些失误的情况下,能够做到及时的一个压制,然后来保障这个高邮的任务能够正常的运行。那从这个,嗯,从这个。嗯,离在线混部这个使用的生命周期的。过程,我来简单介绍一下我们做了哪些事情,第一个是离线资源的识别,那离线资源呢,是通过识别空闲资源获得的。这样的话呢,它可以不用抢占在线资源可用的一个配额。那我们怎么去界定这个资源是不是属于空闲资源,也就是离线资源,可用的资源?
29:00
啊,主要通过下面这个公式,第一个是说啊,没有申请的资源,这个是可以拿来给离线用的,第二个是说申请,但是没有使用的资源。啊,第三个是说系统预留的资源,我们因为在呃装机的过程中都会给系统预留预留一定的buffer。呃,这三部分的资源都是可以拿来给。离线任务使用的,那但是除了这些资源,我们还是要减掉一个。一个一,一个相对程度的一个扳手。这个B的计算就是通过一个。节点整机的一个资源乘以一个全局的预留的水位,得到一。得到这样一个buff,嗯,在这个公式里,其实比较重要的一点是。怎么界定这个申请,但是没有使用到的资源,因为其他的资源都是一些静态的,值是比较固定的,那。
30:01
嗯,这个。怎么样有效的识别这个资源是申请,但是没有使用,这个是,所以这个是一个最重要的一件事情。啊,我们是通过过去七天的这个一个。数据来预判的未来。五分钟一个。95分,95分位的一个分位数来获得的这个。呃,申请,但是没有使用的资源。嗯,第二个是做。做好这个资源的隔离。啊,因为影响我们任务的。嗯,方面是很多的。有些可能是因为CPU会影响这个任务的整体运行,有些可能是因为磁盘。等等,那所以说我们的任务,我们的资源的隔离做的越精细,我们的任务彼此之间受到干扰的程度。
31:05
就会越低。或者是说我们只有把。所有的资源的隔离都做的很完备,我们才能保证说离在线任务之间,他们之间能够。没有干扰,或者尽量少产生干扰。嗯,在资源隔离这个层面,我们主要做的一些包括CPU支持超线程的压制,它可以识别啊在离线的这个进程。然后在线的会对这个资源使用有更高的优先级。啊,包括L3的一个隔离,包括嗯,在CPU分配的时候,如果是一个类型,我们会尽量做一个密码绑定的一个分配。嗯,内存的情况就是因为内存也存在一定的超卖,所以说。
32:03
在内存资源紧张的时候,我们会优先的OM离线的任务,再去OM在线任务这样一个全局的策略。第三个是磁盘的维度,支持磁盘的。呃,Direct,还有BI的一个限速。支持按照权重和绝对值对磁盘的吞吐LPS进行一个限制。嗯,在网络带宽的方面,支持按照权对就按照权重绝对值去做限制。避免了宿主机和交换机带宽打满影响在线的业务。嗯,最后我们还是也是奉行这个离线大康管理的这个原则,所有的离线的资源统一丢掉,丢到离线的大框中去做一个统一的管理。
33:01
这样的话呢,嗯,整体的把控性会更强。嗯,因为我们要去调的话,我们会调这个大框去释放和限制离线的资源,就不用去调各个的这个pod。嗯,这样的话呢,离线作业也能更加充分的利用起这些空闲的资源。嗯,下一个事情做的呢,主要就是水位线的压制。嗯,这个水位线的压制其实是很重要的一个手段。嗯,怎么说呢,比如说我全局资源使用的一个安全水位线。嗯,这个水位线呢,可以保证就是。因为呃,上面提到的这个全局预留的水位线,它其实是可以和这个水位线去做一个挂钩的。
34:00
嗯,就是说我可以认为我期望的这个资源的分配和压制的水位都是基于这个水位线。来得到的,所以这个水位线会有一个什么样的意义,就是。呃,通过宏观调控这个水位线的高低,我可以预期我的机器。资源的使用率在一个什么样的水位?这样的话就是我们可以对这个全局。这个资源有一个更好的一个控手段。嗯,第二个是离线任务的一个总Q的一个水位。这个水位呢,用来限制单机所有的离线任务可以使用的CPU资源的总量。嗯,这个其实也是和我们的离线大康去挂钩的,就是我们。会动态的调整我们的大框的这个上下线,然后来合理的分配离线的资源。
35:06
第三个是离线任务最低资源保障。这个是。怎么说呢,就是因为我们目前看起来所有的策略其实都是在线优先的一个策略,但是实际上。啊,离在线总部有一个很重要的一个事情就是。呃。除了要保证在线的正常的使用以外。我们还要保证。离线的任务能够。就是能够更好的去运转。嗯,所以这个策略也是给离线任务提供了一个最低的资源保障,就是不管在线在什么情况下,在怎么样的去压制和抢占。离线任务呢?也。总有这些最小的配额可以使用,以此来保证离线任务的一个一定的算力。
36:07
嗯,下一个部分呢,就是驱逐,关于驱逐这块呢,因为我们的场景也是。呃,很复杂,所以说其实是没有或者说很难做到,就是嗯,热点机器不出现,或者说任务之间。没有干扰存在,那如果出现了这种任务的干扰,或者机器热点这些情况。我们需要。我们只能通过这个驱逐的手段,驱逐离线任务,这种手段来保障这个机器能够恢复到一个正常的一个状态,让上面的任务都能够正常的运行。嗯。这里的驱逐呢,我们会基于这个任务的优先级,还有就是包括任务的计算进度等等的一些指标来进行驱逐操作。
37:06
这个任务的计算进度怎么理解,就比如说我这个任务它的呃运行时长是一般六个小时能算完,那这个时候它已经运行到了五个半,五个半小时了。只差半小时它就可以运行完,那我这个时候把它去做一个驱逐,其实在全局的维度来说是很不划算的一件事。所以说我会尽量的不去驱逐这种任务。嗯。在最终做完驱逐之后。会进行一个调度的冷却处理,避免避免。呃,我刚驱逐了pod,然后又有新的pod调度上来,导致这个节点一直处于这个热点非热点,热点非热点的这样一个状态。嗯。
38:01
最后一个需要最后一个方面呢,是就是关于监控这块。嗯,因为我们的使用场景,呃,因为我们的场景也是很复杂的,所以说嗯。一些常规指标的收集已经不能够。嗯,不能够。或者说一些常规的指标的收集是。嗯,只有这些常规指标是不足的。呃,我们还需要收集一些其他更深层次的一些指标,比如说压制的频率,压制的程度,然后比如说cpii等等这些指标。然后来对线上的这个任务是否受到了干扰,去做一个更好的一个分析。呃,再然后呢,还有一些相关性学习分析的一些指标,比如说呃,某些任务他们之间呢,可能就是有很大的相关性,如果部署到一起,那可能这个其中的某个任务,或者某两个任务,他们的性能都会有很大程度的下降。
39:14
啊,我们也在尝试去做这方面的收集和分析。嗯,最后会有一个健康度的一个分析,我们会有一个服务去对这个节点的健康度做一个检查和分析。对于不正常的节点,会出具一些健康度的一些诊断报告,然后来帮助我们后面去。更好的提升我们的一个嗯,技术的方案吧。嗯,所以综上呢,京东的原生技术体系,呃,大概是可以总结为下面的几个方面。
40:02
嗯,第一个是阿基米德调度,我们通过全局和全时段的一个资源的预测。和分配的策略,从全局的角度去把控整整个集群。它的服务质量。第二个是跨集群的。然后降低用户的使用成本,然后把在线的资源可以做一个很好的一个二次均衡。来弥补这个调度的,就是第一次调度时候出现的一些偏差。啊,那第三个就是离在线混固。通过一个多维度的资源隔离,然后有效实施的压制,包括一些有策略性的一些驱逐手段。嗯,然后来保障这个礼仪礼仪在线任务能够很好的。
41:00
部署到一起,然后提升整机整个集群的这个资源的使用使用率。啊,最后呢,这个我没有单独的介绍,这是我们的一个统一的资源管理系统。然后这个资源管理系统呢,它可以做到一个资源的预测啊,资源节点的分类打分,健康度分析等等这些事情。啊,所以我们整个依赖这,啊,所以我们依赖这个。主要吧,主要依赖这个。这些手段,然后来保障京东这个。啊,所有的业务能够正常的运转,同时能够尽可能。提升。啊,整体的这个资源的利用率。嗯,好,以上就是我这次分享的一些主要内容啊,谢谢大家。
42:04
感谢杨艳飞老师的精彩分享,首先杨老师为我们整体讲解了京东云原生技术体系GS的演变,那然后着重讲解了阿基米德调度跨机群S在离线婚布的技术实践,对我们构建自己的云原生技术体系呢很有意义啊,我们后续呢还会在9月29号的晚上八点进行第十讲,欢迎大家预约观看。那有的小伙伴说错过了下次的直播怎么办?那不用担心啊,我们每一场直播呢,都会有直播回放,那回放的地址呢,就是我们当前的直播地址,到目前呢,我们已经进行了八讲的技术直播,那在6月23号,6月30号,还有7月7号呢,我们进行了第一期的三讲直播,那我们的主题分别是。云原生降本增效优秀实践案例分享。云上资源的分析与优化。那集群利用率提升时间啊,在7月28号,8月4号以及8月11号,我们进行了第二期的直播。
43:06
直播主题分别是KS全场景再略销魂部通过云原生管理GPU资源。普资源拓扑感知调度,那在9月1号9月15号呢,我们也进行了第三期的直播,那我们直播主题分别是作业帮云原生降本增效实践之路。游戏平台上云还是花钱还是省钱?欢迎大家观看回放啊,点击我们当前直播下方的回往期回放,或者在进入我们的专题页面就可以进行观看和学习。好了,我们今天的直播到此结束,我们下期再见。
我来说两句