温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下yarn的资源调度策略。在Hadoop的安装包中,已经集成了HDFS和yarn hdfs是hadoop的分布式文件系统,用于解决海量数据的存储问题。二是hadoop提供的资源和任务调度的平台。Ern有三种不同的资源调度策略,分别是fio scheduler capacity scheduler fair scheduler.首先讨论第一种一二的资源调度策略。这种策略叫做fio scheduler, 从字面上看就是先进先出的调度策略。这里我们把它理解成先来先得。如果一个任务先提交,就优先得到资源。下面看一个具体的事例,这里的横坐标代表时间,纵坐标代表ern的资源,资源主要包括CPU和内存。在T1的时间上提交了任务一,此时ern上只有这一个任务在运行,它将占用ern的所有资源,在T2的时间上提交了任务2,但此时任务一还没有执行完成,因此任务二就必须等待任务1执行完成后才能开始执行,在T3的时间上开始执行任务2。这种策略比较简单,主要存在的问题是没有考虑任务的优先级。接着讨论第二种,一、二的资源调度策略,这种策略叫做capacity scheduler及容器管理的调度策略,其核心是队列,这里在ern上定义了两个队列,队列1和队列2。在定义队列时。
01:25
可以指定该队列占用ern的多少资源。例如,队列1占用60%,队列2占用40%。当提交任务时,需要指定将任务提交到哪个队列。如果提交任务时不指定队列,任务将提交到默认队列中。在T1的时间上提交了任务,移到队列1中执行,在T2的时间上,提交了任务2到队列2中执行。队列之间是逻辑隔离的,即使任务一还没有执行完成,任务二也可以开始正常执行。在T3的时间上,提交了任务3到队列2中执行。由于队列的内部采用的是f fio scheduler的调度策略,因此任务三必须等待任务二执行完成后才能开始执行。注意,Capacity scheduler是ern默认的资源调度策略。最后讨论第三种ern的资源调度策略v scheduler及公平调度策略,它根据任务的权重分配资源,权重越大,得到的资源也就越多,如果不指定任务的权重,则平均分。
02:25
配ern的资源。下面看一个具体的事例,在T1的时间上提交了任务1,此时该任务将占用ER2N的所有资源,在T2的时间上提交了任务2,如果任务一和任务二权重一样,此时每个任务将得到121半的资源,在T3的时间上提交了任务3,如果这三个任务权重一样,则每个任务将得到1任1/3的资源。如果任务一的权重是1,任务二的权重是2,任务三的权重是1,则任务一将得到1N1/4的资源,任务二将得到ERN2/4的资源,任务三将得到ERN1/4的资源。现在你已经知道ern的资源调度策略了,那你知道在大数据体系中还有哪些资源调度平台吗?欢迎评论区留言讨论好了,记得点加号关注赵宇强老师。
我来说两句