00:00
如何搭建云上AI训练集群?集群管理需要弹性伸缩。的确,不过我们先看看如何用自定义镜像来定制云服务器的初始系统。腾讯云官网右上角点选进入控制台,点击云服务器,来到实例管理页,选择需要制作镜像的云服务器,这里我们选中这台运行中的GPU云服务器右侧更多制作镜像。先为我们的镜像取个名字吧,还可以在镜像描述里备注下镜像的相关信息。比如我们这台镜像适用于GPU服务器,内置了酷达工具包、porch和ter flow等预装软件。镜像包含着创建云服务器时的启动硬盘信息。镜像与云服务器实例镜像程序与。
01:11
城之间的关系一样,点选制作镜像,等待一会儿就好了。现在我们一起体验下用新镜像来创建云服务器的过程吧。来到云服务器购买页镜像这里选择自定义镜像,然后选择我们刚创建的镜像就行了,后面的过程相信你比较熟悉啦,我们加快些速度,云服务器配置定制完成开通我们现在登录新创建的GPU云服务器,可以看到驱动以及相关的软件都已经初始坏了。
02:11
这就是用镜像的便捷之处,我们可以非常方便的复制一台已有的云服务器,而且镜像功能还是免费的呢,快去试试吧。那么如何批量启动云服务器呢?这就需要弹性伸缩啦。弹性伸缩auto skin是云上的基础计算类产品,我们通常简称它为as,它可以帮助我们高效自动化的管理计算资源,简单来说就是用它来管理多台服务器的计算集群。同样的,各项云上托管服务也是免费的呢。产品介绍提到,采用as可以做到动态的根据业务的负载情况灵活调整计算。
03:11
资源,进而极大提升运维效率,降低成本。那么具体是如何实现的呢?我们先来感受下吧。在as中,伸缩组就是一个集群,启动配置就是这个集群中的云服务器的配置。我们需要先新建一个启动配置。创建启动配置有些类似创建云服务器,计费模式有按量和竞价两种,都很适合需要动态调整资源的场景镜像,这里我们仍然选择刚创建的镜像,其余配置几乎和购买云服务器一致,非常自然。
04:11
确认后,我们的启动配置就创建好了,接着我们开始创建伸缩组。一个好记的名字很重要,最大伸缩术是指伸缩族内音。
05:11
武器数量的上限启动配置选择我们更新建的就可以了,伸缩组可以关联一个VPC以及旗下的多个子网,方便实现高可用,对于对外提供服务的集群可以在这里关联,负载均衡,我们这里暂时还不需要直接完成。伸缩组创建后可以点选查看其基本信息,可以看到当前伸缩组内当前实例数是其中还没有服务器,点选辑伸缩组调整其期望实例数保存后即可发起集群扩容,扩缩容等流程都以伸缩活动的形式被记录,还可以实。
06:11
查询其状态,如当前正在执行的两台服务器扩容活动,腾讯云的弹性伸缩扩容性能是极高的,看起来伸缩活动执行的非踌呢。在关联实例这里可以查看当前伸缩组内的全部的云服务器状态。我们的集群现在变大了,现在我们通过pencil flow的多机训练来验证下我们登录伸缩组内其中一台GPU云服务器,编写下模型定义和训练流程的拍放程序。这里以简单的ten flow官方的示例为例说明定义mst数据集合CNN模型。
07:11
Strategy这里需要指定具体的分布策略。我们这里选择multiworker mirror,即在每一个机器的GPU上都存有相同的参数副本。注意模型的定义需要在strat scope的上下文内。这里描述了自定义训练流程的步骤。现在我们来验证模型训练的分布式执行,注意导入所需要的ten环境变量。
08:11
可以看到集群内部的机器节点配合的很默契呢。至此,我们成。
09:11
光完成了模型训练验证,最后我们来进行集群的缩绒,同样的,再次点选辑伸缩组,调整期望实例数,使其归零保存即可。待缩绒的伸缩活动完成后,可以看到我们的GPU云服务器全部回收了呢。高性能的计算资源有限而宝贵,方便的随取随用才是最优雅和智慧的解决之道,有了云服务还真是便捷,你觉得呢?
我来说两句