00:00
如何搭建云上AI训练环境?定制GPU云服务器是重要的第一步。是的呢,我们先来创建一台GPU云服务器,在腾讯云官网首页点选最热门的产品云服务器。云服务器cloud virtual machine是最基础的计算类产品,相对lighthouses,它的使用范围更广,定制选购过程也更加灵活专业。这里我们选择按量计费模式,比包年包月实例更加灵活,非常适用于短期使用的场景。网络配置上,我们选择默认的VPC和子网实例类型的选择是相对重要的一步,因为它包括了云服务器的CPU、内存、网络等多项能力,对于配置GPU的机型更有单独的分类,方便查找。我们选择GN7机型,它目前BB搭载一颗TGP,性价比非常高,我们一般通过镜像来指定云服务器的初始操作系统。
01:07
特里建议选择最新版本的无不出镜像,可以根据需要选择系统盘的容量大小。对于网络计费模式,我们选择按使用流量计费,更适合低流量的场景。网络带宽可以后续随时灵活调整,这里大概设置下就可以,在下方可以实时查看当前配置的费用信息。下一步我们开始设置主机安全组是指网络防火墙配置,新建安全组是最快捷的方法,为新建的云服务器起个好记的名字吧,它后面会在控制台显示对于云服务器的登录,我们这次选择设置密码的方式,然后点选下一步确认配置。
02:08
最后检查下我们的云服务器配置,这里还可以随时调整,确认后勾选服务协议开通,云服务器已经在创建中了,稍等一会儿,但我们的GPU云服务器创建完成,点选这里,复制它的公网IP准备登录这里以Linux下的SSH客户端登录为例,输入设置的密码后就能首次登录啦,通过LSPCI命令查看GPU设备信息。
03:08
通过l mod命令验证驱动并未安装。第二步我们来安装最新的GPU驱动程序以及qda工具包。在NVDL官网可以下载最新的库DA to k,里面包含了GPU驱动及相关的工具包,这里需要选择目标平台。还记得吗?我们的云服务器镜像熟Linux utra20.04版本。安装类型推荐选择通过网络该变包安装,然后按照给出的指令安装即可,非常便捷,这里我们加快下速度吧,重点到这里,需要重启云服务器,一定不要忘记哦,重启后再次登录云服务器,可以查看到驱动已经安装并成功加载了。此时还可以通过mvd SI命令查看GPU驱动和库达的版本库达工具包。
04:41
默认装载user local目录下,里面包含了可执行程序库、文件文档、代码示例等全部的文件,例如MVCC等,我们试试编译运行下MVDL官方的哭哒示例代码吧。进入一个项目目录make后直接执行重。
05:41
需正确编译执行验证成功。第三步,安装当前最新的CUDNN库。CUDNN是N官方针对深度神经网络的GPU加速库,是不少机器学习框架的运行时前置依赖。同样的,我们来到Nvidia官网,并根据平台下载特定的版本。我们的云服务器对应的是以下三个安包文件,下载完成后,我们可以通过SCP工具把安装包文件上传到云服务器,上传后登录云服务器,通过d package命令将其安装至系统。
06:41
CUDNN库将会被安装在user lib目录下。接下来我们安装运行牌torch和cancer flow。不论安装哪个框架,我们都推荐先创建Python的虚拟环境及virtual env,因为在虚拟环境下,我们的Python项目能更优雅的与其他项目隔离,使得各个项目的依赖可以做到单独管理,彼此互不影响。在创建并激活虚拟环境后,PYTHON3等命令的系统路径会更新。
07:41
接下来就可以通过pip命令来安装牌拖吃了,可以看到och已经检测到GPU设备,我们在通过keep命令安装cancer flow。
08:41
我们在t flow下创建一个随机张量,同样的ter flow框架也已经完全感知到了GPU设备。至此,我们已成功搭建了用于机器学习的GPU云服务器环境。现在开始设计并训练你的模型,并感受GPU云服务器的强大算力吧。
我来说两句