芯东西11月28日报道,随着数据和计算规模暴涨,超级计算中心和公有云的需求正走向融合,应对当前云和数据中心面临的挑战,英伟达(NVIDIA)认为,云原生超级计算会成为数据中心的新架构。
顾名思义,云原生超级计算融合了云与高性能计算的优点,既拥有高性能计算的强大算力,又兼具云服务的安全性与易用性。
云原生超级计算架构具体采用了哪些关键技术,来解决传统数据中心架构遇到的瓶颈?它能带来哪些性能的优化?围绕这些问题,NVIDIA网络亚太区高级总监宋庆春、NVIDIA网络技术专家崔岩与芯东西等媒体进行了交流。
一、云原生超级计算:计算和通信并行处理
传统数据中心的一个典型架构,即是由CPU处理应用、由GPU对应用进行加速,通过网络进行大规模的连接。如果CPU既做计算,又做存储、安全等各方面的事务,难免会分身乏术,如在运行计算任务途中不断暂停抽身去处理通信任务,造成“系统噪声”,进而影响整个系统的性能。
由于公有云在支撑多租户和多任务,即便每个任务有独立的计算资源、独立的内存资源和通过QoS技术做带宽分配,当流量走到网络中,还是会造成不同任务之间的流量冲突,导致业务性能下降,无法实现在独立计算平台上单独运行一个业务的性能。
而云原生超级计算架构通过引入DPU芯片及网络计算技术,计算和通信是并行处理的。DPU可以帮助CPU分担一些存储、租户隔离安全、系统管理等基础设施操作,这样CPU就能在处理计算任务上更加高效。这种架构改进,可以用更低成本或更少硬件构建更高性能的系统。
云原生超级计算架构可以用异构网络的方式优化性能,其中有一张高性能的管理网络,能对整个数据中心搜集分析信息,然后反馈到数据中心,提高数据中心的安全性或运行效率。
从上周发布的TOP500榜单可以看到,英伟达的GPU和网络处于绝对领先的地位,72%的系统采用了英伟达GPU或网络(InfiniBand、以太网),TOP100系统中有63%采用了InfiniBand。今年由英伟达旗舰计算芯片Hopper GPU和InfiniBand连接的系统以65.09GF/W的性能取得了Green500榜单第一名。Green500榜单前100名中,有75%的系统在采用InfiniBand。最新的IO500榜单前5大系统中,有4个采用InfiniBand。
DPU在InfiniBand平台上的应用和以太网上的主要区别在于:1、更加侧重于业务的性能提升,实现了计算和通信的重叠,让CPU资源完全释放给了应用的计算任务;2、利用DPU的算力资源参与应用的计算,为应用贡献了更多的算力;3、DPU运行存储框架,实现了基于文件存储的模拟,充分发挥远端共享文件存储系统的性能;4、实现了增强的Telemetry技术,利用DPU来提供应用的信息给用户分析和训练,进一步优化性能;5、DPU还是应用性能隔离的重要组件,DPU可以和InfiniBand拥塞控制技术一起提供Pre-Active拥塞控制,实现性能隔离;6、DPU还在零信任环境中扮演重要作用,用于隔离应用和其它基础设施操作、存储操作和通信操作。
云原生超级计算技术是通过提升性能来减少硬件设备需求,从而实现降低功耗。如果一个数据中心的业务可以通过更少的硬件设备来完成,这是最佳的降低功耗的方式。或者在同样的投资前提下,用户可以获得更多的算力资源。
二、核心技术拆解,已应用于微软公有云Azure
用DPU做加速和通信,操作其实非常简单。
让Host发一个通知到DPU上,DPU收到通知后就和远端DPU进行沟通,然后可直接在本地Host Memory和远端Host Memory建立通信通道,实现数据之间的传递。整个通信过程中,所有操作都由DPU APP监视,不需要CPU参与,CPU只是发出通知,等到DPU收到通知以后去执行。
用DPU加速或卸载通信,可在一些业务实现非常不错的性能提升。例如分子动力学模型的应用已实现20%的性能提升,数据建模应用场景可实现将26%的性能提升,天气预告模型实现了大约24%的性能提升。
云原生超级计算离不开的交换机计算SHARP技术,这是迄今为止英伟达独有的技术,在交换机上可进行数据的Aggregation和Reduction,消除网络拥塞,突破网络物理带宽的限制。
使用SHARP,可将Reduce通信带宽实现1倍的提升。基于NVIDIA SuperPod参考架构,8张200GB InfiniBand的卡,总共聚合带宽是200GB总带宽,用Sharp技术后,实际测到的带宽性能可达到230GB~260GB。
NVIDIA网络亚太区高级总监宋庆春认为,当前云服务之所以难以普及,一大难题便是有些业务在云上没法保障运行效率,可能会受到云上其他业务的影响。而借助性能隔离技术,有望在云上实现和在单独机器上跑业务达到一样的高性能。
这在微软公有云Azure上已得到验证和应用:蓝色曲线是单独机器独立只跑一个业务时的性能表现,0.6~0.7时间段做了多次迭代计算;而将同样的业务放在云上时,如果没有性能隔离技术,云上往往还在跑一些别的业务,会对关键业务造成一些影响,在中间绿色曲线图上,可以看到0.6~0.8时间段,迭代次数远低于在单独机器上跑业务的迭代次数。
如果把性能隔离技术用到同种应用,可以看到Azure两条线是重叠的,虚线是在一个平台上只跑一个业务,实线是在云上跑多个业务,启用性能隔离技术即可实现两条线的重叠,即在云上跑关键业务的时候能得到同样的性能保障。
除此之外,网络计算还有非常广泛的范畴及应用场景,包括如何点对点通信加速、保障网络不间断、让网络自动修复等。
三、DPU中国黑客松竞赛回顾:SDIC团队获得一等奖
NVIDIA网络技术专家崔岩对2022年秋季NVIDIA DPU中国黑客松竞赛的赛事进行回顾,并分享了最终竞赛结果。
2022年秋季NVIDIA DPU中国黑客松竞赛从8月开始筹备,9月12日官方招募,总共有27支团队注册,10月19日面向参赛队伍和中国DOCA社区开发者举行了黑客松训练营,共吸引3500人参与、上万人次的观看,10月22日正式开赛,比赛时间为24小时,13支团队入选最终竞赛,总共有51位开发者、6位女性开发者,其中既有企业开发者也有学校学生开发者。
本届和上届的题目稍有区别,英伟达BlueField DPU和DOCA软件框架是云原生超级计算架构里是一个关键组成部分,所以在这24小时比赛中,参赛团队被要求围绕使用BlueField DPU和DOCA实现RDMA加速存储与AI的解决方案。
围绕NVIDIA BlueField DPU和InfiniBand网络架构实现AI工作负载的卸载、加速和隔离的功能,英伟达也提供了基于InfiniBand的开发环境。
经过半天的项目现场演示,以及国内和国际评委的审核和相应评分,最终4支团队脱颖而出,分别获得黑客松的相应奖项。获得一等奖的是SDIC团队,二等奖是知音牛码团队,并列第三的是网络需要配团队和极客天成团队。
SDIC团队项目获得了一等奖,其项目名称是《基于BlueField DPU数据中心RDMA虚拟化的研究》,主要是基于VirtIO的方案。VirtIO是IO半虚拟化的解决方案,也是一套通用的IO设备虚拟化程序,所以会对半虚拟化IO设备进行抽象,可对上层应用和各种Hypervisor虚拟化设备提供通信框架和编程接口,减少跨平台带来的兼容性问题,提高驱动程序的开发效率。
VirtIO加速能为以太网和块存储设备解决设备解耦、高扩展性、云管理(迁移)的问题。VirtIO处于早期开发阶段,所以RDMA没有实现VirtIO规范,内核驱动也没有进入主流Linux核心,目前DPU仅支持virtIO-net和virtIO-blk网络虚拟化和存储虚拟化功能,没有virtIO-rdma的部分。
项目目标即是用英伟达Bluefield DPU搭建一套仿真平台,虚拟化RDMA硬件设备,通过主机侧运行vhost,通过传统网络(TCP)和SoC上的Inverse Layer通信,由其转换为RDMA网络(IB),从而减少主机性能开销,实现更高效的虚拟化过程。未来的设计是想把virtIO-rdma的加速和仿真的部分迁移到DPU上,形成一种卸载,从而提供更好的加速性能、减少相应的开销。
二等奖获得者知音牛码团队的项目名称是《分布式智能键值存储引擎》,称为KV存储或键值存储数据库,属于一种非关系型数据库,每个键值都有唯一的Key相关联,所以称之为键值对。分布式键值存储也称为分布式哈希表,键值对分布在多台服务器,提供相应的数据库查询检索读写的功能。
本项目是在服务器采用英伟达BlueField DPU,DPU内存中构建一个哈希表,实现键值对的存储。主机会运行RocksDB这样一个分布式键值存储数据库,一方面通过内存哈希表的查询提供非常快的访问速度,基于RDMA技术可加速数据写入内存,另一方面利用DPU近数据计算的优势加速哈希表,快速缓存新写入的数据。这三大方面可大大提升分布式键值存储的写入性能,最终提升整个数据库键值数据的访问。
英伟达BlueField DPU通过过滤器去做读写特征的筛选,可以在里面部署一个轻量级机器学习模型,更好地区分热数据和冷数据。热数据是经常会访问的、读写频次比较高的数据,一直保存在哈希表里面,访问次数比较少的冷数据键值对就会写入到主机RocksDB,能够更快地响应其它主机对KV数据的访问。
结语:为高性能业务上云铺平道路
总体来说,云原生超级计算技术主要面向高性能业务的上云,如传统HPC业务、大规模AI训练任务和推荐任务等,能够实现在云上和超算中心上一样的性能,目前微软已在Azure公有云上实现了这一技术的部署与应用。这意味着着未来高性能应用不必依赖于昂贵的独立计算资源,可充分利用云的弹性服务来满足应用的需求。
DPU中国黑客松已经成为开发者学习、实践使用NVIDIA BlueField DPU和NVIDIA DOCA软件开发套件的一个难得机会。参赛团队可以利用DOCA驱动、DOCA库、开发工具和相关文档,构建、优化NVIDIA BlueField DPU,做基础设施相关的加速应用开发。通过黑客松比赛,英伟达也为业界培养了更多的DPU和DOCA开发人才。
目前全球有超过3000名注册DOCA开发者,其中超过一半是中国的DOCA开发者。随着英伟达DPU在业界的普及,基于英伟达DOCA的生态体系和开发者社区还在持续壮大中。
领取专属 10元无门槛券
私享最新 技术干货