编者按
算力网络,对行业来说,是“整合”还是“分工”?
一直以来,我都认为算力网络是行业整合的过程,通过算力网络运营商把全国的算力资源统筹到一起,形成高效的统一算力供应。但与此同时,总感觉这种模式不对。算力芯片技术日新月异,从底层芯片,到上层业务,方方面面创新迭代极为迅猛。完全统一的算力供应根本跟不上技术创新的步伐。
经过一段时间的深入学习和调查后,目前我对算力网络的理解是:算力网络是行业发展到一定阶段后,逐步走向“分工”的过程。在云计算时代,公有云掌握业务用户的入口,后台的数据中心,或租或自建,都没有太多的主导权。而在算力网络时代,最主要做的是构建后台算力中心(从数据中心升级到算力中心)和前台算力服务运营解耦分工的新业务模式。
算力中心,专注于算力中心建设,专注于算力的最优性能和最低成本(包括建设成本和运营成本);同时,还要有非常广阔的算力销售渠道,确保算力的广泛销售,最大限度减少闲置算力资源。
而算力运营商,则轻资产运行,聚焦服务客户。为客户提供各类计算服务和业务解决方案,帮助客户实现业务价值。同时,还能够灵活弹性地从全国甚至全球的各类算力中心获得最优最低成本的海量算力资源接入。
当然,不管业务模式如何变化,一个非常核心的主轴,仍然是算力的提升(单芯片算力和规模数量),和算力利用率的提升(计算资源的池化)。这也就是上一篇文章,我们从微观视角分析了算力提升的三个方法。
今天的这篇文章,我们从宏观产业发展的视角,聊聊从云计算到算力网络的发展趋势。
云计算通过互联网按需提供IT资源,并且采用按使用量付费的方式。用户可以根据需要从云服务商那里获得技术服务,例如计算能力、存储和数据库,而无需购买、拥有和维护物理数据中心及服务器。
云计算相比传统IT资源配置的方式有很多优点,如获取便利、资源弹性、工作高效率、高可靠性、安全性等等。但其核心的价值,总结下来,主要就两点:
以前,经常听到一句话:“一切IT基础设施都将云化”。这话一直没错,但云化不代表着公有云化;同时,云化不代表着云公司要持续包揽着产业链条上的一切。
云计算是一个重资产投入的行业。自建数据中心,整个先期的投入会非常的大,这不利于业务规模的快速提升。即便是通过IDC租用,仍然要考虑硬件设备、电、网,以及后期运营的投入。
云计算发展到现在,已经有15年以上的历史,云计算也从创新热点逐步走向了成熟稳定。当一个行业壮大成熟,接下来的一定是行业大分工,云计算也不例外。云计算未来的业务发展模式必然走向分工,例如通常是分为算力中心和算力运营:算力中心聚焦重资产投入,算力运营注重服务客户价值。
此外,边缘计算的投入更是巨大。边缘计算需要的是在全国数以万计的街区、乡镇去构建靠近终端业务侧的数十台到数百台服务器的微小规模数据中心。就像自营门店和加盟门店的道理一样,作为云服务提供商:如果选择自营,规模化扩张就会减慢,同时重资产投入风险巨大;如果选择加盟店模式,把更多的边缘算力中心纳入自身的算力运营平台,就需要跟边缘算力中心分利共赢。
还有一点,仅仅只有集中云服务,已经不够。边缘计算的发展,甚至终端计算的发展,都需要重点关注。深入业务场景,统筹云边端计算服务,才能真正的服务好客户的业务,帮助客户在多形式计算平台的条件下成功,才是(云)服务的核心价值体现。
云计算服务和客户业务之间的空隙在加大。
在云计算的早期,客户在平台申请主机等各种服务,然后构建自己的业务系统。但随着业务的扩大,私有云、混合云的模式开始流行,再紧接着是多云模式的流行。
云计算客户云管经过如下几个阶段:
这些需要纳管的计算资源类型包括:
在云计算公司和业务之间,会出现算力网络云边端管理平台服务厂家,来帮助客户管理复杂的计算平台环境。
亚马逊给出的定义:
算力网络是依托云网融合、SDN 等网络技术将边缘计算、云计算节点以及网络资源整合在一起构成的一种新型信息基础设施。算力网络不仅能降低边缘计算节点的管理的难度,通过分布式调度方式,还能实现计算、存储和网络资源的协同,让用户获得包含计算、存储和网络连接的整体算力服务。
中国电信给的定义如下:
算力网络,是一种根据业务需求,在云、网、边之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。“算力网络“是“以网络为中心”的多种融合资源供给网络计算模型,将“新计算”(云计算、边缘计算、泛在计算)的算力,通过“新联接”(无处不在的网络)整合起来,实现算力的灵活按需使用。
中国移动给的定义如下:
算力网络是以算为中心、网为根基,网、云、数、智、安、边、端、链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。算力网络的目标是实现“算力泛在、算网共生、智能编排、一体服务”,逐步推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务,达成“网络无所不达,算力无所不在,智能无所不及”的愿景。
在上述概念的基础上,谈谈自己的理解,与大家探讨。
从基础设施的角度,算力网络必然是以网络为基础支撑,为用户提供无处不在的算力服务。但用户关心的是业务应用的计算,网络也好,存储也好,都是基于计算而存在的。因此,算力网络的核心应该是算力产品或服务,而不是网络。也因此,合适的表述应该是:算力网络以算力为中心,以网络为支撑(移动的定义明确指出了此点)。
同时,个人觉得,算力网络是算力组成的网络,“网络”的含义是一个形象的比喻,如我们常听到的营销网络、物流网络等概念中的网络是相同的意思。而不仅仅是技术里讲的如以太网、IPv4/v6等的网络技术。
站在云原生的角度,算力仍然不是用户最直接想要的,算力网络应该是以业务应用(的计算)为中心的、以算力、网络、存储为支撑的一套宏观计算体系。同时,算力、网络和存储三大部分,又可以分为以算力为中心,以网络和存储为支撑的计算基础设施体系。
参考文献:
在通用计算的时代,x86占据绝大部分市场,基本上不存在多样性算力平台的问题。但随着ARM CPU、RISC-v CPU的逐渐成熟,不同架构的CPU也逐渐共存于同一个数据中心。随着深度学习和大模型的流行,GPU异构计算逐渐成为主流。但NVIDIA GPU成本很高,其他品牌/架构GPU也越来越多的得到应用。此外,还有专用于AI等场合的专用加速处理器器,也开始得到重视。计算平台越来越多的呈现出多样性的特征。
站在竞争和供应链安全的角度,多样性算力是好事情,但站在基础设施和业务层软件的角度,多样性算力则是挑战。如果实现软件定义硬件,做硬件平台架构无关的软件层工作,让更多的硬件平台可以无缝接入,是算力网络优先要解决的问题。
更本质的,算力挑战越来越大。受限于集群内部(东西向)交互(网络)带宽的约束,集群规模(Scale Out方式)不可能无限制增加。算力的提升,还是要回归到最本质的办法:通过创新的架构,提升单芯片的性能(Scale Up方式)。
从同构到异构,从异构到多异构,再到异构融合,是计算架构不断从简单到复杂的发展过程。
算力网络要想规模化成功,异构融合计算,是必然要迈过的门槛。
宏观的计算系统由终端、云端及边缘端组成;边缘端是代理层,代理云端为终端提供服务。云计算和终端计算已经存在,相对的来说,边缘计算是新生事物。算力网络和云计算相比,其核心竞争力的构建,必然在于其创新的业务模式,可以加速边缘计算的广泛落地。可以说,边缘计算的成功,是算力网络成功的前提。
边缘计算承上启下,边缘计算要和云端服务协同,共同服务终端业务;边缘计算,要代理云端,为终端服务,要实现边端协同。实现了云边协同和边端协同,在此基础上,才可能实现云边端融合。
云(网)边端融合,被诸多权威机构确定为全球算力基础设施未来十年的主要发展趋势。建设更多的边缘算力中心,构建云边端一体的宏观计算平台,实现云边端融合计算。
在云计算时代,算力供应和运营是一体的,客户是算力需求方。像电商的平台、卖家、买家三方关系一样,算力网络时代,需要实现算力供应和算力运营的解耦:
就像电商开始出现的时候,目前行业正处于从云计算到算力网络转型的时期。行业大变革,机不可失,时不再来。
(正文完)