首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大模型需求涌现,算力如何跟上节奏?

图片来源:视觉中国

过去的10个多月,以ChatGPT为代表的生成式AI浪潮席卷全球,无论是国际,还是国内,各大科技巨头都在积极布局生成式AI,甚至在浪潮的影响下,有不少中小企业也纷纷入局,意图乘着生成式AI的“东风”,帮助企业快速发展。

当一个个大模型如雨后春笋般涌现时,作为大模型重要底层支撑的“算力”也自然成为业界关注的焦点。

算力产业变革已经开始

对于算力产业,乃至整个数字产业而言,在大模型快速发展的当下,已经进入了变革的时代。以点看面,以数据中心为例,过去,数据中心服务器大多是以CPU为主,驱动移动互联网,以及企业数字化转型。

如今,在大模型等AI应用呈井喷式增长的背景下,对智能算力的需求愈发旺盛,越来越多的智算中心投产,也预示着数据中心将从以CPU为主的时代,转变为以GPU为主的智能算力时代。而以英伟达为代表的相关GPU价格及企业股票的增长也在印证这个趋势。

对此,青云科技总裁林源表示,随着一大批以AIGC为代表的AI应用的涌现,用户对智能算力的需求越来越大,“用户对算力的需求将是以前的10倍、100倍,甚至更多。”林源强调。

无疑,生成式AI和大模型的爆发,对于整个数字产业,以及企业数字化来说是颠覆性的。林源认为,在数字化时代的背景下,生成式AI和大模型的出现,为人类提供了一个可以提升效能的生产工具,并且伴随着这些技术的发展,让人工智能更贴近了用户侧,让人们使用人工智能的门槛越来越低。

不过,以目前我国算力产业发展来看,处于变革时代的算力产业还有诸多痛点亟待解决。现阶段,我国主要存在,东西部算力供需失衡、跨数据中心算力调度难、算力基础设施能耗大、企业利用算力成本高等问题。

我国算力产业发展的四大痛点

目前我国算力产业仍处于快速发展的初期阶段,上述提到的四个算力产业发展的问题,主要可以细分为四大痛点,分别是:

1、算力资源分配不均/供需失衡

我国AI算力资源的分配存在着严重的不均衡现象。据统计,目前我国AI算力主要集中在一线城市和部分经济发达地区,而中西部地区的AI算力资源相对匮乏。这种现象导致了资源的浪费和效率的降低。

对于算力需求旺盛的东部地区,算力供不应求,而对于西部地区,算力资源充沛,却“无人问津”。这是目前制约我国算力产业整体高质量发展的关键问题之一。

而算力供需失衡不仅是我国亟待解决的痛点。国际数据公司(IDC)发布的报告显示,全球数据量每年增长约60%,但算力每年的增速仅为10%,这表明算力的供给与需求之间存在巨大差距。

放眼全球,当前,全球范围内的算力需求持续增长,但算力供给却相对滞后。这种供需失衡现象在很大程度上限制了数据处理和人工智能等领域的发展。

2、核心技术瓶颈

尽管我国在AI领域取得了显著的成果,但在算力调度技术方面仍存在一定的瓶颈。例如,我国在GPU计算、云计算等方面的技术积累相对较少,这使得我国在AI算力调度方面的能力相对较弱。

在算力调度中,效率是一个关键问题。然而,当前许多算力调度系统在处理大规模数据时,效率低下的问题普遍存在。这主要是由于系统架构、算法优化等方面的限制所导致的。

3、算力使用成本高昂

算力使用成本高昂主要可以从两个方面来看,一方面,正如前文所述,东西部算力供需失衡,导致了东部地区算力成本高;另一方面,AI算力调度涉及到大量的硬件设备、软件平台和人力资源,因此成本较高。这使得一些中小企业在面临AI算力调度时,很难承受高昂的成本压力。

4、数据安全隐患

随着AI算力调度的普及,安全问题也日益凸显。在数据驱动的时代,数据是企业的核心资产。然而,在算力调度过程中,数据的安全与隐私保护存在一定程度的不足。例如,数据泄露、黑客攻击等现象时有发生,给我国的AI算力调度带来了很大的安全隐患。

据IBM Security 发布的《2023年数据泄露成本报告》中显示,2023年全球数据泄露的平均成本达到 445 万美元,创该报告有史以来以来最高记录,较过去 3 年均值增长了 15%。

数据安全问题是一个“老生常谈”的问题,确保数据安全也是每个企业数字化转型过程中的“必修课”。

综上,我国目前算力产业主要面临了四大痛点,如何解决这四大痛点,将是我国算力产业实现高质量发展的关键。

算力如何像“水、电”一样,灵活取用?

为了更好地发展算力产业,助力数字经济腾飞,我国提出了“东数西算”战略工程,在笔者看来,“东数西算”的核心目的是,为了让西部地区利用资源方面的优势,在带动当地经济发展的同时,满足未来我国各行业对算力的需求。

众所周知,AI大模型在训练、调整的过程中,需要海量的数据及算力,而这些用于训练大模型的算力又需要消耗大量的电力资源,在林源看来,AI应用属于“成本敏感型”应用场景。拥有低廉、绿色电力西部地区,是大模型训练的“沃土”,西部训练,东部应用,这将是未来的大趋势,对此,林源认为,未来,算力一定是分散的,东西部都有算力分布,只不过这些算力的用途有所区别。

为了满足未来用户对于智能算力的需求,青云推出了AI算力调度平台,林源表示,AI算力调度平台将成为智算中心运营者的关键工具,帮助智算中心构建从建设到运营的全生命周期闭环。

从2022年开始,无论是企业侧,还是地方政府主管部门,都在积极建立自己的算力调度平台,帮助企业以更低的成本,使用更优质的算力资源,那么青云的AI算力调度平台又有哪些优势呢?

青云科技产品经理苗慧对钛媒体表示,青云AI算力调度平台主要有九大能力,“通过多区、多业务资源整合,分布式调度、管理,AI训练平台,混合组网,算法开发支持,灵活调度,高速并行存储,容器推理服务平台,模型仓库这九大关键能力,青云AI算力调度平台能帮助企业实现安全、高效的算力调度。”苗慧指出。

与此同时,在苗慧看来,青云AI算力调度平台与其他友商相比,主要优势有两个,一个是,青云针对上百台服务器的大集群管理方面,优化了调度算法,让数据“不绕路”;另一个是,在应用环境上,青云用了K8s和Slurm两种调度平台同时为我们的客户服务,是完全集成好的。“青云在颗粒度和运维传统机器方面上,也会有更多的优化。”苗慧强调。

值得注意的是,青云AI算力调度平台已经与济南超算中心联手,为政企用户提供算力服务多年,“目前在HPC领域和AI智算领域越来越面向终端用户,有越来越多的科研工作者、学生使用青云的平台。”苗慧表示。

经过近两年的运营,不断的优化,本次推陈出新的青云AI算力调度平台进行了全新的产品升级,“我们这次推出的主要产品和主要迭代,像AI算力平台、推理平台、镜像仓库,全都是面向AIGC或整个AI领域上,专门推出业务化的产品。”苗慧介绍道,“另外,在物理节点层,由于面向AI行业,所以我们在网络、计算节点这部分,最关注的是GPU、并行文件存储和高速网络这三件事。”

不仅于此,针对时下企业最关注的数据安全的话题,青云采用零信任机制,并将用户间的数据存储与计算 “完全隔离”,“青云为每个用户的资源生成一个子网,该子网只有用户自己可见。子网既支持25G及以上的以太网,也支持IB网络,帮助用户确保数据安全。”苗慧在于钛媒体的分享中表示。

据笔者了解,青云AI算力调度平台目前除了与济南超算展开深度合作以外,还在北京、宁夏、河南、湖北、四川等省市,与众多地方高校、央企、政府部门等,建立了合作关系,“未来,青云将联合更多的企业、高校、研究机构,并整合算力产业链上下游,打造算力生态,满足企业算力需求,让用户以更低廉的成本,使用更优质的算力”,展望未来,林源表示。

(本文首发钛媒体,作者 | 张申宇)

  • 发表于:
  • 原文链接https://www.tmtpost.com/6713157.html?rss=qcloud
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券