前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >A卡的锅?世界第一超算Frontier,启动至今无法连续工作一天

A卡的锅?世界第一超算Frontier,启动至今无法连续工作一天

作者头像
机器之心
发布于 2022-10-11 10:12:07
发布于 2022-10-11 10:12:07
6450
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:泽南、小舟

Frontier 上线给科学家提供算力的日期已经推迟到了明年。

在全球范围内,很多机构都在争相构建 E 级(每秒百亿亿次)超级计算机,性能指数级跨越的超算预计会在人工智能、医疗、气象等领域发挥重大作用,是超级电脑工程的重要里程碑。

世界第一台 E 级超算是美国橡树岭国家实验室(ORNL)的「Frontier」,它也是当前全球超算 TOP500 榜单的第一名,但虽说性能领先,Frontier 却远远无法达到超算应有的效率。

近日,一些海外媒体接连报道称,当前世界最快的超算的硬件出现了大量故障,机器甚至无法运行一整天。

ORNL Frontier 目前最多只能产生 60% 即 1 FP64 ExaFLOPS 的算力,而该系统旨在提供 1.685 FP64 ExaFLOPS。虽然官方还没有就具体问题给出任何消息,但一些信息正被曝光。

在最新一期,2022 年 6 月的 TOP500 榜单中,Frontier 位列第一名,其标称的速度是 1.685 FP64 ExaFLOPS。

橡树岭实验室的 Frontier 是业界首个使用 AMD 的 64 核 EPYC Trento 处理器、Instinct MI250X 计算 GPU 和 Hewlett Packard Enterprise(HPE)的 Slingshot 互连,能以 21 兆瓦功率提供高达 1.685 FP64 ExaFLOPS 峰值性能的系统。HPE 构建了该系统并使用了 Cray EX 架构,它专为横向扩展应用程序设计,适用于超高速超级计算机。

虽然从表面上看 Frontier 性能强大,并且系统硬件部分已经交付,但当前面临的问题似乎一直让机器无法保持正常运转,并且无法稳定提供即使是不及标称的 1 FP64 ExaFLOPS 的性能供研究人员使用。

OLCF 项目主管 Justin Whitt 表示:「我们正在解决硬件问题,并确保找出关键问题所在。目前看来主要是规模问题和应用程序的广度问题,系统运行的项目过大,很难让所有硬件协同运行,通常间隔几小时就会出现一次故障。」从某种意义上说,Frontier 是在超级计算机的期末考试上成绩不佳。

实际上,关于 Frontier 潜在硬件故障的流言已经出现了很长一段时间。InsideHPC 曾报道称有人说故障原因是系统遇到了 Slingshot 互连的问题。此外,还有人表示今年 AMD 的 Instinct MI250X 计算 GPU 的可靠性不如预期,并且具有更多流处理器和高时钟的 X 版本仅适用于特定客户。

Justin Whitt 没有证实该系统遇到了 Instinct 或 Slingshot 等任何特定问题,他只是强调该机器存在许多硬件问题。

OLCF 负责人表示:「很多挑战都集中在 GPU 上,GPU 是非常重要的硬件组成部分。但我们对 AMD 的产品尚且没有太多担忧。」

橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构、 Slingshot 互连、AMD EPYC CPU 和 AMD Instinct 计算 GPU 的系统,芬兰的 Lumi 超级计算机(Cray EX , EPYC Milan, Instinct MI250X 计算 GPU) 能提供 550 PetaFLOPS 峰值性能,并已被 TOP 500 正式列为世界第三强大的超级计算机。也许对于此类使用上千万零件组成的超算来说,问题不是孤立的。

从官方论述来看,HPE 和 AMD 已在今年秋季提前向 ORNL 交付了新的 Frontier 系统。美国能源部 E 级超算项目的 Mike Bernhardt 表示,ORNL Frontier 的全面集成将从明年开始提供给研究人员,但并未引述对 Frontier 超级计算机的全面启动有任何担忧或问题。

在错过了原先设定的 Deadline 后,Frontier 超级计算机计划于 2023 年 1 月 1 日全面投入运行。

人们都在期待 E 级超算带来的研究成果,不过伴随世界第一而来的还有部分怀疑。一些专家认为,在 E 级计算的竞争中 Frontier 比不上中国的两个计算机系统,后者的运营商还没有向 TOP500 提交测试结果。外媒 the Nextplatform 曾表示,神威海洋之光(oceanlite,太湖之光的升级版)和天河 3 号超算在 2021 年 3 月就达到了持续的 E 级算力。

去年 11 月的全球超级计算大会 SC21 上,来自中国的超算应用团队因「超大规模量子随机电路实时模拟」成果获得戈登 · 贝尔奖。该团队表示,研究基于的新一代神威超级计算机可提供每秒 4.4 百亿亿次的持续计算性能,是超算领域全世界当时已知的最高混合精度浮点计算性能。

专家们表示,中美之间的紧张关系可能是中国没有向 TOP500 提交测试结果的原因。

参考内容:

https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure

https://www.top500.org/lists/top500/2022/06/

https://www.tsinghua.edu.cn/info/1173/89027.htm

2023 AI 应届生,准备好冲刺更满意的offer了吗?

10月15日上海,抓住秋招黄金期!欢迎应届高校青年学子一起参与这场技术沙龙与私享晚宴。

  • 交流高效——设置报告、对谈、自由交流、晚宴等环节,不仅可以聆听业界前辈学术研究指导与建议,还可以与专家学者面对面自由深入交流。
  • 量身打造——提供有行业竞争力的薪酬和优先落户等硬核福利,以及广阔的发展空间。
  • 参与便捷——视报名同学学校分布情况提供定点接驳车,获取接驳时间、地址与更多活动详情请添加小助手微信号REDtech01。

扫描图片报名二维码,锁定线下稀缺参会席位。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Linux权限详解(chmod、600、644、666、700、711、755、777、4755、6755、7755)
Linux系统上对文件的权限有着严格的控制,用于如果相对某个文件执行某种操作,必须具有对应的权限方可执行成功。
全栈程序员站长
2022/09/07
9K0
Linux 命令(81)—— chmod 命令
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
恋喵大鲤鱼
2019/11/03
3.1K0
2024全网最为详细的红帽系列【RHCSA-(12)】初级及进阶Linux保姆级别骚操作教程;[就怕你日后学成黑客了]
在Linux系统中,用户对文件或目录的访问权限除了r、w、x三种一般权限外,还有SET UID(SUID)、SET GID(SGID)、Sticky Bit(粘滞位)三种特殊权限,用于对文件或目录进行更加灵活方便的访问控制。
盛透侧视攻城狮
2024/10/22
1170
2024全网最为详细的红帽系列【RHCSA-(12)】初级及进阶Linux保姆级别骚操作教程;[就怕你日后学成黑客了]
Linux系列之文件和目录权限
我们知道,root用户基本上可以在系统中做任何事。其他用户有更多的限制,并且通常被收集到组中。你把有类似需求的用户放入一个被授予相关权限的组,每个成员都继承组的权限。
chuckQu
2022/08/19
3.8K0
Linux系列之文件和目录权限
【Linux探索学习】第四弹——Linux权限管理详解:理解用户、组和权限之间的关系
在Linux下用户其实有两种类型:超级用户和普通用户——超级用户就是我们配置好环境后默认的用户类型,它也叫root用户,而普通用户则是我们在超级用户下自己创建的,因为为了平时学习和工作方便,我们可能需要多个用户身份,就好比VS下多个可执行程序文件一般,而普通用户跟超级用户比是有权限约束问题的,也就是说有些文件之类的可能在普通用户下无权访问,而超级用户则可以随意访问
GG Bond1
2024/10/13
3360
【Linux探索学习】第四弹——Linux权限管理详解:理解用户、组和权限之间的关系
Linux chmod命令
Linux chmod(英文全拼:change mode)命令是控制用户对文件的权限的命令
狼啸风云
2021/05/13
4.8K0
Linux chmod命令
【Linux权限】—— 于虚拟殿堂,轻拨密钥启华章
在计算机系统中,权限是指用户或进程对系统资源(如文件、目录、设备、网络等)可以执行的操作的授权。权限的设计目的是为了保障系统的安全性,防止未经授权的访问或操作。
换一颗红豆
2025/02/02
1630
【Linux权限】—— 于虚拟殿堂,轻拨密钥启华章
Linux文件特殊权限SUID、SGID与SBIT
Linux使用9个权限位来标识文件权限,三大权限分别是r、w、x(读、写、执行)。除此之外,还有特殊权限SUID,SGID,SBIT。
恋喵大鲤鱼
2019/03/04
4.4K0
Linux文件特殊权限SUID、SGID与SBIT
linux下的chmod,chown和chgrp
对于linux的权限掌握以下几个命令就可以非常熟练的操作系统中的各种权限了。 使用权限 : 所有使用者 使用方式 : chmod [-cfvR] [--help] [--version] mode file... 说明 : Linux/Unix 的档案存取权限分为三级 : 档案拥有者、群组、其他。利用 chmod 可以藉 以控制档案如何被他人所存取。 mode : 权限设定字串,格式如下 : [ugoa...][[+-=][rwxX]...][,...],其中u 表示该档案的拥有 者,g 表示与该档案
cloudskyme
2018/03/20
2.9K0
CentOS7-命令-变更文件或目录的权限(chmod)
u:符号代表当前用户 g:符号代表和当前用户在同一个组的用户,以下简称组用户 o:符号代表其他用户 a:符号代表所有用户 r:符号代表读权限以及八进制数4 w:符号代表写权限以及八进制数2 x:符号代表执行权限以及八进制数1 X:符号代表如果目标文件是可执行文件或目录,可给其设置可执行权限 s:符号代表设置权限suid和sgid,使用权限组合u+s设定文件的用户的ID位,g+s设置组用户ID位 t:符号代表只有目录或文件的所有者才可以删除目录下的文件 +:符号代表添加目标用户相应的权限 -:符号代表删除目标用户相应的权限 =:符号代表添加目标用户相应的权限,删除未提到的权限
用户9006224
2022/12/21
1.5K0
Linux之chmod命令
[ugoa...][[+-=][rwxX]...][,...]或者数字权限777,755
入门笔记
2021/03/11
3.6K0
Linux入门篇 —— 一文带你彻底搞懂Linux 文件权限管理
Linux下文件/目录的权限和归属 访问权限 读取(r): 允许查看文件内容,显示目录列表 写入(w): 允许修改文件内容,允许在目录中新建、删除、移动文件或者子目录 可执行(x): 允许运行程序,切换目录 无权限(-): 没有权限 权限介绍 rw-r--r-- . 1 root root 1258 Jun 3 2019 initial-setup-ks.cfgd rwxr-xr-x . 2 root root 6 Jun 3 2019 Music - 代表普通文件 d 代表目录 c
ruochen
2021/02/07
1.1K0
Linux入门篇 —— 一文带你彻底搞懂Linux 文件权限管理
linux修改文件权限命令是什么_chown和chmod命令用法
Linux系统中的每个文件和目录都有访问许可权限,用它来确定谁可以通过何种方式对文件和目录进行访问和操作。
全栈程序员站长
2022/10/01
3.6K0
Linux 文件权限rwx
Linux/Unix 的文件调用权限分为三级 : 文件所有者(Owner)、用户组(Group)、其它用户(Other Users)。
全栈程序员站长
2022/09/01
6.6K0
Linux 文件目录特殊权限设定(SUID,SGID,SBIT)
Linux文件及目录的权限设定,除了我们孰知的读写执行(rwx)之外,还有一些特殊的权限设定用来满足特定的目录。这些特殊权限的设定主要是SUID,SGID以及SBIT。这几个值并非一个单独的rwx,而是在文件或目录上的x权限上做动作,来达到实现文件或目录特殊权限的目的。本文主要描述这3个特殊权限的用法以及umask。
Leshami
2018/08/13
2.7K0
Linux 文件目录特殊权限设定(SUID,SGID,SBIT)
linux RWX权限的解读
Linux的权限不是很细致,只有RWX三种 r(Read,读取):对文件而言,具有读取文件内容的权限;对目录来说,具有 浏览 目录的权限。 w(Write,写入):对文件而言,具有新增,修改,删除文件内容的权限;对目录来说,具有新建,删除,修改,移动目录内文件的权限。 x(eXecute,执行):对文件而言,具有执行文件的权限;对目录了来说该用户具有 进入 目录的权限。 1、目录的只读访问不允许使用cd进入目录,必须要有执行的权限才能进入。 2、只有执行权限只能进入目录,不能看到目录下的内容,要想看到目录下的文件名和目录名,需要可读权限。 3、一个文件能不能被删除,主要看该文件所在的目录对用户是否具有写权限,如果目录对用户没有写权限,则该目录下的所有文件都不能被删除,文件所有者除外
全栈程序员站长
2022/07/01
3.8K0
权力与优雅:Linux 权限的隐秘诗篇
Linux 是一种开源的、基于 Unix 的操作系统,它因其灵活性、稳定性和高性能而广泛应用于服务器、嵌入式系统、超级计算机、桌面计算等领域。
HZzzzzLu
2024/12/26
1770
权力与优雅:Linux 权限的隐秘诗篇
linux-文件权限与归属(包括 SUID、SIGD、SBIT)-隐藏属性-文件访问控制列表 ACL-(chown-chmod)在SIGD目录下
本文由刘遄老师的《Linux就该这么学》摘抄整理而成,写成博客方便自己后期查阅 该书非常棒,语言简练,通俗易懂,非常推荐,你可以点连接去学习~
suwanbin
2019/12/19
1.1K0
【linux命令讲解大全】004.探索Linux命令行中的chmod和chown工具
通过符号组合的方式更改目标文件或目录的权限。 通过八进制数的方式更改目标文件或目录的权限。 通过参考文件的权限来更改目标文件或目录的权限。
全栈若城
2024/03/02
1920
Linux 命令 | 每日一学,文件目录特殊权限相关命令集锦
描述:相信各位看友都看了UP主上一篇《Linux运维学习之文件目录属性及权限管理笔记》了吧,此篇将针对文件目录特殊权限等相关命令进行详细讲解,包括文件基本权限与特殊权限。
全栈工程师修炼指南
2024/06/21
3140
Linux 命令 | 每日一学,文件目录特殊权限相关命令集锦
推荐阅读
相关推荐
Linux权限详解(chmod、600、644、666、700、711、755、777、4755、6755、7755)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档