00:00
尊敬的各位嘉宾以及通过线上观看直播的朋友们,大家下午好,欢迎大家共同参与本次发现教育加科技新范式云计算助力材料多尺度计算研讨会。我是今天的主持人,腾讯教育高效中心的架构师韩璐。服务于教育和基础科学研究,是腾讯云扎根消费互联网、深耕产业互联网,推动可持续社会价值创新的发展战略的重要实践内容。新材料技术是我国制造业的底盘技术,十四五期间,新材料产业将支撑我国多项的战略性新兴产业发展,材料研究领域也是腾讯云持续关注的重要领域。本次会议由腾讯云、腾讯教育、腾讯量子实验室、龙讯腾、英伟达联合主办。我们有幸邀请到了多位材料科学领域的专家学者,分享和讨论多尺度计算、模拟语音计算领域的最新进展、最新技术及最新成果。
01:08
为了积极配合当前的新冠疫情的防护工作,本次研讨会只能采取线上直播的方式跟大家分享会议内容,感谢大家的关注和参与,接下来我们就正式开始我们今天的会议日程。有请腾讯杰出科学家、腾讯量子实验室负责人张胜先生为会议致辞。谢谢,呃,谢谢主持人的介绍,非常感谢今天抽空来参加研讨会的各位老师和同学,呃,我们感受到了大家对于材料计算这个领域的关注。呃,感谢张瑞琴教授、李广宏教授和王林旺教授三位在相关的计算领域之中的专家,百忙之中呢,为本次研讨会提供材料报告来介绍材料计算相关的前沿的进展和行业的趋势,也非常感谢徐勇教授、小荣教授、谢长勇教授和赵海涛教授能够参加到圆桌论坛的环节,针对人工智能与交叉科学研究进行讨论。
02:11
材料科学是我们国家产业升级的关键支撑,呃,但是目前呢,也面临着很多的挑战。材料计算作为加速新材料和信研发的重要手段,近年来在方法论和应用场景方面都取得了很大的发展。我们希望呢,能通过腾讯云的高性能计算资源和量的实验室开发的TS的材料模拟平台,进一步为材料计算领域的各位专家来提供助力,帮助大家提升科研的效率,加速成果的输出。腾讯目前在运河科技方面的研究呢不断加大投入。希望能够。为科技兴国贡献自己的力量,同时也能打造公司中长期发展的技术引擎。腾讯量子实验室是腾讯硬核科技领域的一个重要的布局,那我们的目标呢,是构建呃,从理论到实践的全量计算机的科技,并且赋能到相关的产业应用当中。
03:10
材料科学是量子计算在中期和近期时代有望实现量子化加速的很重要的领域之一,我们期望通过量子计算量法和高计算的有机的结合力。材料研究的发。针对量子加材料这个方向,非常欢迎有兴趣的各位专家和朋友来共同探讨。呃,再次感谢大家,最后预祝本次论坛取得圆满的成功,谢谢。呃,感谢张教授的精彩致辞,腾讯量子实验室是腾讯前沿科技实验室矩阵的重要组成部分,实验室秉承腾讯用户为本,科技向善的使命愿景,持续关注基础科学研究和下游产业应用,致力于进行呃量子科技的发展和落地。哈啊,接下来我们啊隆重有请龙讯矿堂的CEO吕海峰先生为会议致辞,吕海峰先生呃曾主持并参与包括国家863计划在内的多项重大科技公关项目及国内多项大型超级计算中心建设的项目,龙讯腾呢也一直与腾讯云有非常良好的这个合作关系,我们欢迎吕总啊。
04:21
呃,大家好,呃,首先代表龙旭矿能欢迎大家参加此次云计算助力材料多次读计算的研讨会,呃,也也也是由衷的感谢各位演讲和论坛嘉宾能够应邀前来,给我们带来非常有价值的分享交流的机会。呃刚才像那个张总也提到了,就是材料是我们其实是人类社会发展的一个非常重要的一个基础,其实我们人类经历了时代,青铜时代,铁时代,其实对于材料的发现和有效利用啊,它是标志至接社会进阶。即使是在当下乃至面向未来的工业或者是后工业时代,其毫疑问料都是包括现在制业、信息产业、能源及环保产发材料,传统材料的研发主要依赖于实验,其实通过大量的筛,不断的试错法去发现和优化新材料。这种方式其实到目前来看,已材。
05:33
而材料的理论计算和模拟方法,尤其是我们今重讨论的是基分子原子尺度的这样的一些计算模拟,实际上实它有一个很好的优势,就是能够在呃很微观的尺度上,无需实验参数,在仅知道材料原子组分的情况下,就可以去实现比较高的精度和准确的这个材料模拟计,能够用户解材料微观的织能关系,还有研究反应,它实际是括现在新能源、半导体,航空航天等很多的这样的一些新兴行业非常关注的,尤其是在筛选发现材料中新的材料体系的是是十分重要的这个研究手段,呃,就比如我们后面马上会听到的这个张教授讲到的钙料,实际上就是这样的一个主要的应用场景之一。
06:22
那么从计算的角度,其实特别这几年随着这个高性能计算,人工能还有结合云计算的这样的快速发展,其实有进一步的大幅度的展了我们计算材料学的计效率和这个预测分析能力,呃,传统材料学与现在兴这样的技术的的术的融合,实际上得呃我们的材料模拟计算得以向着更高的这样的精度,更多的尺度乃至更大规模能够快速推进,这也已经开始逐渐的走进了很多的主流工业企业这样的一些应用场景里面去,我们城团队实际上也是带着这样的一个使命或者愿景,就是呃,推进低性原理计算的方法的优化,并融合云计算,高性能计算,呃,人工智能这样的一些创新的计算方法,然后去发展超大规模的、多尺度的、智能化的这样的计算。
07:14
材料、计算方法,然后面向教育、科研甚至乃至工业界的前沿一些的应用需求,提供一些可用的、好用的软件工具和服务,来帮助我们的用户从原理出发,以正向研发的这样的路径去取代过去的这些试错的方法。发育,还有腾讯量子实验室,还有英美达公司,我们一起来举办这次研讨会,来共同探讨这样的大尺度的地形原理计算,还有多尺度的材料计算模拟方法的这样的一些发展和应用,我觉得这是一个很好的机会,呃,最后我也再次感谢大家的到来和持续的关注,也非常期待后面精彩的这个报告的环节,谢谢大家。
08:05
好的,感谢吕总的啊,就是发言,接下来让我们进入今天的学术分享环节啊,有请香港城市大学讲座教授张瑞琴教授和大家分享机器学习辅助钙钛矿材设计的主题演讲。张教授一直专注在材料物理和材料化学领域的理论和技术研究,发表SCI文章超过200篇,研究成果曾获得国家自然科学呃,自然科学奖二等奖,三等奖,教育部科技进步奖一等奖,我们欢迎张教授。嗯。各位嘉宾啊,啊各位啊,朋友啊,大家下午好啊,非常高兴有这个机会来参加这个重要的活动。呃,我介绍的研究工作部分呢,呃不是很长,所以说在这之前呢,我想呃,简单的说一下我对这个活动的理解啊。
09:07
呃,这次呢,腾讯及各位呢,来推动这个云计算在材料设计中的应用呢,呃,我个人理解是非常重要的一个事件啊,一个一个是。呃,因为呃,我自己有深刻的体会,我是在从80年代初就开始做计算模拟的。呃,在这近40年的科研,呃,生活中呢,我见证了计算资源的发展,呃对这次云计算平台的这个推动呢,它的重要性呢,有深刻的认识。呃,我早期接触计算机的时候,那时候软件硬件水平可真是非常低啊,接触接触的计算机啊,也就是些什么苹果了,那时候也就玩玩游戏啊,进行简单的数据处理,后来他有危机啊,U286386486等等,呃,当时学校里也有所谓的大型计算机啊,叫什么我们那时候是复式通产的,个数非常大,放在一个非常大的机房。
10:01
但是人际交流啊,是用读卡设备啊,编程呢是在纸上打孔啊,真是太不方便,现在现在同学都不可以想象啊。呃,早期编程语言有阿,Basic c等啊,计算软件呢,呃,早期只能用些经验的方法,呃,我的硕士导师呢,当时很有远见,让我研究用于太阳能电池的飞晶硅啊,相关的一些基本问题,那时候80年代啊。就研究呃,太阳能电池相关的材料,呃,那时候用这软件呢,叫c do经验方法是一个美国访问的一个老师带回来的。呃,需要现在自己的计算机上编译通,通过了以后呢,呃再改,然后呢,增加一些功能。啊。呃,后来到80年代末呢,又从美国传来了高斯程序,呃,一般这些程序在能找到的机器上都是没法运行的哈,要自己去改,是所谓的呃,程序能研究的问题呢,都是非常简单的,非常小的分子,或者一些简单的模型体系。
11:03
呃,现在的情况就不同了,可以说现在人人都能用上超算啊,单位没有的话都可以花钱买计时软件,都是现成的,非常好用。做冰心计算已经是家常便饭了啊呃,但是呢,计算资源的拥有还是非常不均衡的啊,自己有好的计算机的人呢,显然是非常有优势。呃,有了云计算呢,对计算资源的使用会登上一个台阶,大家可以通过云计算的平台把所有的计算资源都充分的利用,小的研究做也不需要自己养自己的计算机了,啊啊,也不需要自己买软件,只需要通过云平台去获取自己首要的数据。呃,这对我们做分子和材料呃,研究和设计的人呢,是非常重要的,应该算是一个黄金阶段了啊。呃,计算手段的提升啊,自然会有更呃有效的促进实验工作的发展,当然也会加速创新科技的发展啊。
12:00
呃,特别是在配合我们最近,呃,大家都知道非常受重视的机器学习啊,产生质量很高的数据啊,呃,可以做非常有用的分子和材料设计,会对实验有真正的一一的指导。呃,云计算平台的建设特别有益于机器学习在分子和材料设计中的应用,这是因为呢,机器学习需要大量的数据,数据库的建立呢,会很多计算使用。啊,云计算资源的建设呢,会在很大程度上促进计算机机器学习在这个领域的应用。下面我我借这个机会呢,给大家介绍一个我们用机器学习设计新材料的例子,从中可以看出呃,云计算在这方面的应用前景。啊,我们这个工作是关于机器学习辅助get材料设计,呃,具体的说呢,呃,是用这个data机器学习辅助发现优质的呃杂化有机机。
13:01
啊,这个工作呢,是我的一个叫陈佳璐的学生做的啊,他主要主要是他做的,也和这第二位学生有些合作。呃,那么说这个,呃,这个材料呢,非常重要啊,众所周知呢,呃,金属化物钙钛矿呢,具有优异的光电性能啊啊,那么说,尤其是有机这个无机杂化的这个钙钛矿呢,不仅光电啊,性能优异呢,而且生产成本低廉。这个get特框呢,它主要是呃结构呢主要是ABX3啊,那么说这个图上就都可以看出来啊,如果AV啊呃是呃有机的一个有机分子的话呢,那么这个是属于有机无机呃钙钛矿简称这个hop啊呃对这样一个材料的计算机实计呢,呃有助于最大化提升材料研发的性价比,从而促阵呃这个能源材料的发展,特别是开发把能把这个阳光转化为清洁。
14:03
呃,清洁能源的一个新材料,这是大家都在推的,国家也非常重视。呃。全通上这个新材料的开发呢,通常是基于试错的方法,是导致材料的合成呢,呃呃呃,机器在工程条件下的性能测试呢,呃,成本非常昂贵,而且使啊,而基于这个DFT啊计算对高通筛选呢,已经光用于幅度研究,以降低实验成本。呃,机器学习这个方法呢,这个有助于进一步降低这个计算成本,那么从而在无机呃个台框的设计中呢,得到了光泛的应用,然而呢,用这个方法来研究这个呃呃有机无机钙杂化的钙块呢,研究还是比较少见报道的,我们在这个工作中呢,我们讲一个把讲这个一个具有三个参数的一个长呃长这个长方体啊,引入这个描述符。
15:02
呃,讲这个,呃这个AV啊讲AV这个阳离子对集合,呃形状呢是为长方体,而不是一个球形啊也以前大家都是用的,用来用球形,采用这个data,呃,Machine learning呢,来这个预测低级这个呃这个啊用用这个低级计算的一些呃数据,比如说能量,呃钙啊来计算,呃高级别的1GAP,那么说这是一个呃呃主要是计算它这个差就说是叫data machine learning。呃,而不是我们不是直接计算这个高级别的概,那么说由于这个这个好使非常好使呢,我们这个方案呢,呃可以这个大大呃呃这个呃呃减少这个计算时间,呃因为用的呃数据呢,是非常这个低廉的一个数据。啊,我们选了这个,呃。两个呃具有各种这个呃这种呃呃双杂化有机无机钙钛矿的呃这个数据集来训练我们的机器,呃机器学习模型呃这一个一个模型,这个也还有一个模型,这个第一个数据集呢,呃包包含了这个很多的比位,呃但是呃但呃但在优化中呢,呃只有三种A位,这个只有三种A位啊阳离子第二个数据集呢,呃就呃就是呃涉及了16个16个有机阳离子,但是比如呢只有三个呃四组的阳离子,这两个数据集呢,都不足以呃考虑这个双杂化有机无机个采矿的各种组成,因此呢,我们合并了两个数据集,呃来这个呃呃可呃增加更多的考虑。
16:44
呃。这项工作的这个呃筛选框架图是在这个左边所示啊,我们从这个26个初始的特征开始呢,呃使用这个person,这个相关系数和特征重要性呢,呃来进一步筛选特征,然后呢,保留这个呃24个24个特征来训练机器学习data模型,Learning理模型,呃然后呢,根据这些模型进行筛选,在实验筛选中呢,不满足这些规则的结构相对啊提除。
17:15
啊,那么这个表呢,呃显示呢,我们建立了这个26个呃,初始特征来训练我们的机器学习模型,那这里呢,我们有把这个啊阳离子的几何构形,这个长宽高哈,啊那么而不是使用一个而不使用一个球形啊啊这个因为这个。呃,许多的阳离子的几何,呃,构形结何形状呢?原非这个球形,呃,此外呢,我们使用这个呃后姆罗钙姆罗钙P,而不是这个像其他人那样使用home和值啊,这样可以作为一个对光吸收的一个特征,这这样更合理的可以理解这个,因为钙是对应这个光系收嘛啊。啊,我们还使用这个旋转温度啊作为呃额外的特征,这样呢,可以呈现有机阳离子的几何啊,构型的一些特征,附加特征。
18:08
呃在对这个有机阳离子呃特征构建之后呢,我们进一步考虑呃呃B位和B位和X位的这个元素的性质,最后呢,呃通呃这个呃呃呃通通常用于预测钙带宽稳定结构的一个这个这个呃高的石密的一个呃耐受因子哈这个呃这个这个耐受因子,还有一个这个八面体因子,呃呃都都都都被采用,那么这样的话呢,我们就采用的这个因素呢,就比较全面。呃,那么这张图呢,显示了呃,特征重要性的结果,那么说在这个左边这个图中呢,呃,可以看出低电子啊。呃,低电子很这个字很小,大家不用看这太子,大概就听一下就行了,因为只是看看到底是怎么回事啊,低电子的数值呢,显得特别重要,其次呢是P点值,P点值在这个位置,那么说因此呢,呃在B位的间合特征在预测代谢的时候呢,起到绝定的作用,BV的性质在预测代谢方面呢,占主导D位啊,因为前六个重要特征呢,呃,都来自B位。
19:16
呃,然而呢,呃,A位点的特征重要性呢,没有,呃,呃没有显示出来,呃第一个数据集中的几种类型的A位的阳离子呢,可能会导致这种结果,呃为了体现A点的特征的重要性呢,我们讲第二个数据集的离合呢,传承增加了,呃增加了第一个数据集的100倍,呃这边那么说呃这边这个模型呢,相比呢,呃模型偏差不变,收敛速度更快,而这个一些误差呢,这个m Mae啊,这个可以看到哈,也没怎么变化啊,但是呢,这个A点的特征重要性这个已经被显示出来了。呃,为了找到A点的呃更重要的特征呢,我们使用了这个这边这个图,这边这个图第二个就是呃这里边这个模型,呃这个精度提高,呃提高的非常高,那么可以看到呢,啊,那么说可以达到这个R平方呢,这个是达到0.980啊啊就基本上接近一了啊啊这是这个A点的特征的重要性显示体,呃显有了显著的提高,这个GAP和这个Lac是A点的两个重要的特征。
20:24
结合这三方面的结果呢?我们最终去除了A点为的长度LA和B点的电子数。啊。那么。呃,我们这边有五个模型啊,我们这个探讨这个比较了五个模型,就是模型一,模型二,模型三,模型子,模型五,呃和呃文献和两个模型进行了比较。呃,这个模型一中呢?呃,我们使用了与这个五和网他们这个模型相同的数据集,大概有196个数据点,并得到了更小的Ms SE,啊,SE比他们还小。
21:02
啊,那么说这个呃,但是我们用的数据集呢,是小了很多,我们只有20%,然后我们建立了这个模型二,这个模型二呃,这个呃与模型一相比呢,它只保留了AV的离子的半径和间隙,模型二的训练结果显示呢,这个M1,呃,这个MSE。还有MS有了增加,呃,R平方减小这些结果,这一步证明了通过考虑有机阳离子的各项异性,可以提高模型的准确性啊,接下来呢,我们使用整个数据集来构建模型三,这个模型三,哈啊,那么说训练结果标明呢,我们使用的数据集大小是50倍,模型三的MSEMSE,哈,啊,也接近了流的这个路的这个模型接近它的这个这个。这个MSE,这是一个平均,呃呃平均方,均方误差啊写进了它,此外呢,这个模型这个四啊,这个模型四和模型五使用的使用了SE发计算的更准确的呃,代谢啊,以便更好的预能代我们通过使用来自两个数据集对SHS1代呢来离合了模型四。
22:19
这个模型四,但与模型三相比呢,呃,该误差为更显著,呃,因此呢,模型五中呢,我们进一步的使用了data模learning来提高准确性,在data machine learning呃这个中呢,呃,低级属性可以为预测高级属性提供重要的信息,因此呢,对于一个结构呢,呃,它的这个HSE代谢的主要部分呢,可以由其呃呃,PPE的代谢提供,而代模式learning呢,只需要有这一小部分。呃,采用德尔machine learning后呢,呃模与模型四相比呢,呃这个我们这个ma Mae啊呃这个呃呃呃它这个降低了0.2伏,0.2U为二,最终呢,呃结合模型三和模型五,我们可以预测这个呃双杂化有机无机钙钛矿的能细。
23:12
呃,那么说这里面呢,有一个,呃,用的自觉自觉使用机器学习的一个一个结果,这是这个,呃,Predicted p bad这边是这个啊用了data塔machine式learning啊可以看出呢,这边有很多点呢啊偏离了这个对角线啊,偏离了这个。呃呃,这个这条中间这条线,但是用learning这个偏离比较小,可这这意味着这个自己预呃自己模式learning力预测误差呢分类了一些,呃错误分类了一些金属和半导体,呃相比之下呢,这边这个data模式learning力呢就效果非常好啊,这个模型这个啊,而且它比这个一种这个dient boosting的模型呢更为均匀。呃,MSE的一呃偏差呢更小,因此呢,Data machine learning模型呢,被证明是预测呃H1的带的有效的方法,呃最后呢,我们得到筛选出17个模型被证明是啊非证明了这个H这这个方案是非常有效的,呃最后呃呃这个呃这个这个这七个模型呢,它就代续在1.5~3.0亿维之间,呃这我们就是我们想到向实验工作者推荐的这个双杂化有机无机态矿。
24:29
结果呃这边呢,还有一个就是说这个呃为了挖掘代西与原始性质之间的隐藏的趋势呢,我们这这也对照了这个117个筛的BB代的数据的可视,呃应用通过可视化来进行了对照,我们找到了一些趋势,你比如说当这个呃I呃IRB等于1.2的时候呢,呃我们举有较大的比例子,呃B呃BV的离子半径比这个双杂化呃呃有机物机钙化更更合适。啊,在这个TOC这里边呢,这个PPE的盖系的范围呢,随着这个呃后GAP的增大呢,呃也在增大,呃那么呃呃总之呢,呃我们实施了一个筛选框架,通过结合肾能理方法和DFT计算,呃从大约呃7万个呃双子化有机机钙钛矿呃中呢发现有前景的光伏材料。
25:24
呃,新特征也就是AV新层征,包括AV有机阳离子对各项异性,呃,引用这各项异型以后呢,呃,用于这个训练模式热力模型的描述浮中,此外呢,此外此外呢,我们还引入了模在模式learning来提高这个HSE啊,能吸啊,呃呃,来这个预测更准确的能吸结果。我们的结果还表明呢,是呃呃,虽然含脱的对这个双杂化呃有机无机钙的放,呃虽然被研究的很少,但是它很可能它的钙部更适合,当然这个这里面是比较稀少啊啊,最后感谢大家,我就介绍这些吧。
26:03
好的,感谢张教授的分享。下面让我们欢迎北京航空航天大学物理学院教授、院长,教育部长江学者特聘教授于广宏教授给大家带来金属材料中子辐照计算模拟平台构建的主题演讲啊,有请吕教授。好,谢谢主持人,呃,今天呢,我这个报告的题目是金属材料中质辐照模拟平台构建,这可能和我们现在一般所做的计算有点区别,我们做这个材料呢,是偏重于这个,呃,核材料啊,核材料。那么我们这个封面呢,实际上也是一个。这个缺缺陷本身我调一下这个。
27:03
也是这个缺陷,这个浮照嘛,辐照它就有一个碰撞过程和这个碰撞后这个缺陷的一些表征方面的一些内容,大家可以看一下。呃,实际上我们做这个材料呢,就是刚才说了,它是核材料,那么核材料面临的一个非常主要的问题呢,就是一个浮躁损伤这么一个问题,那么现在我们涉及到的这个先进合成系统啊,就包括像裂变反应堆,第四代裂变反应堆,像这个ADS,就是这个加驱动临系,包括这个呃和聚变这个应啊,那这些都是我们先进系统,那么呢,在这里边是发发生这个非常重要的作用中浮啊,它会产生一个浮缺陷。那这浮浮躁曲线呢,呃,还会产生一些氢和氦这些粒子,这个叫善变,那么同时还产生其他的一些相关的善变元素,那么这些都是终止辐照带来的一些,呃,杂质啊,或者缺陷相关的给材料带来一些影响,所以相关的科学问题啊,就是这个辐照。
28:11
导致这个材料结构性能变化,它的辐照机理,加上材料结构性能的变化,加上一些材料设计,这个实际上是计算模题和实验相结合的这么一个呃方法来做这个水这些问题。那么实际上呃,我在一六年呢。也专门组织过一个会,这是基金啊,当时的工材学部和这个物理两个学一起来组织一个先进核能系统中材料基础科学问题这么一个研讨会,嗯,这也是我,我这也也是一直组织来很多次国际会议,这是我这主织过很多次会议啊,这是我主持会议里边属于比较我比较满意的,比较认为比较成功的这么一次,那么我们会议实际上开了两天吧,最后总结出来到底先进合同系统中材料基础科学问题到底是什么科学问题,我们的千言万语汇成了一句话,就叫先进合成材料缺陷形成氧化和形成调控这么一句话。
29:07
那么现在我们实际上也有在中国材料大会下面呢,我们也呃设立了核材料分会场,实际上我们核材料分会场的主题就是这句话,就是先进合成材料血液形成氧化与形成调控,这个大家可以关注。那么我们我这个报告呢,就以先进合成系统之一就是聚变为例,因为我一直从事聚变对材料方面的工作,以这个为例啊,给大家来进行讲述,那么聚变能源呢,大家我不知道今天的听众都是,呃,从哪个领域来的听众啊,是老师还是同学,我都不太清楚,可能也都有吧,这个聚变能源呢,它是一个未来的潜在能源,它的特点呢,是清洁、安全、充足这么一个特点。实际上最简单的聚变反应就最容易实现的聚变反应呢,是氢的同位素氘氚反应生成氦加终止这么一个反应。那么聚变现在进行到什么程度了呢?那么实际上一共有七个国家和地区,包括中国在内的吧,七个国家地区一起来共同投入应该是120亿美元建设一个国际。
30:11
国际上最大的这么一个聚变,俗称人造太阳啊,最大的一个人造太阳装置就叫国际热和聚变实验堆,简称这个大家可能。会会知道一些,那么现在正在建造,大约2025年产生,这个2025年开始运行。那么中国呢,这可从这几个数字大家可以看,聚变这个需求就是特啊,中国投入是100亿人民币,那么科技部呢,也为了促进中国聚变科学技术发展,设立了这个所谓的一专项,这也是十年投入100亿,那么未来还要建设中国聚变工程实验堆,这个叫CR,这也是数百亿的规模,这是所以聚变呢,现在也是国家的重大战略需求。那么这个就是一特尔的一个示意图吧,中间就是这个等离子体,这个这运动的就是这些等离子体,外边就是这一特尔整个一个大型的装置,最大人的太阳,这个有多大呢?大家看这块是一个人的大小啊,这个人有这么大小,所以这确实是一个大科学工程,这在法国南部正在建设,大家有机会啊,就这个地方,大家有机会可以过去看。
31:17
那么这个是我们国家正在设计的开始工程设计的一个国聚变工程实验堆叫C,这是一个设计图哈,大家看可以非常漂亮的一个大棚,展示的这么一个形状,也是预示着咱们国家的一个经济的不断发展,这个国力的不断增强,这么一个是所以巨变这块还是前前景是非常美好的。但是前途是光明的,道路是道路是,这个确诊还是有很多困难是吧?那么其实聚变实现有三大问题,就是等流体稳定性的问题,材料问题和传染料支持的问题,那么实际上这几个问题啊,也都与材料紧密相关,所以材料问题啊,实际上我们说它是聚变能源实现的非常关键的问题。那么我们现在比较关注的一个材料,就是因为聚变嘛,是人造太阳,实际上把太阳拿到地球上给它穿件衣服,这个中间实际上是等于体,这就所谓的这个太阳这个这个装置,那么外边我们可加穿件衣服,这个离这个等离体最近的,离这个这个衣服这个材料,就我们把它叫B材料。
32:18
那么这个B材料也是这个不断的这个大浪淘沙,从这个伊特前期的316缸到这个中间无共用,到最后呢,我们确定下一代装置,现在就是全屋这个概念,被屋啊,被认为就最里边这层材料屋,被认为这个这个聚变对B材料一个最佳的这个选择,实际上我们这些年呢,我们团队一直也从事这个聚变的材料,特别是材料方面的浮损相关的工作,我原来也做DFT工作的,那么现在根据需要也不在拓展这个主题,也是咱们多尺度嘛,不同尺度,实际上我们现在不同尺度的工作都在都在都在都在开展。那么我们主要研究方向就是实际上就是金属全员物理抗不罩材料设计这方面的这个工作,那么我们现在实际上也在北航的沙河校区,这个不是现在北航的学校区了,沙河校区也欢迎大家到我们这个北航沙河校区来过来指导工作啊。
33:18
那么聚变这块呢,因为时间关系我不多讲,那么我曾经被这个央视啊邀请做了一期开讲了,呃,这个这个对这个聚变这块有一些阐释,大家感兴趣的可以网上查就可以查到啊,这块我就不详细的多说了。那么今天我们讲述的就是我们实际上在做一个平台,刚才说了终止浮这个事啊,是非常重要的一件事儿,实际上我们正在做一个终止浮的这么一个计算模拟这么一个平台,因为终止辐照会给材料结构性能带来很大的变化,大家看这是我们这个当时做开讲的,我们同学画的一个示意图,就终止啊,这个它是一个不带电的这个例子,它实际上在终止,在聚变里边产生这个终止啊,它可以产生。
34:00
达到多高的速度呢?就是5000万米每秒这么一个速度来撞向这个材料,这样就材料内部的原子啊,导致这个原子进行离位,这个叫实际上叫离位损伤,这样的话导致材料结构性能的非常大的变化,所中浮,这是一个先进合成材料一个非常重要的关键的这么一个呃问题。那么实际上我们这个做终止辐罩的研究呢,方法呀,实际上有三种,这第一种就是我做反应堆实验,我直接把这个呃,裂变反应堆或者是聚变反应堆拿来产生的终打到材料上,看材料性能发生什么样的变化。但实际上这个还是非常困难的是吧,这个我也多次讲过,就是我们原来这个刚建国的时候,那时候比较困难嘛,我们穿衣服叫新三年,旧三年,缝缝补补再三年确实就是不断的这个这个这个穿呢就补补这个就表示这个衣服那时候条件不好嘛,那么中止辐照这个事儿,可以用这句话叫做这个造三年,晾三年,分析测试这三年。
35:07
这是什么意思呢?就是我终止辐照造啊,这个对,做这个实验的时候周期特别长,可能有些就好几年才能产生这个我们要求的这个辐剂量所造,然后量产的辐造成之后啊,这材料有点打之后它会产生一些。放射性,这个放射性啊,这个不能马上拿回来就马上做分析测试,所以这还得亮三点,最后你做分析测试还是需要很长时间,因为有些还照热室里边就不能直接来碰,所以他虽然放射性小了,还有一些放射性,所以这个周期特别长,要我们现在做重点研发专项做五年的话,可能你还没做完重植辐照实验呢,还没好呢,这个项目都要结束了,所以这个终止它有这样特点。特别是聚变队材料聚变中子,现在聚变堆我们还是没有这个真正的聚变堆,现在都是一些实验堆是吧,都是一些这个这个这个一些这个多氨马克装置还没进行真正真正的聚变实验,所以现在说就需要一个是需要实验模拟,一个是需要计算模拟来进行,因为我做计算的嘛,我们主要从计算模拟这个角度来开展这个终止辅压这个研究工作,这个因为特别聚源的材料,现在聚变终止这个实验我们还基本上做不了,所以这个计算模拟这块啊,包括实验模拟啊,这就是将来做这个聚变的工程设计的重要依据。
36:24
那么实际上我们现在正在承承担一个项目,这个一个项目就是我们做材料啊,有个项目,那么这个项目呢,实际上我们从一七年开始就开始酝酿这个项目,那么一直到18年九暂这个项目才立项,就我们刚才说的一测专项,现在也在按照重点研发专项进行管理。那么我们这个实际上这个现在学名叫做国家束和聚变能发展专项啊,那么这个我们的项目呢,就是这个叫聚变对金属材料塑料多尺度模拟,实际上我们要构建这一个平台,是18年10月20号我们答辩,那么当时还经过竞争,还是挺不容易的,所以我们获批的这么一个项目,那么现在际上正在进行,那么下面我做汇报的也是这个项目实际上正在进行的这么一个情况,那我们的项目呢,有个特点,当时我们还是可以跟现在不一样,当时可以有20个单位参加。
37:17
那么实际上我们呃,集结了国内做这个核材料计算模拟的主要的团队,所以我们现在这个项目啊,是由12所大学和五个研究所组成这个地图,大家可以看到这个基本上集中了我们国内做这个核材料技术模拟的,呃,几乎是所有的优势单位,那么大家一起因为这个事儿终止平台这事确实是很难。那么当时我说谁要说不难,我就跟谁急,特别难的这么一件事,那么实际上说不是一个人两个人可以做的,也不是一个单位两个单位可以做的,我们集结了这么多大学研究所一起共同来这个解决这么一个,呃,平台构造这么一个难题。那么我们的项目也集结了很多优秀的青年人才啊,这些青年人才在我们项目过程中都获得了一些四青人才啊,提上了这个高啊等等,都获得了很大的发展,那么这些青年人才都特别工作特别出色,出色到什么程度呢?就都都比我厉害,都比我强。
38:19
那么我们这个项目啊,设置的总体的研究目标和总体方案呢,就是有这个图啊,这图是我们项目研讨啊说出据这个做报告总是这个讲的这么一个这个这个这个这用的一个图,实际上我们就是终止嘛,终止辐照,终止要入射,它有不同的能量,不同的角度,那么在这个入基础上呢,我们需要构建两个数据库。一个是呢,叫辐线的性质数据库,这个主要是我辐产生控位啊,产生间隙原子产生未环,它的热力学动力行为,这我要建一个数据库,第二个呢,就是辐初级损伤结构数据库,就是我终打到这个某个原子,给这个原子带来一个能量,那么这个能量带来一个材料的结构的一个变化,这结构到底发生什么样的变化,这容分类动力学可以得到这个微观区线,这个氧化这个结构变化这个数据库。
39:12
那么这两个数据基础上呢,我们这个。两块,一块是动力学蒙卡计算,一块是动力学计算,这是动力学计算。呃,所以我现在原来我做D出身,现在已经不断的往这个大尺度进行这个发展,现在已经做到这个这做到这个这个这很大动力啊,动学做到这个这个这个这个尺度的计算所,这包括短时间低PA的缺陷氧化和长时间高低别的缺氧化,那么在这个结构,这是我得到的缺陷结构微结构基础上呢,我们可以用这个经典的理论,或者用卫置动力学经力双选学员来进行历性能的这个。计算,那么我们这计算结果,包括结结构和性能呢,都和这个,因为聚变终止实验还没有我们和裂变的一些实验进行对比,来这个这个bench我们这个平台奔驰我们的程序。
40:04
然后将来就可以预测聚变材料,包括一些裂变,将来大地别的时候他的一些行为,实际上这就是我们总体的这么一个浮照平台,实际上我们呃已经做了,像从一七年开始,但已经有几年的时间了吧,一直现在构建这么一个终止的模拟平台。那么实际上我们的平台名称呢?我们也起了一个名字,这个平台的英文就是neutronal eation of fus metlic materials,那就是我合聚变这个金属材料的这个中模拟的马斯里这么一个,呃,英文名字这样我们总结出来,这是我在有有一次有一年去成都的飞机上专门总结名字,我们叫你cube这么一个平台。那么一般的这个平台的缩写都是用这个名称,都是缩写成跟英文这个对比的,我们这个比较不一样,我们是拟和的,是中文这个前面这个叫你牛协和,英文叫拟牛,就是这个这个写写这么一个谐音,那么后边M呢,可以拟牛嘛,这问一个问这么一个问题,实际上我们这个平台还是现在进展还是相当不错的。
41:14
那么目标材料刚才也说了,我们就选钨,因为钨是一个现在基本的材料,这边B材料一个最这个,呃,最这个这这个有前途,最有可能使用的这个这么一个B材料,所以它既有工程意义呢,又有可操作性这么一个材料。那么我们做的一些事情啊,简单的给大家做一个这个这个汇报,大家感兴趣的同学,我们感兴趣老师同学啊,我们还可以下面继续讨论,这首先是我们两个数据,第一个就是我们缺陷的热力学和动力学的数据库,这个我们做了大量的。工作就包括一些控位和间隙的结核能,它的这个扩散室雷,包括加入氢害这些元素之后,它的这个形成能扩式等等这些,这里边有我们自主研发的,有是这个对文献来进行验证的,也有一些根据文献已有结果,我们又拟合出来新的这种外推公式的。
42:08
这么一个这个公式,这个数据库现在我们做的还是相当不错的。那么第二块数据库呢,就是辐初级损伤这个碰撞这个数据库,这个就是我们选择不同的防辐,打上来之后,它有不同的方向,呃,有不同的能量。那么中辐和这个和我这个原子碰撞,最高能量是300个K,那么所以我们一般做到最高能量做到300K,这些我们把所有的温度啊,不同温度我们都进行考虑,来得到这个缺陷这个链碰撞的这么一个这个数据库,这里边其实说起来比较容易的细节问题多得多,我们其实开了多次的这个研讨会来讨论这件事情。那么在这两个数据库基础上,我们就可以对这个材料的。这个。缺陷的结构。
43:00
它性能来进行对比,这里边我以我其中一个事为例啊,要都讲可能时间来不及,我们就以动力卡洛计算这块为例,是吧,这个我们也是我们组呢,一三年开始啊时专门开发了一套这个洞穴蒙特卡罗这个程序,当时呃,我们一个学同学到法国,跟法国一个查了特贝卡这个里尔大学的跟他一起合作,那我实际上我们在这基础上独立自主开发出这么一套程序,这套程序现在用的还不错,我们申请了软件注册权。同时我们跟国内外,国外的一些同类程序比较啊,在我们计算我们现在这个现有的计算里边,这效率啊,还是比较明显的,我们做这个小D的时候,这个这个这个提高的效率还是非常明显啊,我们采取了一些很好的措施,所以我们有了这么一套这个程序,我们应用这个程序呢,就开展了。这个呃,浮躁终止浮躁这方面的工作,这个开始我们做的时候,实际上对这块呀,信心还不是很足,但随着我们越越往里做呀,实现在我个人对这个多尺度模拟这块认识,实际上在不断的不断的这个这个这个这个这个深入的原来的理解和现在理解是完全不一样的。
44:16
就是这经过这么四年接近五年吧的时间,我们理解就完全不一样,这个实际上就是我们对这个0.0是DPADPA就是一个叫displacement,就是说DP表征浮躁程度的这么一个量。这表示实际上是平均到每个原子它的移位次数是多少,就我如果中止浮,它的移位次数越大,说明它这个浮这个程度就越高,那么现在我们是选择小DPA,因为小DV它不会产生三维元素,就是我们这因为是做平台嘛,我们就从简单开始做,做了一个0.004DPA的这么一个辐这个模拟,然后实验进行比较,这个我们首先是把实验的能谱变成了这个我们的实际计算的这个P能谱。
45:01
然后用了我们前面所用的所说的两个数据库,然后用我们刚才开发的这个动力学对象动力学的卡程序来进行计算,这样就计算得到我在0.004DPA的条件下,这时候屋里边它的空位。和这个间隙原子,因为你这个一打就打产生空位和间隙原子嘛,它的水道DBA的演化是什么样的。这个数密度,这个这个空位的数密度和间线数密度,它是怎么变化的?一个十的二十五次方这个量级,一个是十的二十四次方,不到二十四次方这么一个量级。那么在这个基础上,这个空位这块我们跟实验进行比较。跟实验进行比较。诶,这一比较之后,我发现你看这块这个这个这个这个蓝色的就表示我不同碳浓度的时候,我这个不同的这个空位的这个密度是多少,红色的是我是在实验基础上,这个虚线就是我实验值在实验基础上一个量级的变化是多是是是是多大,我们要求这个误差一般要求是一个量级之内,那实际上我们当时做完之后特别惊讶,就是我们这个树密度确实跟实验保持在一个量级之内,符合的非常好啊。
46:13
那么在这基础上,我们做了力学性能的这个这个测试,力学性能就是一块是空位处。一个是这个微缩,微缩环,胃置环就间隙的,相当于你可以理解是间隙的函数,这是我们用不同的这个模型,这我们还没用胃缩动力学,先用一些这个像的模型来进行计算,比如用这个disper by model来计算,还有一个我们自己用未知动力学自己拟合的公式,不同的大小来进行拟合。那么这对空位出对位数环呢,我们又用另外一个公式就是FKH,当然这不同的公式都是和这个ND是直接相关的,N呢就是我们的缺陷的团团处团处数密度,D呢,就是我们的大小跟这两个相关这么个模型。那么这个实验我们也是不同的叠加呀,方式也不一样,有些叠加我们是直接叠加,有些是我采取N采一到二之间这么一个叠加的方式。
47:06
但最后结果啊,采取你看当N等于二的时候,我们的结果和实验符合的是非常非常之好,当然它不是符合最好的,不一定是最好啊,但是我们确实跟实验这个结果非常好。那么通过这个,通过这个计算呢,实际上真是极大的增强了我们对终止辐模拟这个信心是吧,这个时间快到了,我这个0.02DPA就不详细讲了,这实际上这也是我们用这个更大的DPA来进行拟合,那么符合实际上也是非常好,从尺寸到密度到最后的约性能,这个符合的都是非常好,和实验符合的非常好。所以这些啊,确实这个我们刚开始就是一七年的时候,刚开始那时候确实还对这个事儿理解不深,信心不足,到现在开始我们觉得确实通过计算呢,通过这个我们这种肝癌的多尺度计算,就这个图上,通过这个计算得到这个跟实验对比的结果,实际上极大的增强我们的信心是吧。
48:02
当然这也是,我们只是在小DPA是吧,小DPA可能几个DPA的时候,我觉得我们现在很有信心,就是在预测这块,你给出不同条件我们能做,但实际上如果在在这个其他条件下,我们还存在很多的挑战,比如说第一个挑战就是小尺度到大尺度这个计算,多尺度计算嘛,它存在一个信息缺失。比如分子东西需要模拟我们有缺陷的结构,有尺寸,有分布,这些都有。那么到我们的蒙特卡动力学,蒙特卡拉模拟就基本上没有形状的信息,只有尺寸和分布了,等到这个动力学计算空间分布的信息都没有了,完全是平均场里头这些信息的缺失,这多尺度计算里边到底。缺少这信息,给我们的模拟带来多大的不确定度,这是我们需要考虑的。这有两个例子,因为时间关系我也不说了,就是一个时间尺度的信息缺失,一个是空间尺度的这个信息缺失。同时第二个挑战就是当我到高剂量的时候,高剂量中止辐照有什么特点呢?就它会产生。
49:03
一些,一个是氢,一个是氦,还有三维元素,它维度特别多,就缺陷它有不同的组合,维度非常高,这样从小P到大DP时候,对这个计算量的要求,对我们的缺陷不同的种类,你考虑的维度,这个要求,这个挑战都是非常高的,实际上这是我们正在正在讨论。比如说刚才那个瑞琴老师讲的积极学习,实际上我们也考虑用积极学习的方法,结合一些其他方法,怎么来克服这样的挑战,能把我的事,能把我们的事能够做成,这是我们现在正在考虑的这个内容。把这最后一页就是实际上聚变呢,这块你看我们提了一个终辐照本身呢,确实非常难的这么一件事,应付很多挑战,那么聚变本身呢,也是大家都说50年后在实现,那中国现在是进展还是非常快的啊,这块实际上还存在很多很多的困难,那我总结出来就这是我总结的就是聚变精神六个字,一个是凝聚。
50:02
因为聚变是刀穿反,哎呀,这能还加中止这么一个过程,它是凝聚在一起,还放出能量,一加一大于二这么一个过程,所以它是凝聚。第二个就是坚持,它不是一年两年能实现的,可能不是十年20年能实现的,一定要坚持,就一直做这么一件事,把它做好。最后的梦想,我们现在有中国梦,实际上我们也有巨变梦,我们的能源梦,现在是吧,所以可能希望我们在这个聚变精神的这个指引下吧,能够共同努力。这个一起把我们这个中服平台能够构建好。好的,我们的报告就到此结束了,再次感谢大家,感谢主持人。谢谢吕教授,我记得了您的你牛平台,谢谢,好嗯好,感谢吕教授的精彩分享哈,在这里呢,插播一个小小的小小的这个福利惊喜,本次活动呢,还其实还为大家准备了腾讯云TFS和龙讯的mlo的免费体验资源的申请,然后希望领取的小伙伴呢,可以扫描待会嘉宾演讲过程当中页面上的二维码,然后填写一下大家的资源需求来申请一下资源,如果那个二维码访问呃,出现异常的话呢,待会儿我们的会议小助手会在聊天区各个直播间的聊天区,包括我们的交流群里面,然后单独发送我们的申请链接,大家可以留意一下哈,在那里点击链接去填写也是一样的,好的啊好,插播结束,接下来呢,我们继续推进咱们的学术主题演讲环节。我们热烈欢迎中国科学院半导体。
51:40
首席科学家汪林旺教授给大家带来高性能计算、大数据、人工智能与材料创新的主题演讲。汪教授是大尺度多体系材料计算的世界级领军人物,美国物理学会会试、戈登贝尔奖首位华人获奖者,美国劳伦斯伯克利国家实验室的资深研究员。我们热烈欢迎汪教授为大家做报告。
52:08
嗯,谢谢大家啊,希望这个看到哈。OK,呃,我今天要讲的是高性能计算、大数据和人工智能,理才要创新。这个呃,我从这个工业软件开始讲,这个以前的工业软件都是来在一个给定的材料基础之上来设计一个飞机啦,这种大的机械,但是。呃,材料本,它对材料本身并没有特别多的啊,这个研究上面的帮助,因为材料它就是用参数来描述的,我们认为在以后的三四十年,也许。更加注重的是材料本身是新的材料研发,而材料的性质各方面,它都是以由这个原子之间的共价键形成的,所以它都是在量子力学分子的基础之上,那么我们就提出这个概念应该下来,应该是CH,就是啊这个第二代工业,那么材料创新的模式模式的话。
53:16
过去很多年,比如说这个爱迪生式的方法已经差不多有100年了,他就是通过不断的试错而得到,而现在我们面临的很多问题都有很这个急迫的需要,那么这种试错的呃方式的话也许不再啊使用我们应该有新的方式,那么就是理性的设计,那这个需要这个计算的啊。呃,这个support,呃,也就是说材料研发现在的话,公认的有三个基石,当然你首先要合成出来,然后要通过实验的表征啊,另外一个就是通过理论的计算,因为只有通过计算啊,我们才能够真正深入的了解啊,这个理解它里面到底怎么回事,才能够理性设计这些计算啊这个材料,那么什么是第一性原理的材料计算呢?也就是说也许大家很多人不太理啊,Realize这个了解到的是意识到这个事情,其实我们周边的所有的事物,你看到的这个世界上面啊,大多数你身身边的事物。
54:24
身边的物质都可以通过计算来了解甚至预测他们的性质,比如说光学电性,电学性质,热力学性质,这些都不是需要啊,实验测量也就说不需要参数,你只要告诉我元素配比等等,我就可以把它的性质算出来,这就叫做性原理计算,它是基于量子力学,而不是流的力学。啊,它是基于分子层面的。这也可以说是量子力学最大的成就,并且是人类文明的最高峰了。而这个现代这个材料计算啊,材料的研发当中,在科研上面啊,定性原理计算已经啊渗透到方方面面,从发啊这个发的文章你也可以看得到,在全球来说,三从三三十年前开始到现在,他在指数增长,所以我们中国来说也是有20年的历史都在指数增长,这个呃会呃很快。
55:23
这个是啊,他们。这个他总结了这这不贯在它每个的时候的,很少有一个人方向。
56:30
所以现在的性原理计算牢牢的掌握了第一位的这个啊position,并且它是一直在往升啊,往上增长,所以这就也说明这个第一性原理计算为什么。
57:03
那么什么是第一性原理计算?它是基于量子力学。而量子力学。啊,开始到现在几乎有100年的历史,那么量子力学本身的这个equation啊,是well understand知道的,但是它它计算起来非常的复杂,它是计算量呈指数增长,那么我们现在大多数用的叫做密度泛函理论啊,这个也是从啊,这个密度泛函理论呢,也是从60年代开始就已经提出,直到现在我们才把它到80年代开始才可以这个,嗯,这个。那数字计算,那么到了现在,数字计算就变得非常powerful。那。虽然这个在材料计算在科研市场差不多有啊这个。20%的份额,但是在工业界差不多也许只有1%。为什么有这么大的差别呢?就是因为我们现在可以计算的系统和真正工业界感兴趣的系统有巨大的鸿沟,而克服这个巨大的鸿沟,我们需要这个客服下面几个困难,一个是进一步提高这个力度,放盘的精度,并且空间尺度上面,从我们现在可以算的差不多500个原子到上百万原子,时间尺度上面从提秒,那秒到秒和小时,并且易用性上面也需要提高。
58:28
二。Overcome,就是刚才那几个问题的话啊,有也可能有三个技术会帮助我们啊客服上面的问题,一个就是密度放盘本身它的算法进一步改进,第二个就是云计算这个或者超算的啊,这个发展第三个。近几年发展起来的大数据、人工智能或者机器学习的方法。啊,我先说一下超算这个低性原理,计算在超算上面总是占据非常啊重要的地位,它啊一般来说占据20%~25%。
59:09
啊,这个是在各种不同的超算平台上面都是这样,我们也可以从这个波登贝尔奖的呃,获取上面来看这个事,波登贝尔奖是超算上面的一个啊,最大的一个奖项,那么历年来有很多年他们这个波伦贝尔奖都和这个超算有关啊,按照啊,包括这个材料计算有关,所以材料计算啊在超算当中占非常主要的地位。而未来的这个计算机的发展,它会不断的向前推进,那么但是呢,这个我们现在的这个软件呢,在这些大的计算机上面的应用,并不是特别拿上去就直接可以用,并不是属于forward,而有可能变得越来越困难,所以这就要求我们不断的改进我们的这个软件。
60:01
啊。同时的这个云计算也是这个中国发展的很多的云计算,而这些云计算很多的这个平台哈,现在不仅用到商业上面,也对将云计算投入这个硬科技计算非常有兴趣啊,确实这个也是一个非常有前景的应用。另外一方面,这个AI science它也是渗透到方方面面,因为这个是一个新的方法,我们以前都是用理性的这个方法推导啊,一步步从底层到上面,而a science很多是一个以这个统计的方法来啊,解决同样的问题,因为我们产生非常多的大的数据。而低性原理计算呢,是产生数据的一个巨大的引擎,它可以产生非常多的高质量可重复机器可读的兴趣啊这个数据,所以低性原理计算和机器学习有一个天然的匹配,比如说我们这个农信公司的这个一台这个MC在跑,我们PW卖这个客,一天就可以产生27万条这个从这个结构啊,Local的结构到它的N啊,它的啊能量和它的力的这样一个,呃,数据的这个关系,就72万条数据,这些都可以拿来作为机器学习,其实有两种应用,一个是。
61:28
拿来做这个数据挖掘,另外一个就是拿来做立场的开发。而立场开发就是你先算了很多地性原理计算之后得到很多数据,那么你通过这些数据来通过比如说一个new labor神经网络得到一个新的模型,那你接下来就可以不再用量子的一些计算了,而是rely on这个新的啊模型来做啊,这个比如说分子动力学的计算会大大增加它的速度。呃,农讯,呃,这里举一个例子,我们有一个农讯的机器学习立场啊的这个软件包,它包括了很多不同的啊,这个啊feature也好,也有不同的机器学习模型,通过这样一个look,我们可以得到非常不错的这个for啊这个立场,然后可以把啊计算的速度增加上千倍甚至上万倍啊depend on这个system,它可以算很大的体系,比如这个是一个example哈。
62:29
我们可以拿来做这个。可以把你看这个,这个是就是机器学习的立场来模拟这个。硅,呃,这个在融化的硅当中,它们它怎么生长出来,这个一个纸巾生啊上面它可以啊生长出呃就说呃,从那个liquid生长成crystal。呃。
63:00
这个,呃,另另外一个,我只是举几个例子,我们做过的这个例子呢,是啊。这个脆青脆就是氢会在储氢材料还是用铁,现在铁罐这个为主,而氢会渗透到这个铁里面去,那么啊,它会让那些CRA更更容易啊裂开啊,这个也是,比如说这个有氢的情况,这个是没有氢的情况,你看有氢的情况就打开很多,所以这个打开了一个新的方法去研究这些问题。而我们刚刚才说到另外一个很重要的就是这些核心的算法,那么这个密度放寒的算法啊,我们的也在不断的这个提升,比如说我们这个农信公司有一个PW啊,这样一个客户,他是有100万行的代码。啊,它并且有70个这个后处理的模块,它可以算各种各样啊物理的性质啊,并且它有一些新的啊这个啊功能啊,比如说寒食密度泛寒啊恒啊恒这个,呃,这个电视的容器效应,比如说电声耦活,或者说量子输应等等。
64:15
啊,我们有70个模块来计算不同的物理的性质啊。对,这些模块呢啊,就是非常的有用,因为不同的研究小组,你说他们他们的leual property在哪里呢?他们就是知道拿一个大的这个,呃,这个计算软件算了之后,在基在这个基础之上,它有一些步骤就可以把特殊的这个物理的性质算出来啊,这也是这些外部模块的啊,这个功能,我们把不同的这些这些过程procedure拿过来,形成了这些模块。而PW慢是全球第一款用GPU加速的这个平面波软件,GPU可以让我们的啊这个计算增加差不多几十倍啊的这个功能。
65:07
Um。正因为这个GPU加速它可以啊算挺大的这个system,比如说我们现在在一个啊工作站上面,Workstation上面可以几乎算上千个原子的啊,这个用呃密度范函来算上千原子的系统啊,同时呢,我们做过了很多优,比如说和这个S是际上非常不错的软件相呢,它在很很多其他的功能,且在同样的这个计算资源上面,这个是最新版的,我们可以比要快。五六倍。啊,这是和一个腾讯云合作的一个项目,呃,刚才那个方法PW卖它的计算量和它的呃这个呃系统的尺寸三次方成正比,而有一些线性标注的方法,它可以与啊这个它的尺度呃成这个线性的关系啊比如说这四个方法,就是把一个大的体系划分成小的很多份,很多小份之后,每一份呢,用这个呃量子力学计算,计算完了之后再把这个小份的啊这个密度给patch together啊拿过来得到一个总的system的密度,那么总的system密度呢,我们的那个可松力窥型则是在总的system上面算,这样算出来的话。
66:44
啊和直接的算的几乎是没有太大的两量啊,这可以让我们算非常大的体系,比如说这个算了100万个硅原子的自洽计算用了两个小时啊,这个是在腾讯云上面用240个啊GPU来算。
67:02
它确实可以达到非常的线性化啊,就说不是三次方,而更重要的是它和那个number of process,就说你的机器越越大的话,它的计呃计算速度越快,也是成一个线性的关系,所以我们把它叫做double LIS给你的啊这个一样,这样一个方法,同样这个方法可以拿来做,比如说啊,这个器件的模拟啊,像这个也是los free df,把一个七纳米的器件拿来分而制之,来这种格格的fragment算完之后再把它们拼凑起来,得到总的。啊,总的这个system,并且呢,你可以算非平衡的条件下面,比如说有个gay voltage下面它这个potential是怎么回事。呃,这个这样一套方法,再加上我们对于量子输运的计算,我们现在可以算这个啊,上万原子的量子输运的方法,就可以拿来模拟这个纳米size的器件啊,比如说这里是个C模器件,在关的条件下面,你可以看得到它这个电子的话,从右到左这样输印过来,而在off。
68:10
啊,这个啊,这个是开这个关的条件,下面呢,它会啊这样下来,当然这个下来又过去了,这个是不太好的,没有完全关关严,这就是为什么传统的cmo的design不是特别好。所有这些呢,可以和我们的这个啊,这个M啊,这个q studio和q flow,这个是个图形界面的结合起来,让大家可以做到傻瓜式的计算,这些东西以后都可以在这个云上面得到实现。所以这是啊,这是我的报告啊,谢谢。啊,感谢汪教授精彩的分享。好,现在汪教授刚刚呃分享当中提到的pw ma这款呃软件呢,现在在腾讯云的呃材料计算平台TFS平台上呢,也已经正式上线了,然后感兴趣的小伙伴呢,然后晚一些可以体验FS平台,在上面就可以使用到这款软件啊,大家可以欢迎大家来尝试哈,而且通过这个平台也可以调取腾讯云的多款的呃云计算的资源,像呃一些微一百一百的这样的一些GP的云主机也可以直接集成调用使用哈。好的,感谢汪教授的精分享,我们现在推进下面的环节,接下来呢,我们欢迎腾讯量子实验室专家研究员郝绍刚先生给大家带来基于消息传递的抑制图神经网络的主题分享。郝绍刚博士毕业于清华大学物理系,计算凝聚态物理方向。曾先后在美国能源部、艾姆斯国家。
69:51
实验室呃阿硅谷分部,谷歌山景景城总部从事技术研究工作,2019年呢加入腾讯量子实验室,领导了多项产品研发工作,刚刚跟大家提到的TFS平台呢,也是郝博士的团队来去研发的哈,我们欢迎郝博士为大家来做分享。
70:18
郝博士,您开一下麦克风。喂,哈喽,大家好,下午好,诶嗯非常兴奋,刚才听到就是嗯汪老师以及嗯前面各位老师的汇报,就讲的讲的一些报告,感觉那个现在还是一个就是机会非常多,能够我们有很多新的方法来处理一些跨尺度问题的一个时代,嗯,我今天下午向大家汇报的这个课题呢,就是基于消息传递的一个抑制,抑制图神经网络,这个也是我们最近的时候跟那个清华大学合作的一个,呃呃,一个工作。
71:00
对,先简单介绍一下我们量子实验室,我们量子实验室是在那个腾讯在2018年的时候成立,呃,然后其实腾讯呢,它有两大实验室矩阵,一个是人工智能实验室矩阵,一个是前沿科技实验室矩阵,人工智能实验室矩阵下面的主要的那个,呃,从事的那个科研工作主要是以机学习为主,然后我们量子实验室呢,是属于这个前沿科技矩阵这一块,它跟我们的机器人实验室,然后多媒体实验室,网络实验室是同在一个实验室矩阵里面啊,我们部门大概有90多个那个研发人员。呃,来自不同的专业,它有点像学校里面的一个,呃,呃插院就是我们有呃物理背景的同学,计算机背景的数学等等,以及制药,嗯,包括一些不同的从不同的海外不同的一些地方来的,然后毕业于一些不一样的这种嗯学校,然后我们的那个宗旨是嗯。
72:02
希望能够通过研究量子计算与量子系统模拟的基础理论来能够把一些能力带入到相关的应用领域和应用行业当中。这个图可能呃,很多小伙伴都比较熟悉了,就是它是一个跨尺度的问题,在图的左下角就是我们的在那个原子和分子的尺度来描述这个世界的话,就是用性原理的方法,然后再往右往上呢,随着它的空间和时间尺度变大呢,这个问题就会变得越来越复杂,我们就会走到了呃观甚至宏观,我会接触到不同的问题,咱们就是其实我读书的时候,我看到这个图的时候,其实还没有太多的体会,然后在那个企业界,嗯,就是。就是从事了一些很实质的生产活动之后呢,我越来越感到这个里面其实嗯有实际的那个嗯问题,比如说嗯,我在SL工作的时候呢,就是一个很实际的问题,就是。
73:05
我们在那个芯片的那个尺度越来越小,呃的情况下呢,我们现在已经到了那个五纳米技术,或者是呃,甚至比五纳米更要小三纳米这个尺度的时候,呃,我们传统的很多的一些呃方法,可能就是我们传统的这种CAD技术,或者是eda的这种技术呢,它是不是还用,我们是不是要要需要把量子力学的方法考虑进来了,呃结合最近美国对我们这个14纳米以下。这些就是软件的一些,呃呃禁用啊等等这些政策考虑呢,我觉得就是像那个汪老师,他刚才提到他们公司在做的QCAD这些软件,这些方法都是非常非常实际,非常非常关键的一些技术,我们就拿那个,呃,就是synois这个,嗯,Eda公司来说吧,他其实在量子这块其实是有一些布局的,他们之前收购了那个丹麦那个A这个公司,也是在那个原子分子尺度做疏的一个公司,所以呢。
74:11
就是我们在从那个原理出发呢,就是在做这个计算的时候,在原子分子尺度来观察这个世界的时候呢,就是我们的这些方法就会变得越越来越重要。嗯,当然DFT也面临非常多挑战啊,就是在做那个大尺度的一些问题的时候,比如说我这列的有一些,还有就是在我们研究合金问题的时候,我们会非常关注,比如说一些呃,缺陷呀,或者是一些无序体系,因为它会牵扯到一个我们在做一些,呃,做一些比较大的一些金属材料,比如说航空的这些材料的时候呢,如果它有一些呃。呃那种滑滑移的这种界面呀等等,它有很有可能会会呃会使得这个系统呢,会有一些比较比较大规模的failure,包括我们在做一些多元合金这种呃体系的时候呢,DF都是不太容易处理的,因为呃在我们传统呃我还记得在01年02年我我读P读书的时候,那个时候我们的呃做DFT大概也就是几十个子就已经是呃算的是非常大的体系了,还有像下面我们看到的这个。
75:24
在一些呃,就是呃材料的表面界面问题呢,也也都是需要非常大的算力的,呃,包括一些抑制系统,还有现在比较时髦的这个t t material就是这个石墨烯的这个呃,转角问题。其实我们呃量子实验室在呃研究这个机器学习怎么样结合DFT能够使得推动这个大尺度的这个问题呢?呃,我们主要是呃考虑在两个两个嗯方面有可能使这个问题得到加速。一个是。
76:02
传统物理的仿真算法里面,我们能不能从数据测把一些机器学习的算法加入到这个,加入到这个里面来,就比如说呃,像呃清华大学徐徐勇老师他们那个组,呃发展的那个地绵通的方法,它实际上是把那个绵通的矩阵呢,用机器学习的方法,用一个神经网络来拟合,拟合了以后呢,它用呃,它用一些比较小的一些系统做一些片通信的采样,然后把它连起来,形成一个大的系统,这时候就可以得到一个全局的绵通,这样的话,我们就直接把这个绵通信进行对角化,就可以得到它的波函数和呃本征值就是它的那个。包括它的那个能带,就是这样一些信息就可以得到,所以它是在一个,嗯,它是在一个定性原理的框架里面呢,我们把它的一些物理的一些potential呢,用记忆学习的方法来取代,就是类似这种方法,我们叫做我们我们把它归纳成一个呃,赋能传统物理的一些算法。
77:06
嗯。这样的一些做法,就是说呃,你在得到了一个model的时候呢,就是它的你这个模型的那个可解释性啊,泛化能力是会比较强的,呃,你呃就是一些,呃我们比如说我们通过这绵通念一个学习的,嗯,你这个寒绵通得到了波函数之后呢,我们就可以算很多它的一些响应,然后这样的话,就整个这个物理就是可以串起来的,但是另外一方面,在另外一些场景底下,就是在这个方法二向右边呢,呃,很多时候呢,我们是不需要知道它这个,呃,它这个系统里面的细节的,可能我们并不需要知道那个它的它的一个可解释性,它只要是个黑盒子就就可以了,比如说我们之前有一个工作就是。呃,希望能了解到一系列小分子,它的一些从结构出发,对应的一些物理性质的关系,就是我们通常所说的构效关系,在这个时候呢,我们有可能是不需要知道它的一些那个呃物理的细节,这样的话,我们就可以直接把这些小分子用一些神经网络呀,或者等等一些建模的方式呃来描述这些小分子,然后比如说对它的一个能级ho的GAP呀等等这些,呃物理量呢,进行进行一个嗯。
78:28
学习,然后通过这种学习呢,我们就可以知道我,诶我给它一个结构,或者给你一个分子,你可以直接的就知道它的ho,或者是由此可以推导出它的一个光吸收谱等等这种特性。所以这种这种方法呢,它的好处就是我们其实不需要一个物理模型,而且那个适用的场景可能是比较广的。好,那么就是嗯,来嗯说一下,就是我今天想要讲的这个主题呢,就是我们用呃,我们在那个图神经网络的这一系列的工作的基础上,我们在叠加了一层图神经网络是那个比较早的时候是在应该是2018年这篇paper,它引入了图网络,就是说呃,我们对这个系统呢,是可以用一个图来表示它,就是呃对一个分子,比如说呃或者是一个固体的系统呢,每个原子。
79:23
把它嗯认为是一个图的一个顶点,然后有相互作用的这些原子之间呢,就是用一个边。来来做一个图出来就就可以了,然后呃,最开始的时候,嗯,他先引入了基,然后呃,把那个原子之间的距离呢,引入它的这个空间里面来,然后来描述它这个图,但是后来又出现了这个ne。这个呃,D出现呢,就是把那个三体之间的那个,就是原子跟原子之间的,它那个角也也很显的引入到了这个里面来。
80:01
然后再之后呢。有这个P,这个做法就是。是把这个时间复杂度呢,从on的三次方优化成了on的平方,就是我不需要去呃计算所有的这个这些键的角度,而是把这个呃,把这个呃键之间的这个矢量呢做一些,就是内机,然后求和,所以这样的话就可以提升这个计算的效率。嗯,下面讲一下就是这个,呃,Message passing就是一个消息传递,它是它是怎么来传递呢?我们先看上面这个这个图,它这个在这个圆圆圈里面啊,我们如果假定有这个两个苯环,还有外面凸出来就是几个两个吧,原子,然后在这个pass,在在这个message passing的过程中呢,有有几个,有几个事情我们是必须需要的,第一个就是定义。我们需要pass,这个message是什么?
81:01
所以就说呃,我们在看下面这个第一个函数的时候呢,就是我们可以把它每个顶点的那个feature呢,写成一个一维矢量,然后把它那个呢,就是下面下面HW呢,就写成那个另外一个矢量,然后它的那个的信息,就是这个顶点和它那个第一近邻编的一些信息呢,然后也是呃,用一个。呃,Gnc把它连起来,我们可以看到这个呃呃,W是属于这个这个V的,就是所有这个顶点的它那个呃,Neighbor的呃里面的一个呃呃集合。然后呃,这个是我们对这个message的一个定义,下面就说,呃,在这个passing的过程中,我们怎怎么样把那个近邻的这些信息传递到我们所关心的那个vertex,就是那个顶点上面来,它其实是一个agation,呃,假定我现在考虑这个蓝色和这个红色两个顶点的话,也就是说两个原子,那么在第一次passing的时候呢,我就是把第一个它最近邻的这个neighbor,比如说这个蓝颜色和下面这个红颜色的这个消息呢,就可以传递到了我所关注的,呃,最左边这个图的这个呃,相应位置的这两个原子上面来。呃,这个紫颜色呢,是因为它同时是这个蓝色和红色的,呃,Share的这个neighbor,所以把它标做一个紫色,然后呃,在这个过程中呢,我们是可以选取你想做多少级的,嗯,这个avigation如果你想做两级的话,那你就可以有一个两次一个ing。
82:39
就是呃,比如说在第二级的时候呢,像这个就是它的第二的这个,这个嗯原子也会被呃考虑进来,其实这个呃看上去比较复杂,但是实际上在实操过程中,它就是一个近邻矩阵的问题,然后这个hopping有点像那个,就是我们在算这个moment,在算那个ho的时候呢,就把它求一个积就可以了。
83:02
呃,然后在这样的那个极点底下呢,我们就得到了呃,描述这个这个分子的一个数学的形式,然后之后呢,把它作为一个input,把它feed到我们正常的一个al network里面去,然后训练整个系统,呃,最后我们就可以得到呃,就是我们针对某些物理量啊,训练整个系统,然后最后我们就可以得到我们相应想要得到的那些呃,一个呃,呃。Model。就是前面是简单介绍了一下这个message passing,就是基于这个passing的这个G,那么我们在这个工作里面,呃网上加了一层,就是怎么样来提升他这个performance呢?就是呃这个最初的考量其实是基于咱们在做那个呃经验是potential的时候呢,我们是经常会想到一个,比如比如说pair potential它其实我们如果对这个,如果是一个比如说AB或者ABC这种多元的这种材料的话,我们如果只是考虑一个呃把他们呃全部做相同处理的话,可能不是特别恰当的,所以我们这个时候要引入呃,对于不同种类的原子,呃要对它进行不同的处理,其实如果比较精确的来做这件事的话,应该是它应该是不同的pair。
84:29
呃,对这个不同的pair呢,我们应该有不同的一个是的,呃,对它的potential有一个不同的model来描述它的这个potential,甚至说对一个单体,比如说对以为顶点,呃,BA或者BAC这种这种呃。不同的环境底下呢,就是对它的对对这个顶点原子的那个相互作用式呢,可能也会不一样,需要一个不同的model来拟合。所以如如果我们考虑这个不同种类的原子在这个呃,在这个图里面带来的不同的影响的话呢,我们其实有呃,其实精确的考量的话,是应该把它按照那个class potential那一套把它来拆分出来,但是这带来一个问题,就是说呃,假定说我们呃,以这个B图为例啊,我们如果只考虑AAA。
85:20
或者是这个B图,这个最右边这张图BAC这样的话,呃,我们在呃在这个系统里面呢,就是类似于这种数据的那个数量就会非常非常的少,这就会导致我们在后期的学习训练的过程中,引入太多的,引入过多的一些呃一些呃,Noise。所以这时候我们就把它简化做成一个以顶点来区分的,比如说我首先以A为顶点,那么所有我不管它近邻是B还是A或者是C,不同原子对它的这个message pass进来,我都给它求和做一个avig。呃,我想要区分的只是说以这个顶点的种类呢,把原来的那个图,比如说一个图,我拆成了三个图,就现在是以A为顶点的一个子图,这个是以B为顶点的一个子图。
86:12
然后这边最右边是以C为顶点的一个子图,每个子图呢,我所关心的它那个vertex就是它呃,它聚聚合那个呃,Message的那个种类就会不太一样,诶这个呃主要的思想就是这样,大家如果想看那个具体的做法的话,可以去参考我们呃发的这篇paper。我们的所有的代码和一些呃,做的细节都也是开源在了那个get上面。然后就讲一下这个这种做法以后,它带来的结果就是这张图也是看到,呃,也是比较了,呃,我们这个做法就是嗯。就是在红框的就是呃这些数据啊,就是它的这个误差跟其他几种呃就是嗯传统的基相比。
87:04
首先我们对对比的是是这个M17这个数据库,它是八个小分子啊八个小分子,然后在那个500K的情况下做了性原理MD,呃数据都是一些呃公开的数据,如果大家呃不是对这个数据还不太满意的话,你自己可以重新用那个D来跑这个MD,然后来做你自己的训练,所以我们在很多的指标上呃都都有所呃。提升啊,比如说像这个总能和力,这个总能就是我们,呃,你和这个系统,那个系统的总能这个力就是我们把那个每个原子上的力跟那个DFT算出来那个力做了一个比较,然后嗯,它的这个error,所以可以看到就是这个这个精度也是做了比较大的提升,所以呃,用这个用我们的这个做出来的这个。呃,Model呢,它可以很好的来描述这个系统啊,所以用它来做一些,呃,第一原理精度的这个分子动力学应该是没有太大问题了,所以我们就可以把我们研究的这个体系的尺度呢,从比如说几十原子,上百原子提升到上万或者更大这样的体系,这个是MD17这个数据集,另外呃,QM9这个数据集呢。
88:16
它是有那个,呃,134000个小分子,它主要是碳氢氧氮这些有机分子相关的一些那个跟他们的一些物理性质相关的一些数据集,嗯,在这个结果里面我们也可以看到,嗯,包括跟那个。前面net还有APIN这样的结果相比呢,我们也是有大幅的提升,在呃,包括像啊等等,就是这些物理量上面。然后不光是我们不光是对这些小分子体系做了,呃,就是看了一下它的性能,我们同时也应用在了一些快体材料,像这个CC的铜啊,还有啊硅等等,包括三氧化二铝,呃,一氧化碳等等这些体系里面,我们也可以看到,嗯,在那个总能跟那个原子上面的力等等,就是很多,就在大部分提一下,可以说是几乎全部提一下,跟那个benchmark的数据相比,就是DP他们做的一些奔驰mark数据相比呢,我们都有提升。
89:23
然后我们最后做了一个这个嗯嗯,一个二维体系,然后也是先是呃先是把这个超包呢做的做做做它的那个嗯分子总理学的那个嗯model,然后来拟和得到了之后,然后就可以算它的这个生子谱,嗯和那个呃function也跟那个结果比了一下,其实还是符合的,还是比较好的。啊,就前面就是关于科研这块,如果大家有兴趣呃来呃试一下的话,其实我们呃所有的计算细节和我们的代码都都在前面刚才提到的那篇paper里面有,然后另外呃也借这个机会向大家推荐一下我们呃自己在腾讯云上面搭建的一个材料真平台,我们也是在这个平台上面呢,把vas呃跟那个GPU结合也是调的比较好,呃像那个我们现在基本上可以算到上千个原子这个数量级没有太大问题,而且刚才也像汪老师提到的那个他们的那个PW这款软件呢。
90:29
嗯,也在我们的这个平台上是有的。并且呢,我们跟嗯汪老师合作,我们也在腾讯云上面用240块V100的GPU显卡做了并行计算,在几个小时之内的时间里面呢,我们做了一个呃,100多万个硅子的DFT计算,其实这个我觉得是非常了不起的一件事,像那个汪老师他们也是在做QCAD这件事儿,100多万这个,呃这个量呢,大家可以估算一下,它大概相当于一个十到20纳米的一个呃,Nano particle,所以他在我们这个摩尔定律呃已经走到快到极限的时候,量子要进来的时候,我们正好可以接上这个。
91:10
嗯,这一页PPT简单介绍一下我们自己开发的一个TTFS原理平台。它里面我们有一些那个UI,你可以通过呃这个前端的UI呢,做一些建模,可以看到原子和分子这个结构,然后在跑完你的任务以后呢,也可以我们自动可以把那个DOS和那个呃,包含就是嗯structure都帮你画好,然后我们也有一个高效的一个论文协作的一个这块大家可以我们可以满足十个人同时在线编辑一个late论文。同时呢,对,对于一些比较啊厉害的用户,我们也有一个这个功能。如果大家有兴趣的话,可以扫左边这个码,或者是发给我们。最后就是有感于咱们最近这个重庆的山火,我觉得其实事情总是非常困难的,从那个嗯,就是别人不给我们用一些呃,Software,然后包括我们想要解决的问题,本身也很困难,但是我们总有些人是跑在前面的,好,谢谢大家,这是我的分享。
92:19
好的,感谢郝博士的精彩分享啊,对量子实验室的研究内容还有他的平台感兴趣的伙伴呢,可以在微信当中公众号直接搜索腾讯量子实验室,可以关注一下呃,我们的公众号哈,然后回头咱们今天会议当中的一些精彩内容,我们会把它剪辑好,然后呃,在公众号的时候呢,也会给大家做一下这个传播,然后有任何使用问题也可以在公众号留言和我们量子实验室的同学们来去交流哈,好的啊,那我们赶快向下推进,期待下一个主题分享哈啊有请英伟达解决方案架构高级技术经理张瑞华女士给大家带来英伟达GPU加速材料科学研究的主题分享,张瑞华女士呢,目前在英伟达公司负责呃高教和科研行业及能源行业的技术支持。她的主要研究方向包。
93:20
包括GP系统架构设计,高能计算、深度学习与科学计算、深度经络优化等等啊,我们有请张女士为大家开始分享。啊,那各位老师,各位呃呃,各位专家,大家下午好啊,我是来自英伟达解决方案架构部门的张瑞华,那么今天特别荣幸啊,能和各位专家一起来探讨,就是材料科学的前言,呃,那我前面听了各位老师的工作,觉得就是非常非常impressive的这些工作,那么各位老师从他们的呃专业领域来介绍了他们的这个前沿的工作,那我今天可能绍的角度会有些不同,我们主要从计算平台的角度来看如何去加速或者说更好的来支持各位老师的这个相应这研的今的G加学的研究,首先。
94:25
我们先来看这一个整个大的这个umbrella,就是材料科学和工程,它到底是一个怎样的范,那么材料科学其实主要的话是cover这些新材料的设计,还有发现,那么科学家们主要的话是在研究这些材料他们结构,然后性质,还有性能这些内在的联系。所以有人说,那么材料科学其实是从微观到宏观的一个美妙的艺术。嗯,那么从这个材料工程的角度去看,材料会分成很多呃,不同的类别啊,像刚才就是我们前面的嘉宾已经分享了的,就是比如说像啊,有一些是就是金属相关的,还有这种无机非金属的,然后高分子的,还有一些复合材料等等,那么谈到材料,一般大家都会谈材料的只有四要素,那么包括结构,就比如说它从微观到宏观的这些结构,然后它的这些特性,它的电,然后还有光学等等的话,这些方面的特性,还有它在某一个特定应用场景下的性能表现如何,还有的话就是它的加工工艺,这个我们称为材料的四要素。
95:44
呃,那那其实的话,我们的一个材料,它在某一个特定领域能够被使用,它的这个性能主要是取决于它的特性,那么它或者说它的性质,那它的性质的话是由它的结构来决定的,那我们又通过加工工艺的话来去改变它的结构,所以这里的话,我列出了一个就是在右边嘛,我列出了一个就是整个。
96:10
呃,材料科学一个非常典型的这样的一个工作流程,就是我们去,呃,比如挑选一个领域,然后来设计这个材料,比如说是一个仿生学,可能跟骨骼相关的一个材料,或者说呃,像前面有老师提到的就是那种和相关的材料,或者是半导体的这种材料等等,那么呃,这些这些场景的话,其实就决定了它需要哪些特性,然后光啊,电啊,这个那个啊,还有导电性啊等等这些特性,从而的话,我们就会去筛选大量的这种。嗯,可选的材料,那么之后的话,我们就会不断的去改变那么它的结构,然后去预测它是否具有我们需要的这些性质,所以这个过程是需要大量的迭代的,所以在整个材料科学过程中,其实在这个部分里边,那么计算科学是可以给他提供非常大的支持的,然后这样的话就是我们就可以来加速整个材料科学的这个,呃,研究么。
97:15
我们讲到那在GP这个计算平台上面去加速材料计算科学,材料科学的研究的话,那么主要的话会分为这种这这三个主要的手段,那么第一个的话就是高性能计算,也是前面有老师提到的,就是我们这种传统的啊,基于。然后还的话,就是现在新兴的那个非常时髦的用AI的方法,然后来进行这个新材料的这些发现,然后嗯,还有的话,就是我们认为可能大有可为的,就是把两者结合起来,就是HCAI,或者我们是AI science AI material science这样的那个一个新的研究领域。
98:03
的话会介绍呃做的一些工作,然后的话,另外的话就是最后的话会给大家介绍一下我们为材料领域提供的这个资源包。首呢绍一和模拟的,呃,就是一部分,那么在这种多度的物理过程模拟的过程中,其实我们都要遵循相应的规律,那么从微观到宏观,然后这里边我们都要遵循。它相应的物理规律,同时的话,这里面有非常多经典的这个方程,也有经典的这些解法,那我们可以看到其实材料材料科学的话,它的跨度其实是蛮大的,所以的话,根据这些侧重点的不同,应用场景的不同,这个模拟尺度的不同,其实材料科学的应用真的说是就是多种多样的,或者说是丰富多的,那么下来的话,我会介绍呃三个应用,就是在GU的平台上被加速的非常好的料科学的应用,供大家借鉴,那么首先的话就是S,其实前面很多的讲中那个都会一个base,大家的很多工作都会跟S去对比,就是因为S它也有个一个比较悠久的历史,而且的话,它在整个材料科学中的话,呃是应用非常广泛的。
99:42
呃,那么S的话,它其实是基于这个量子力学的,然后呃基于原理,然后呃有这个实现了这个DFT的这些算法,然后它的呃就是模拟的规模的话,一般是在小于1000个这样原子的一个这样的一个规模下来工作。
100:05
那么我们可以现在看一下,就是呃的话,其实已经跟进SP这个软件有很多年了,然后一直跟进他的这个开发者社区,然后在不停的呃帮他们来加速SP这款软件,那么呃,SP这个呃6.2这个版本实际上是我们一个非常重要的一个里程碑,大家可以看到其实呃可能有很多学者曾经用过S之前的这个软,就是我们之前的这个版本,原来的话可能在G上面的性能表现的并不是那么优异,那么其实呃我非常强烈的推荐您,然后升级到6.2这个版本,因为6.2这个版本可以说是一个里程碑式的版本,那您可以看到这个是这个was里边大部分的这些求解器,还有算法,然后模块等等,基本上大部分都被GP加了,可能只有少部分的话,正在这个加速的这个road map里。
101:03
然后。我们可以看一下现在是wasp的话,在GPU上的一个表现的情况,左边的话是单节点的一个情况,我们可以看到从一块两块四块到八块卡,然后其实比这个CPU的话,其实已经有了一个大幅的提升,同时我们做了一个SP6.2和SP之前版本的一个对比,也可以看到6.2这个版本的话,实际上的话,它表现的话会更加优秀,那么。右图的话是一个在多节点上面的wasp的一个,呃,一个加速的一个情况,我们可以看到这种线性的加速比到八个节点还是表现的非常好的。那接下来我来介绍一下QE,那么QE的话,它是一个就是就是纳米,纳米级这个,呃,电子结构这个材料建模的这样的一个软件,它跟S呃的原理其实是一样,它也是基于量子力学,然后第一性原理这些,然后呃,但是它和SP最大的不同就是SP是个商业软件,然后但是Q的话,它是开源的,然后全世界的这个研究工作者都可以免费的下载来使用。
102:14
那么我们看现在是就是Q在G上面的一个加速的情况,那随着其版本的更新,我们一直在这个就是加速,呃,QE里边的主要的模块,那么现在呃,比较常用的像这个PWCF这个模块的话,已经都做好了移植,而且并且做好了优化啊,所以使用这个PWCCF的话,会到一个那个很好的体验,那其他的一些模块,其他的一些重要模块,像CP啊等等这种的话就是已经有了移植的版本,但是可能还没有完全优化完,所以正在正在优化的过程中,所以就是请您可能关注QE这个版本的一些更新,您往往的话可能用到最新的版本的话,会墨进去我们很多加速过的这个工具包。
103:07
那么呃,这边的话是Q的一个性能表现,左边的话是就是单节点上我们可以看到,那么我们一块呃利亚的这个A100,其实基本上可以相当于224个,就是CPU这样的一个计算能力,就是CPU和GPU的一个对比啊,那么在多节点上,那么右边这个图的话,实际上它是一个就是更大的一个算力,它需要在多节点上并行啊,那我们可以看到那么七台DX。呃,A100就是每每一个DX上面的话,是有八块那个A100的这个GPU卡,然后基本上的话,它比100,呃是104,就是双的CPU server的这个群的性能还要好,那么同样数量的比,就是26D的GPU和26台双CP的这个的话,就是您可以到一个8.5倍的这样的一个加速。
104:09
那么最后的话,我们来看一下lamps,那么lamps的话也是一款,呃,就是那个。可以说是top的这种,呃,HC的应用啊,也是材料科学里面应用非常广泛的一款应用,然后它也是开源的,免费的,那么呃,它主要的话会做这个原子和分子尺度上的大规模的这个模拟,然后它和前面两款软件的不同是前面是基于这种量子力学,薛定谔方程的,那么呃的话呢,它是基于牛顿力学的,那么所以的话就是。工作的,它可以工作在这个就是分子模拟的这个,或者是更大尺度上,所以的话,它的应用领域的话。不光在这个,呃,计算材料就是材材料方面,然后它也可以工作在这个分子生物学方面,呃,所以lamps的话,您可以通过就是GI来下载它的这个版本,然后呃,在N的这个NGC上面的话,我们已经优化好了,就是在GPU上面,就是优化过的这个GPU,呃,这个lamps的版本可以去下载这个docker,然后来使用。
105:24
呃,使用lamps的话,您可以使用这个KOKOS的这种实现方式,那么KOKOS的话,它支持就是GP和多核的这个CPU,然后来呃,呃就是混合的这种方式来计算,然后呢,呃大部分的这种计算,比如说像呃这种pair啊,Fix啊,还有这种compute的话,都卸载到了GPU上面,所以的话您可以得到一个非常快的加速,呃,那么这个下面的话我们列出了就是呃这个G。可以支持的这些计算的包,你可以看到基本上大部分的包,嗯,都是可以在GPU运算的。
106:08
那我们来看一下lamps的性能,LAS可以说是一个一款优化非常好的这种分子动力学的软件,那么在这个我们可以看到就是一个节点上如果有两块A1的卡,它基本上可以等于就是38个呃CP的这样的一个CPU的,那么我们的1D也就是一机有88A的PU,那么它基本上相当于三十一百四十三个CPU集群的这样的一个CPU的算力,那么右图的话是。我们的一个多节点上就是并行的一个情况,那么是一个8000万原子的这样的一个规模,然后两个不同的市场,您可以看一下,就是我们这个nchmark的这个结果,嗯,在就是多上的这种线性加速比也还是不错的。
107:03
那么前些日子的话,我们团队的话,正好是做了那个研啊,然后深度的分享,然后也有一些就是动手实验的过程,如果您对我刚才介绍的三个应用感兴趣的话,您可以在这个part one中看到SP和lamps的这个介绍,在part里面的话有Q的介绍,然后您扫码的话,就是可以看这个回放的这个课程。那么接下来的话,我花几分钟的时间,然后稍微介绍一下,就是AI sense,那刚才其实很多老师都分享了他们的这个前的内容,那么其实我比较推荐大家可以去读一下这篇综述,这是呃,今年四月份发表在nature刊上,就是这个utal material上面的一个综述,它介介绍了深度学习的方法在材料科学领域的应用,我这里的话简单的就是摘取了几个例子,比如说这个是通过来预测这个原子的这个结构,然后来直接预测它的特性。
108:09
然后使用了这个图神经网络,然后呃这个呃一个的话是这个CV的这种传统的这些模型,然后在材料领域的一个应用,它是做的它它的这个工作的话,是做了一个杂质的一个原子级别的一个分割。那呃最后这个的话,它是一个NLP的在材料科学方面的一个应用,它是收集了,就是近几年来大约呃在呃3000多个期刊上面,呃啊1000多个期刊上面,大约300多万个这种他们的这个摘要,然后做了一个NLP的分析,然后的话就是从这个大量的这个文本数据中去做这个呃知识的,然后来预测那个新材料的这个发现,然后来发现一些有潜力的,这个有价值的,呃就是可选材料。
109:03
那么呃,最后的话,我们来分享一下HC加AI,这个是现在非常火热的课题,也是AI science,然后那个一个新的方法,那么MD的话是一个非常好的例子,那么它也是这个贝尔奖的获得者,然后。我觉得他最大的贡献就是把HCA做了合,这样话就可以做规这模拟。呃,那么其实我们的话是为这个AI science提供了非常丰富的工具包,叫做这个Mo啊,您可以就是这个里边的话会有非常多的这种工具,比如说P,就是物理信息网络等等,然后一些福利算子啊等等这些内容都会就是在我们这个包里,您都可以去调用,那么呃,现在的话就是使用P或者说物理信息网络,那么现在在流体啊,还有这个天气啊领域的话都得了,得到了这个突破性的进展,就是我们展望哈,在材料领域使用片,或者说使用这种物理信息网络,还有这种,呃,传统的。
110:16
计算模拟和深度学习相结合的方式,一定的话会有一些非常亮眼的工作出来。那么最后的话,我来稍微罗列一下我们为这个材料科学,呃,可以给您准备的这些这个资源包吧,首先我们有hpc的SDK呃,来加速,您需要就是做计算模拟的这些经典的算法方程,然后呃,其实我们的这个。这我们的这个技术人员哈,其实是一直跟着这些材料的应用的这个开发者社区,然后和他们来一起工作,然后帮他们优化,在计算平台上来优化他们的软件,就是如果您有一些house的软件,然后需要的工程能够帮您在平台上做优化,我们非常欢迎来联系我们。
111:06
然后另外的话就是我们有这个全站的AI的软件包,然后在各个场景和这个模块化的这个软件包可以来支持您的这个AI的算法,来加速您使用AI的方法。在材料领域的。那么最后的话就是这些加速材料,计算的这些能力,还有AI的能力的话,全部都用我们的GPU来承载,您可以通过购买我们的DX服务器,还有的话,有我们的合作伙伴提供的GPU的server,还有我们的云服务的提供商,包括腾讯云等的话,您都可以得到这个GPU的算力,还有我们刚才介绍的这些加速过的这个软件。最后呃,就是我们预告一下,就是我们的技术盛啊,GTC大会将在今年的9月19号到22 22日的话举行啊,届时的话会有这个图灵奖的获得者,然后还有我们公司的非常资深的这些技术大咖哈,来介绍我们前的这个工作,然后包括A和HC,然后材料科学也会是我们一个非常重要的内容,然后也希望能够关注。
112:17
啊,谢谢大家,我的分享就到这。谢谢张女士的精彩分享,英伟达呢也是腾讯云非常重要的产品合作伙伴,腾讯云的GPU云主机系列搭载了英伟达的多款的这个显卡产品哈,而且呢,我们提供说包年包月,按量计费,甚至是竞价模式等多种模式啊,欢迎大家来腾讯云体验使用哈。好的,嗯,接下来我们进入今天学术分享的啊一个非常啊就是重磅的一个环节哈,我们邀请有非常有幸的邀请到了清华大学物理系长平教授,然后日本理化学研究所兼职研究员,国家结清基金获得者徐勇教授,清华大学深圳国际研究生院副教授,博士生导师邹小龙教授,浙江大学谢昌瑜教授,中国科学院深圳先进技术研究院研究员,博士生导师赵海涛研究员,然后和我们一起哈,展开关于人工智能与交叉科学研究相关的一个。
113:21
圆桌论坛环节的主持人呢?是量子实验室的专家研究员郝绍刚博士,下面我就把主持棒交给郝博士和各位专家。哎,好嘞好嘞,嗯。非常感谢露露,就是我,我其实可以在补充一句,我们刚才呃,在我的那个呃讲的那个PPT里面,所有我们做的学习的工作都是用Nvidia的卡来那个嗯训练的。今天非常开心请到了我四个朋友,呃徐老师啊周老师,谢老师跟嗯嗯海涛老师,我们我们四个人来聊一下,就是这个机器学习这个这个呃这个方法呢,就是在我们各自的那个呃研究领域中都提到了,都提到了哪些帮助呢?呃下面要不要咱们呃四位老师先简单介绍一下大家各自的那个研究的领域啊,我觉得呃咱们咱们顺序怎么定,咱们咱们alphabet吧,要不呃Kim老师先。
114:23
谢老师先来。哎,好的好的啊,谢谢赵刚,还有啊谢谢这个李俊这边的邀请,那啊在我的领域啊,基本上是属于这个计算和理论化学的这样的一个范畴,那我主要关心的呃学术问题是啊怎么去呃理论上去理解这些啊分子之间的相互作用,然后呃开开发一些前年的模拟算法,那包括能够模拟这些呃化学的呃化学动力学等问题,然后呃,那最终是希望呢,呃得到的这些理论的知识能够帮助我们呃更好的开发呃材料与呃像药物一样的这些药物设计等问题。那我这几年呃可能更关注的会是一些前年的呃计算的方式,譬如AI啊,还有量子计算,怎么去模拟化学系。
115:19
好嘞好嘞,呃,听上去非常exciting啊那个呃徐要不讲一下徐老师你讲一下呃,介绍一下自己的那个科研领域啊。呃,各位老师,各位观众,大家好,嗯,我是来自清华物理系的徐勇,我的研究方向主要是计算研究物理,呃,具体一点是我们因为上面提到的地线原理,原理的一些计算方法去,嗯做材料的计算与设计,主要的目目的,因为我在物理系,我们主要还是想去探索一些新的量子效应,去设计一些新型的量材料与器件。我们所用的这个第原第一原理方法呢,其实说起来比较简单,它是不需要任何经验参数的,可以从量子力学的基本原理出发,然后去预测材料的性质,这个在物理里面,其实在不管是物理、化学材料,包括现到生物领域都是非常重要的。以前在物理里面基本上大家提就是要提理论和实验,嗯,就是计算,更多的是一个辅助性的手段。
116:20
但现在,尤其是在这个呃基本理论,包括后面要讲的密度方胺理论发展起来之后,很多一些第一学的计算方法,嗯,能够实现比较高精度的计算,再加上这个计算机呃和计算呃软件硬件各方面的发展,我们可以的确可以做的比较,可以越来越比较大的体系,比较实际的体系,呃所以在呃,在我们物理领域里面,现在非常嗯重大的变化就是这个计算已经开始变成一个比较独立的研究领域,呃以我现在研究的领域,我是托普量材料。这是我主要关注的一类物理上非常新的材料,呃,基本上嗯,现在我觉得可能95%或99%以上的这种材料都是先要理论,嗯计算计算,先预测出来,当然我需要结合一些理论的嗯,相应的知识就是去寻找一些合适的材料,这样嗯在这嗯后续的实验可以再呃去研究,去仔细的对比,所以这个是呃对我们来说也是让我很震撼的,我也没有预期到这样一个方法现在这么这么有用,这是一方面,就是具体的你去探索新物理性材料,还有后面嗯,更更更大的一个途径,就是可能要见到这个材料数据库,这也可能是一个比较重要的一个。
117:40
研究的方向,我最近也在参与一些这个,呃,用机器学习来嗯,做的计算,我后面会给大家简单的分享。哦,谢谢徐老师,他们,其实我们跟那个徐老师team有非常深的合作,像我刚才那个talk里面讲到的那个地名通念,这个工作其实是。
118:01
徐老师他们团队做的一个非常好的工作啊,因为我们其实正常的话在用那个基学习,可能在做那个一些那个立场这方面做的比较多,然后其在那个训练那个这个通信方面,其实徐老师他们组有非常多的这种经验。他们的那个D盘面通回头也会集成在我们自己的这个TFS这个平台上面来,嗯,非常感谢啊,然后下面要不然请那个小龙讲一下,呃你呃,就是先简单讲一下你自己的这个科研领域,然后再介绍一下机器学习是怎么应用在你的你的这个平常的这个科研科研活动过程中的。嗯,好的啊,各位老师啊,各位同学大家好,呃,我师,呃,我主要做的这个方向呢,是集中在这个计算材料,呃,就是主要呃focus在这个低维材料就是呃石墨烯可能大家都啊听过了,所以就是以石墨烯为代表的这二维材料的一些性质啊,主要分为两个部分,一个是它的这个呃,物理的部分,一个是它的这个实验的呃呃化学的部分啊,物理的部分呢,就是主要关注它的这个呃,化学和它的这个呃,它的这个sorry,就物理的部分主要关注它的这个磁性和这个呃。
119:30
光学性质,特别是呃呃激发态的这个机制性质选呃突破它的这个呃室温,室温级的这种量子态的这个应用,而这偏化学一点的部分就是还是集中于这个低V材料,就是它的生长机理,因为所谓生产就是它这个应用的一个前提嘛,它的这个生长机理的应用,生长机制机制的这个分析,以及它的这个应用,应用的话,呃集中在这个现在大家比较关注的这个二氧化碳还原。
120:03
那在这里面这个机器学习啊,其实在这个物理和这个化学方面都都会有一些应用,比如说这个物理方面的那个光谱的这个结合的预测,还有这个呃催化的这个部分呢,就比如说你对这些这个催化性能的这个预测,这个需要呃超级大量的这个数据库的这个,呃数据的积累和这个。啊,这个呃,机器学习的方法的发展。嗯,也是听上去非常非常令人兴奋,那个小龙他们组是也是主要做一些就是这种呃能源材料,然后呃清洁能源相关的一些体系,因为其实在对于这些体系的话,它其实经常牵扯到一些大的算力,像一些表面催化这种,呃像一些金属表面,然后一些吸附啊,这样其实都非常消耗算力的,如果机器学习能够在这里面能我们能比较有效的用一些model来简化这个计算,或者是使得这个计算的性能能够提升的话,那这个是我们以前呃纯做DFT很难达到的一个尺度,这也也是非常兴奋,好,嗯,海涛也也要不也讲一下你那边。
121:16
的一些,呃呃,科研工作,然后以及这个数据挖掘,还有机器学习是怎么在你的这个科研工作中,呃,获得一些应用的。好的,谢谢邵刚,嗯,我是中国科学院深圳医院赵海涛,呃,就是刚才听了邵刚和英伟达老师的介绍,就是呃,邵刚介绍的是做做模拟,然后获取数据,呃然后做机器学习分析,然后呃英伟达一个案例里面他也提到了,就是说呃把文献里的摘要呃挖掘出来,呃然后做做一个大数据的分析。然后这是两个比较重要的方向,那么我在做的一个领域,是最近一年在做的一个领域,呃,就是嗯,用机器人平台,然后产生一些高通的数据,然后再从这个高通的数据里面寻找一些规律,呃,就比如说我们把呃一些呃。
122:14
晶体晶体晶体貌相关的性能,呃,相关的征性能往我们都是用T去一个去,然后再去看们之间的关系。那我们现在做的是用光学的或者一些能够快速得到结果的信息,然后间接的去去做一个关联,然后用这样用这样的大数据和TMS这些微观的形貌,晶体的形貌,呃,建立建立关系,然后从这里面从从关系里面呃,然后通过通过大数据的体系和一些模型,然后间接的掌握晶体微观行吗?然这样的话就可以通过机器人的平台,然后和一些能够快速获取信息的这个呃,表征设备,然后进行一个大数据的这个呃。
123:15
大数据的分析,我通过通过这个机器人呃,人工智能大数据之间的作,就可以把实验呃领域也和人工智能结合起来,最近在做的是。这个这个方向,那这个方向在,嗯,就是国际上最近nature science也发了许多嗯领域的顶刊,然后就是有有其中有两个比较代表性的,一个就是就是2020年,嗯,机器机器人筛选材料,另外就是就是呃可编程材料,这个可编程材料可以是机化学,然后也也可以是这个。就是合成生物学,然后都是比较热。
124:04
呃,另外的话就是在我们中科院这边也有一个呃比较大的计划,就是将人工智能,大数据化学呃材料相结合,构建机器科学家,然后就是也是在就是怎么在在这个。记,记这个。呃,就是我们讲的科研范式,呃,就是我这个实验范式,理论范式和仿真范式,怎么去探索第四范式,然后呃,就是我想。如果能把机器人、人工智能、大数据呃引进进来,可能对第四去研究材料有进一步的推动。嗯,然后我我们课题组也在这方面做一个呃尝试,嗯稍后可以详细的分析一些案例,行稍好呀好呀,非常有意思啊,我觉得就是海涛他们做的这个科研领域是非常落地,非常接地气的,因为其实我们像我们跟徐老师,K老师,小龙老师我们做的研究呢,呃也是呃机器学习结合低音原理这块多一些,所以它本身的那个数据来源呢,是从低音原理,或者从一些呃真实理论出发来生产的一些数据,然后用机器学习的model呢,来消费这些数据,然后产生一些新的model,所以嗯,海涛这边是真正从一些实验的一些数据来出发,然后来拿到一些数据,这个其实还是跟我们呃跟我们其他这个同学还不太呃还不太一样,就是说嗯,并且呢,其实,呃。
125:44
这边我们多多少少吧,虽然我们的研究领域不太一样,但是呃,还是数据还是非常非常主要的一个,因为如果没有数据的话,我们其实没办法从里面总结出来规律,看到一些东西吗。所以能够能够感觉到咱们这个,呃,机器学习啊,人工智能变成一个不同研究领域,不同研究方向所共通的,或者说共用的一个方法啊,所以我下面一个问题想请请教各位,就说大家会感觉诶这个方法它可能是一个呃昙花一现的方法,或者是在最近这段时间可能是一个比较popular的方法,然后未来有可能会被一些被一些更加有效的方法所取代呢,还是说。
126:29
他会。它会是沉淀下来变成一个,就比如说像DFT一样,变成材料研究,或者是其他,呃,物理,物理学研究等等这些方向所必备的一个一个一个tool呢?我们要不还是先从Kim老师这边开始谈一谈你的看法?嗯,好的,谢谢邵刚,对啊,那我这边的话是认为,嗯。就比如说我我就先从我比较熟悉的,最近在呃设计比较多的像生物啊,化学药物这些领域来看的话。
127:02
其实呃,机器学习肯定是已经是变成是它不是一个应该不是这个已经不是问题,它是一个正在进行时,对吧,就是说啊假我们就先从生物好了,就结构生物学的话啊,一开始做蛋白折叠,大家都想的是如果我能够用MD follow这个牛顿力学对吧,这个轨轨迹慢慢的折叠出来这个这个结构的话,其实它应该是啊这个泛化能力很强的一个手段,但我们也知道就是呃严格的按照这个方式来的话,我们如果要达到高精度高效率的这样的一个模拟啊,它它这个时间尺度跟这个size的尺度,其实都是没有办法,呃真的做到这个,呃蛋白折叠可能大家care的这个这个复杂度的一个size,那在这个情况下,像基于纯数据驱动的这个Alpha four two其实已经是,呃,成功的看到这个有点像零到一的一个突破,那在这边。
128:03
你看你可以可以看到,呃,全球的这种结构,生物学家都在大量的使用,所以这个应该也是已经是很明确的,是它会留下来的,那另外的话,像在药物这边的话,其实可能我们现在会觉得深度学习这一套,呃,进来到这个药物研发领域的时候,看起来是啊,像是是一个蜂巢啊,一个一个一个。就是用口。一个很popular,或者是一个很sexy的一样的一个一个一个做法,但其实嗯,如果我们在看,把这个机器学习的这个角度看得更广一点,就包括这个以前传统的这一套,像SBM啊,Random forest这些这些方法跟手段都看成是机器学习的话啊,其也他们把他们就是机器学习,然后啊,其实这些方法在药物研发这边也用了非常久了,所以说呃,就大家在这些领域里面,其实都对呃机器学习这样的方法是很认可的,只不过是说现在当然深度学习有一些,但我们就希望随着时间过去了以后,呃这些真的有用的东西会沉淀下来,那这个过程呢,是之前其实就发生过了,我我也是,呃坚定的相信之后还是会发生。
129:18
嗯,但是我觉得可能更exciting的是说,在深度学习这个时代,其实啊,可能它出来的不再只是说一个一个工具上的一个新的工具的产生,它可能是像AI science,我如果真的能够像刚才大家都提到的,如果在这个物理的这个理论框架下面,能够更好的在底层上跟AI做一个融合,那我们有个呃,可解释性更好,泛化能力更好的模型,然后在这个科学范式上面有一个新的突破啊,这个可能是更exciting的一个方向。这是我的分享。好的好的,谢谢Kim老师,这个确实是从这个嗯医药这个方面来,呃讲的这个问题就是说我们可能他,呃可能它不不仅仅是个工具了,而是一种从那个数据测来,呃理解一个问题的一个个方式,所以我们可能把它叫第四范式也并不为过啊,那么下面请那个徐勇老师来来谈一下对这个问题的看法,他会就是说基于学习这件事会是昙花一现吗?还是你觉得他对我们偏理论的这方面的物理理论的嗯,研究也是一个比较长期的,可能会有一个助力作用。
130:30
呃,我做了一个为这个做了一个PPT,做了一页PPT,我可以分享一下,嗯。看得到吗?我们现在还看得到是你不是PPT啊,我看一下啊。这个我不知道。嗯,别的地方看得到吗?呃。那个徐老师你可以把PPT截图一下,在聊天区我转给大家吧,然后导演这边也帮忙看一下是否可以切的出来,嗯嗯,稍等一下啊好。
131:07
我发到我看一下啊。好的,咱们就是借借这个发PPT,这个时间我们讲一下,就是我们这个活动会回头会是一个系列的活动,我们回头会单独再请那个Kim老师,徐老师,小龙老师和。嗯,海涛老师分别在以后系列活动里面来单独做一些比较全全面的对他的这个,呃呃呃,科研工作的一些那个。给给我们讲一下他们正在做些什么东西。哎,我们看到了一个共享画面,但是好像没有,呃,没有看到那个PPT的那个页面,现在发到发到这个聊天里面了。啊,聊天区可以看得到,嗯。嗯。对,好的老师们可以听讲,我们这边先share出去,然后呃,导演是不是老师点击一下共享画面,我们现在主Q的这个就可以出现。
132:07
啊是的,需要老师点击一下共享画面啊,徐老师您在腾讯会议下点一下共享屏幕,然后大家应该就都可以看到了。现在呢啊可以看到了,您的PPT可以播放一下,就更大一些可以看到了。就刚刚上完这个问题,一个比较大的问题,但是因为我进入这个领域,嗯还比较短,所以就我个人我觉得还是这个机器学习对我的冲击还是比较大的,我觉得他大主要他是一个,嗯对我来说更多的是一个交叉学科,因为我本身做物理的,就是这个物理里面,嗯,我最近在这个研究这个托普量材料里面,物理里面我知道它这个对称性是非常重要的,而且这个物理里面就是我们要建立这个物理规律,一般我都知道它,呃,比方说。
133:00
找的物理规律它是要独立于观测者,比方它要空间平移不变,旋转不变,或者更一般的爱因斯坦广义相动力里面要局坐标变换不变,或者那个规范程度里面要规范不变。所以我要去寻找的物理规律或者物理方程,它是要满足这个对称性的要求的,对方程它要有这个斜边的要求。然后机器学习里面,你发现如果仔细去想,机器学习和物理,呃呃也是非常类似的,其实物理里面它是观测,然后你建模,然后去做预测,然后基于学习里面更多的是你你比要深度学习,我主要关注这个深度学习,它是你会给他数据,然后他嗯他学习,然后就去做推理或者去做预测,那我们研究的呃,就是刚刚像刚也提到我们研究这个D这样一个嗯,一个方法,其实里面我们嗯做完之后发现它性能很好,后面发现也是这个对称性非常的重要,大家在做深度学习方法里面发现一个很重要的就是你要非常这个时候对编程的要求不是很高,但是需要你对这个科学数数据要有比较深刻的理解。
134:07
最好是你能够比较,嗯,好的,能够引引入一些关键的先验的知识,在这里面对称性它就有要求,就是要有这个模型,要满足这个对称性的要求,要满足写变性,你一旦满足了对称性要求,它能够极大提升这个学习效率和预测精度。打个比方就是说如果你去呃识别图片的话,你一个图片转了一下之后,它也应该你认出来还是同一个图片,就类似的,我们在这边第原计算实际上做的是一个这样的事情,就是说给定一个原子结构,我去去预测它这个嗯,电子的性质,但是其中里面很重要的一个就是去得到这个DFT的含密度量,这个是一个非常耗时的一个含含密度量,我要去学习这样一个它和原结构的依赖的关系。这里面很重要的就是也是这个对称性,就是一个原结构转了之后,嗯它嗯结构看起来不一样了,就是它对应的这个哈密对量也会要相应的做一个,嗯有一个变换,这个变换之后哈密顿量,嗯那和原来的还是有关系的,就是满足一个这样斜变的关系,你如果可以让神经网络知道这样一个嗯关系,这样我对于任意呃就是我一个结构转了之后,我还认出来它是同一个结构,这让它学习效率和预测的精度能够极大的提升,所以也就是我们这个DPH这样一个程序,嗯,他做的这个事情对未来的发展,我呃,我现在主要关注这个低线的计算方法,就是去用神经网络去能够呃保持它这个经度,然后极大提升这个效率,我想这个是一个很重要的。
135:40
一个方向,对于未来来说,我完全我觉得很有前景,就是把这个第一性原理这个软件作为一个数据产生器,然后通过神经网络来通过这些数据来训练这个神经网络,最后可以通过这个神经网络来取代这个,嗯,这个嗯地源计算软件,那它就可以极大的提升我们的效率,我想对这个对未来的研究来说。
136:03
应该也会是革命性的,这样可以非常高效的去算,非常嗯,大的物理体系可以极大的拓展你这个研究的嗯范围和领域,嗯,不光是时间尺度上和空间的跨度上面都可以有极大的提升,这是我我个人一点看法。好嘞好嘞,非常感谢徐老师啊,其实确实是在咱们在那个摩尔定律从宏观向微观进发的同时,我们其实也从这个微观,从原子尺度再往上面做,希望从那个微观走到观,然后利用这种机学习的方法,再结合我们一些呃物理的模型框架也好,把它变得就更有效率,然后能够更加呃有有效的提升这个呃时间跟空间的跨度,行,那我们下来请那个呃小龙老师来呃讲一下咱们在咱们这个催化这这这个方面,呃你你是怎么觉得,因为其实像催化呀,这些清洁能源问题,因长期以来是非常重要非常关键的一些问题,而且又是在计算上面来讲,都是非常困难的问题,小龙老师他们团队也是在这方面做了非常多的努力,想听一下你,你对这个机学习的一些比较具体的一些看法。
137:15
啊,好的,呃,也不仅是催化啊,其实在材料这个领域里面,大家都在提一个所谓那个。极端的精细的制造啊,就是如果说你从呃原子的给你原子探讨原子原子相互作用,或者说原子你用生长,用这个衬底,原子衬底等你长成,比如说我们我focus呃,我关注的这些啊,成状材料,那你成状的材料的这个设计,然后钻钻材料的这呃相互作用的这些调控啊。这都是很复杂的,如果用传统的方法已经,嗯发展了这么多年,其实很难很难解决这个这个问题,所以我觉得嗯,就不管怎么说,反正就是说机器学习肯定是肯定是将来会成为一个非常重要的一个方呃,解决这个材料科学方呃相关问题的一个重要的手段,当然现在就是说还没有被。
138:11
非常非常广泛的运用,当然有它的这个难度,呃,有它的这个困难性,比如说从我自己的理解,自己做的这些工作的理解,比如说第一个是这个啊,因为你元素嘛,元素从一个元素到另外一个元素,它们之间的这个电子结构啊,它们之间变化你不是那么连续,或者说嗯,这就会造成你这种数据从一个一个材料到另外一个材料。嗯,怎么说呢,就是不是那么。很容易的就直接呃,放放过去,然后你得到的这种数据的预测,比如说你催化用不同的元素来掺杂的时候,你去把这个预测的时候,你的这个精度。就就比较难达到,比如说我们现在传统用的这个密度泛的0.11电子的这种这种级别了,比如说你现在有那个呃常用的一个open catalyt数据库啊,上面有个排行,你感兴趣的同学可以去打版啊,就是说呃现在他们用的一个好的办法就是从我初始结构我给你,我就要得到一个比较好的这个,呃直接就得到最终的这个呃final结构,就不我就我就直接跳过这DFT的过程,对对对,这样的话,他们现在能够做到的最好的呢,是大于0.3个电子的,就是说从这个精度上,你现在还是需要在呃在我们的这个嗯方法上还需要发展,比如然后嗯催化和生啊这些过程呢,就是材料的以及材料的这个运用的这过程都是一些比较多尺度的,或者说是在这个过程中会有好多外场的影响,呃,影响因素非常多,就是你有一个比较好的办法来比较好的。
139:52
从多尺度的模拟的办法来来把这个事情全部统一来来考虑吗?这个现在也也没有,就像啊汪老师前面其实也介绍过了,就可能这个AI就是一个一个很好的办法,把这个把这个东西给串起来,然后能够真正的解决,就是说材料学家可能做实验,希望就是哇,我一看,哎,我就知道他这个这个基本上诶有多好,能用多久等等这种这种问题。
140:19
啊,当然是说在整个我们这个机器学习发展的这个过程中,我们要关注的问题是要把这个问题关注到更更general,更一般性的问题,当然会更加的促进这个方法将来的这个潮流性的应用了。呃,当然另外一个最后一个问题就是这个数据库的量数据高数高质量的这个数据库其实还是比较缺的,我个人认为,呃,现在DFT的比较多,但是实上的呢,嗯,还是要说服他们来跟我们一起努力,大家把这个事情做好,才有可能把这个东西从材料研发的这个角度做成11111个一个整体吧,才能往前推进。
141:05
好的好的,谢谢小龙老师,刚才也提到非常关键的两个点啊,一个就是其实说在那个呃机学一,在精度这一块,刚才说到那个榜单到了0.3电子服可能做不下去,这个时候可能是不是咱们以前传统的一些大力出奇迹的这种炼单的方法,你仅仅从一些简单粗暴的这种model,从数据到这种呃,物理性质的这种这种呃的关系上,是不是已经不太容易做下去了,我们可能还是要希望能够在物理原理上面呃,在某些框架底下能够来指导这些数据,然后使得他那个更有效率,或者是精度更高一些,这是一个问题。再一个问题,小龙刚才提到非常关键,就是我们能不能有更多的实验数据进来,刚才提到这这种纳米。呃,纳米材料生长实验数据这块显然是海涛老师专业领域,他们做了非常漂亮的工作,就是在那个用一个自动化的一个实验设备,呃来在一个纳米晶体的可控生长方面做出了非常非常好的工作,那个是发在了那个嗯,Nature上面是吧,我我不太我不太记得表,就是在在二审,好嘞好嘞,那下面我们也请海涛老师就这个方面也讲一讲,就机器学习你觉得是一个长期化的一个会变成我们日常都会通用的一个工具吗?还是一个昙花一现的一个事儿,还有以及他在你日常工作中,你呃,你是怎么考虑这个这个问题的啊。
142:32
嗯,我觉得邵刚这问题很好,然后刚才几位老师也各自分享了各自的一一些想法,然后嗯,就是我在尝试做呃机器学习的时候,是因为李开复的一个报告,然后他讲到是各行各业加AI,还是AI去加各行各业,我想就是刚这个问题就是可以用这个这个思去回,可能去用AI去加各个行业,嗯可能会遇到瓶颈,但是如果是我们材料科学领域去加AI,我们不把AI嗯想的那么高大上,就把它当成一个,就刚才也也也在分享,可能就是会像一样是日常工具,或者像Excel表格一样,就是我们我们分析数据的一个一个一个手段,我想我想这个也也可能是一点一点,我们对呃AI能有进一步理解,加加加。
143:32
加深他的这个理解。然后我们AA进一展。然后嗯,刚才邵刚也提到,还有呃邹老师也提到数据库呃和实验数据库的问题,呃我想是的,呃邵刚也提到了,这个炼丹就是在在在过去无论是嗯我们的电灯电灯泡还是我们的炼丹,都是通过直觉与试错的方法,然后这个呃通常是劳动密集型,而且有非常大的偶然,然后又与这个做的人,可能某一个人的炼单技术比较高,他可能就是会产出比较高,或者是某一天一个错误的实验可能会产生呃正确的结果,或者是出乎意料的结果,但是这些都是都是繁琐而且偶然性非常强,然后同时又又会消耗到消耗掉大量的试剂,然后是一个非常非常漫长的过程。
144:41
那如果如果是我们嗯就是在这个基础上,嗯就结合结合这个化学合成分析手段无法满足大数据的要求,然后又把AI能做的事情,两者呃这个共性问结合在一起,我们不是从呃不是用呃AI去加材料科学,而是从我们材料科学本身的问题出发去加上AI,我想嗯这个AI会长期的去嗯不会是一个风口,会一直服务我们的工作,因为因为对于我们每一个每每一个领域来讲,无论是计算还是还是实验,然后。
145:29
嗯,如果你有一定的积累,数据的积累,那那么数据的积累就是都会机器学习可能会帮你产生一些,呃,人至少是当时立刻不能发现的规律,或者是他能解决,嗯,他他能解决时间问题,时效问题,或者是他能解决人的这个脑力的问题,或者是能解决人的这个偏见问题,然后我我想在这几个方面都会帮助我们材料科学,呃,能能更好的一步去发展。
146:08
然后这这也是我看到的一个希望,所以当时就是过这个李开的报告之后,就毅然决然的说一定要把材料科学能够加上A,然后然后进一步就是也在思考怎么去突破劳动密集型,嗯,这个然后和材料,材料科学本身它就是一个呃,数据量比较小的这个这个领域,然后。后面就思考,嗯,能不能把机器人也引入进来,因为机器人往往他是嗯,可以不不停的去朝着一个目标,或者朝着你你设定的一个程序去工作,那那所以就是说我想。这可能也是实验方向的一个呃,一个方案,然后就是我们通过呃一些重复性的机器人产生的结果。
147:09
产生的这个大数据,然后在这大数据里面去找到一定的规律,就比如说我们最近在做的一个工作,就是我们把不不同的实验条件,然后和最后得出来的这个嗯,晶体的形貌,然后关联起来,那那我们在这。实验条件和之间也发现了一定一些规律,那么这些规律就是可以我们去去定性的,去去。去精准的制备一些定性的呃,特定的晶体情况,那么同时我们我们嗯,把整个流程,然后可以开发成就是从前端数据是从文献里来,那么中间我们通过机器人去按照一定的程序去控制,然后我们把实验数据,数据建立好之后,然后我们再用数据库里已经有的一些经验,然后。
148:12
再通过,呃。一些算法,然后做一些逆向的合成,那么我想就是解决了最开始咱们提到的一些炼单啊,或者是直觉试错的劳动密集型的一些一些弊端,那这样的话,如果好一点的话,我们能能把科学家的一些经验,然嗯,就是通过code或者是数据的方式,然后赋予给。机器人或者机器自动化的平台,然后这样的话,我们就可以把我们一些呃比较好的呃配方,然后通过比较高效的方式,然后呃就是呃能够服务材料科学的发展。这是大概的一个想法,那那我坚信就是可能坚可能是,呃,AI去加材料科学会有瓶颈,但是材料科学加AI一定是不一定是长期的一个一个方向。
149:17
好嘞,嗯,非常感谢海涛,这观点也是我们其实就是机器学习和人工智能,应该是为我们这些基础学科来服务,他是我们这个工具提供一个非常强大的一个屠龙刀一样,我们可以去砍以前砍不动的事情啊,这个并且是嗯,你们实验室我其实参观过,对你实验室我其实参观过,非常impressive,从那个自动化的这种做实验,然后数据的自动采集,一直到后期,它其实打开了一种想象力,就是我们可以,呃,除了在那个不用人为操作它的安全性各方面以外呢。还可以由数据驱动本身通过数据测测,然后让机器学习来学到一些东西,然让他来决策,我下一步实验应该怎么做,这个配比应该是什么样的等等,这些是其实是非常非常先进的一些思想,从这能看到这个工业44.0的一些种子啊,一些想法其实都是在这儿,其实在实验室里面已经开始了,也非常兴奋,我感觉今天可能时间差不多了,跟四位没有聊的。
150:18
非常透啊,咱们大家其实以后回头在某个会议上去见到的时候,我们可以线下再继续聊这个话题,那我们今天先先到这儿,我们把麦克先还给咱们的那个露露。喂,谢谢,谢谢各位专家老师的精彩分享,这是一场非常精彩的华山论剑哈,老师们今天呃,就是就是分享的,因为时间关系嘛,没有展开,就像刚刚啊那个邵刚老师说的,我们回头啊腾讯腾讯教育跟量子实验室,我们也会持续来举办这样的啊学术研讨的活动哈,我们再邀请各位老师来咱们展开来跟老师跟那个大家来去分享一下,刚刚我看了一下线上的数据哈,今天咱们的活动在线上已经累计有6000多人次来去关注了,对啊好的啊,美好和充实的这个时光啊,总是很短暂的哈,今天咱们的发现教育家呃,科技的新范式,云计算助力材料多尺度计算研讨会呢,已经接近尾声了,然后在咱们页面上,现在各位朋友可以看到有一个二维码,如果说大家想要复习一下,今天活动当中各位专。
151:31
下老师分享的知识点,回回味一下这样的内容的话呢,请大家啊,可以扫码进群,然后我们随后呃活呃活动结束之后,我们的内容剪辑好了之后,然后也会在群内的通知各位,各位来去查看哈啊,而且呢,我们量子实验室,包括龙讯矿藤英伟达,腾讯云等等,我们有一些这样的呃体验的资源,回头我们也会在群里面不定期的去分享,有一些产品进度也会跟大家及时的去做同步跟汇报,再一次感谢所有嘉宾的精彩分享和研讨,谢谢各位线上伙伴们的关注,期待在未来的路上我们继续一起探讨,一起前行,感谢大家,今天的活动就到这里。
152:15
再见。
我来说两句