首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MatSci-NLP: 释放自然语言处理在材料科学中的力量

今天我们介绍由蒙特利尔大学MILA - Quebec人工智能机构的Yu Song发表在arXiv上的工作,该工作提出了MatSci-NLP,用于评估自然语言处理(NLP)模型在材料科学文本上的性能的自然语言基准。该工作从公开可用的材料科学文本数据构建基准,以涵盖七个不同的NLP任务,包括传统的NLP任务(如命名实体识别和关系分类)以及特定于材料科学的NLP任务(如合成动作检索以及涉及创建材料的合成程序)。研究了在不同科学文本语料库上预训练的基于BERT的模型,以了解预训练策略对理解材料科学文本的影响。在低资源训练设置下的实验表明,在科学文本上预训练的语言模型优于在一般文本上训练的BERT。此外,该工作提出了一种统一的文本到模式的MatSci-NLP多任务学习方法,并将其性能与专门针对材料科学期刊进行预训练的模型MatBERT进行了比较。在对不同训练方法的分析中,发现提出的受问答启发的文本到图式方法始终优于单任务和多任务NLP微调方法。

02
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    SAP FI-CO总账科目简析

    浅谈SAP FICO—总账科目 一、总账科目的概述 总账科目,它起到统驭整个财务的作用。不同的会计科目在总账主数据中创建会应用到不同的“字段”(field),通过这些不同“字段”的组合,就会形成系统能够识别并能够为我们现行会计核算所接受的会计科目。 总帐科目主记录分为两部分: Ø 关于会计科目表的数据。这部分数据用于整个主记录,如总帐科目号码,科目名称,确定科目是资产负债表科目还是损益表科目。此外,用户还可以用它来规定主记录中用于公司代码部分的数据的有关控制信息,如科目组和屏幕格式。 Ø 关于公司代码的数据。这部分数据包含了如何控制业务数据的输入与记帐的参数,如何管理科目的数据,以及其他与公司代码相关的数据,如货币、税码、统驭科目、行项目的显示和未清项的管理等。 其实,这两部分也构成了SAP的总账科目的两个层次,也是SAP区别于其他ERP厂商的一个重要特征。 在 SAP 中,会计科目的定义分为两层:科目表层和公司代码层。比如:一个集团企业可以定义一套会计科目表,但是下面的每个公司代码,从中选择哪些科目,这些科目的各项参数又是可以自己决定的,从而达到集中和灵活兼顾的效果。 SAP的科目类别分为三大类别:资产负债类(BSA)、损益类(PLA)、统驭类(RAA),其中常见的字段状态变式(field status variant)为:一般资产负债科目(GBS)、材料采购GR/IR(MMA)、一般费用科目(EXP)、收入科目(REV)、统驭科目AR/AP(RAA)。

    01

    Nucleic Acids Res. | 一种灵活的、可解释的、精确的插补未测量基因表达的方法

    今天给大家介绍密歇根州立大学Arjun Krishnan教授等人发表在Nucleic Acids Research上的一篇文章 “A flexible, interpretable, and accurate approach for imputing the expression of unmeasured genes”。虽然生物学领域中有超过200万个公开可用的人类微阵列基因表达谱,但这些谱是通过各种平台进行测量的,每个平台都覆盖一组预先定义的、有限的基因。因此,重新分析和整合这一海量数据收集的关键是通过插补未测量基因的表达,在部分测量的微阵列样品中重组整个转录组的方法。目前最先进的插补方法是针对特定平台的样本进行定制的,并依赖于基因-基因关系,不考虑目标样本的生物学背景。本文表明,为每个新的目标样本实时构建的捕获样本-样本关系 (称为样本弹性) 的稀疏回归模型,优于基于固定基因关系的模型。基于三种机器学习算法 (LASSO、k近邻和深度神经网络)、两个基因子集 (GPL96-570和LINCS) 和多个插补任务 (微阵列/RNA-seq数据集内和跨数据集) 的广泛评估表明SampleLASSO是最精确的模型。此外,本文证明了该方法的生物学可解释性:为了插补来自特定组织的一个目标样本,SampleLASSO自动利用了来自同一组织的训练样本。因此,SampleLASSO是一种简单,但强大而灵活的协调大规模基因表达数据的方法。

    01

    近期四项研究,人工智能又搞出了哪些新材料?

    编辑 | 萝卜皮 目录 无监督机器学习工具加速真正新材料的发现 识别新材料的高通量方法 通过结合深度学习和约束推理来自动化晶体结构相映射 人工智能方法加速热电材料的发现 无监督机器学习工具加速真正新材料的发现 利物浦大学的研究人员创建了一种协作人工智能工具,可以减少发现「真正新材料」所需的时间和精力。 据报道,这种新工具已经发现了四种新材料,包括一系列可传导锂的新固态材料。这种固体电解质可以应用于固态电池开发,为电动汽车提供更长的续航能力。 发现新的功能材料是一个高风险、复杂且非常耗时的旅程;通过组合元素周

    02

    J.Am.Chem.Soc. | 基于半监督学习的晶体结构的合成预测

    今天给大家介绍韩国高级科学技术研究所Jidon Jang等人在Journal of the American Chemical Society上发表的文章“Structure-Based Synthesizability Prediction of Crystals Using Partially Supervised Learning”。通过预测无机材料的合成能力可以加速新材料的发现,传统方法依靠计算热力学稳定性来预测定材料合成性,但考虑因素过于简单,本文中提出了一种基于材料数据库半监督学习的机器学习方法来量化合成概率。通过对positive and unlabeled machine learning (PU learning)的优化,实现图卷积神经网络作为分类器模型输出合成分数(CLscore)。CLscore排名前100的虚拟材料中有71种材料在文献中被证实可合成。

    02
    领券