首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Heliyon | 基于小样本数据集开发的一个数据驱动模型并产生一个可解释的介电常数计算方程

近日,来自韩国延世大学融合生物技术与转化医学学院的卢敬泰(NO Kyoung Tai)教授指导的在读博士生毛家顺等在Cell旗下全学科新期刊Heliyon (JCR Q1,IF: 3.776)发表了一种用于预测工业领域中常见的用作有机溶剂的单一化合物的介电常数(DC)预测方法,据悉该方法能够仅根据小样本数据即可实现预测准确率达到95.6%的性能,尤其是使用传统方法在DC值介于50-180区间上预测较差的区域上实现了良好的预测性能,该方法不同于传统机器学习的单层分类器训练,而是模拟深度网络进行多层线性和非线性映射,从而有效提升了预测效果,在评估方面采用相关性指标而非传统的回归指标,但是在单层内又采用遗传算法进行单层分类器的自适应定向保留有效的变量和映射器(即将单个分类器看做一个映射器,而无须进行分类器调参),此种结合遗传算法、传统机器学习作为映射器、相关性指数作为预测目标的方法框架,即可解决在任何小样本数据集上实现可解释与高预测性能的平衡,为了提高模型的解释性,每一层均可查看是哪些变量提升了预测精度,以及最终通过最小生成树实现关键变量的最佳组合可视化,又反过来为我们在科学研究上寻找关键的一次、二次等非线性变量的构建上给与启发。最后,本文的思想方法的来源实际上是借鉴了kaggle中经常使用的stacking的思想,并且结合遗传算法来加速发现变量有效组合,使用DBSCAN来合并线性相关性强的变量,以减少变量的爆炸组合数。

03
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    算法与数据结构(五) 普利姆与克鲁斯卡尔的最小生成树(Swift版)

    上篇博客我们聊了图的物理存储结构邻接矩阵和邻接链表,然后在此基础上给出了图的深度优先搜索和广度优先搜索。本篇博客就在上一篇博客的基础上进行延伸,也是关于图的。今天博客中主要介绍两种算法,都是关于最小生成树的,一种是Prim算法,另一个是Kruskal算法。这两种算法是很经典的,也是图中比较重要的算法了。 今天博客会先聊一聊Prim算法是如何生成最小生成树的,然后给出具体步骤的示例图,最后给出具体的代码实现,并进行测试。当然Kruskal算法也是会给出具体的示例图,然后给出具体的代码和测试用例。当然本篇博客中

    07
    领券