链接: https://ieeexplore.ieee.org/document/10184514
在这篇综述中,我们深入探讨了使用图神经网络(GNNs)进行表格数据学习(TDL)的领域,这是一个深度学习方法在分类和回归任务中相比传统方法表现出越来越优越性能的领域。综述强调了深度神经TDL方法的一个关键差距:数据实例和特征值之间潜在关联的欠表达。GNNs凭借其固有的模拟表格数据不同元素之间复杂关系和交互的能力,已经在各种TDL领域引起了显著的兴趣和应用。我们的综述提供了一项对设计和实现TDL用GNN(GNN4TDL)方法的系统性回顾。它包括对基础方面的详细调查和基于GNN的TDL方法的概述,提供了对其不断发展的领域的洞察。我们提出了一个全面的分类学,重点是构建图结构和在基于GNN的TDL方法中的表示学习。此外,综述还检查了各种训练计划,强调了整合辅助任务以增强实例表示的有效性。我们讨论的一个关键部分专门用于GNN在一系列GNN4TDL情景中的实际应用,展示了它们的多功能性和影响力。最后,我们讨论了限制并提出了未来的研究方向,旨在促进GNN4TDL的进步。这篇综述为研究人员和实践者提供了资源,提供了对GNN在革新TDL中角色的深入理解,并指向了这个有前景领域未来的创新。
近年来,基于深度学习的表格数据学习(TDL)方法,例如分类和回归,表现出了令人充满希望的性能。然而,尽管在从原始表格记录中学习有效特征表示方面有很大能力,深度神经TDL在数据实例和特征值之间的潜在相关性建模上表现薄弱。通过建模高阶实例-特征关系、高阶特征交互和数据实例之间的多关系相关性,已显示可以改进TDL的预测性能。作为自然地建模不同数据实体之间的关系和交互的对策,图神经网络(GNNs)近来已经受到极大关注。通过适当地从输入表格数据构建图结构,GNNs可以学习数据元素之间的潜在相关性,并为预测任务生成有效的特征表示。受到GNNs在自然语言处理和推荐系统上的成功启发,开发用于表格数据学习的图神经网络(GNN4TDL)的趋势也在增加。
目前,已有一些早期研究努力尝试将现有的GNN方法应用于表格数据学习。一些非常近期的研究也开始探索特定于TDL的GNNs。这些研究几乎涵盖了所有TDL主题和应用,掀起了该领域的一波研究热情。随着这些研究进展,也产生了一些基本问题:(a) 基于GNN的TDL与传统TDL之间有何区别?(b) 在不同TDL场景和任务下构建图结构的正确方式是什么?(c) 基于GNN的表格数据表示学习背后的原理是什么?(d) 哪些TDL任务和应用领域可以从GNNs中受益?(e) 当前研究的局限性和未来研究的潜在机会是什么?尽管最近的GNN4TDL研究报告了令人鼓舞的结果,但这些问题尚未系统地调查,甚至被忽视了。迫切需要进行这项GNN4TDL综述,以揭示这些问题的答案,以进一步促进这一研究方向。
我们相信,由于该主题的高需求和低支持,这项GNN4TDL综述将具有很高的价值。(a) 高需求:由于表格数据在许多领域和应用中无处不在,人们逐渐将重点转移到模型数据实例之间的关系及其与特征值的相关性上,我们相信,用于表格数据学习的图神经网络不仅将具有很高的研究影响,而且还将具有实际价值。它应该能够获得学术界和工业界的关注。(b) 低支持:我们的GNN4TDL处于一个小众但至关重要的领域,根据表1中的比较总结,在以前的综述中大多被忽视。与其他集中在跨各种领域和数据类型的广泛GNN应用的工作不同,这篇综述不仅强调了GNN在表格数据预测、表示学习和图结构学习中的潜力,而且还是首次讨论自监着学习、各种训练策略和GNN4TDL中特定的辅助任务。
这篇综述论文对应用GNNs进行表格数据学习进行了深入探索。它首先建立了基本的问题陈述,并介绍了用于表示表格数据的各种图类型。综述围绕详细的基于GNN的学习流程进行构建,包括图形化阶段,将表格元素转换为图节点;图构建,专注于建立这些元素之间的连接;表示学习,强调GNNs如何处理这些结构以学习数据实例特征;以及训练计划,讨论辅助任务和训练策略的整合,以提高预测结果。
除了回顾GNN4TDL技术之外,综述还进一步阐述了GNN在多个领域的应用,如欺诈检测和精准医疗,以及对当前研究局限性和GNN4TDL领域未来方向的批判性讨论。
我们总结了这项综述的贡献如下。• 我们提供了图神经网络用于表格数据学习的当前发展的广阔图景。提供了及时和全面的文献综述,帮助读者快速掌握基本概念并进入这个研究领域。• 我们组织了将GNNs应用于表格数据学习的现有艺术。特别是,我们深入探讨了GNNs如何更好地建模表格数据,并揭示了GNNs带来的表格数据分类和回归性能提升。在实践中,我们强调了构建各种表格数据模型的基本指导原则。• 我们展示了GNN如何在许多表格数据应用领域中得到利用,如欺诈检测、精准医疗、点击率预测和处理缺失数据。我们还为学术界和工业界提供了对当前研究局限性和GNN4TDL未来研究方向的深刻讨论。
我们按照以下方式组织了这篇论文。第2节定义了剩余部分中使用的相关概念。第3节描述了GNN4TDL的框架,并从多个角度提供了分类。第4节根据我们的分类系统地回顾了现有的GNN4TDL方法。第5节调查了GNN4TDL在各个领域的实际应用。第6节讨论了剩余的挑战和可能的未来方向。第7节最后总结了这项综述。
在这一部分中,我们介绍了用于表格数据学习的图神经网络(GNNs)的总体流程,并详细分类了每个关键阶段,描绘了不同方法如何实现这些阶段。伴随这种分类,我们还提供了每个类别中一些代表性框架的描述。这些研究例子展示了流程中各个阶段或类别之间复杂的相互联系,突出了它们在整体GNN4TDL过程中的紧密结合和协作功能。每个分类的详细阐述在第4节中呈现。
流程。基于GNN的表格数据学习的一般流程在图1中提供。流程从图形化阶段开始,即使用表格数据集中的元素定义图的结构。这个阶段涉及决定使用哪些元素作为节点,有三种常见的方法:(1) 将数据实例表示为节点,(2) 将特征作为节点,或 (3) 两者的组合,形成不同类型的图。接下来,图构建阶段旨在在这些元素之间创建连接,将表格数据转换为图结构。这种结构由最初的形式化决定,导致形成同质图(例如,实例图或特征图)或异质图(例如,二部图、多关系图或超图)。接下来,表示学习阶段涉及根据图的性质应用不同类型的GNNs。采用各种同质实例GNNs、同质特征GNNs或异质GNNs来学习数据实例的特征表示。这一阶段至关重要,因为它决定了消息如何在图中传播,模拟特征和实例之间的交互,并影响所学习嵌入的质量。如果使用特征图,则需要额外的信息聚合层,基于学习到的特征嵌入产生最终的实例表示。最后,训练计划阶段接收最终的实例表示。在这个阶段,采用不同的学习任务和训练策略,包括在主任务旁边使用辅助任务。然后通过预测层处理结果,产生最终的预测结果。
这个全面的流程突出了GNNs在处理各种图形化和学习任务方面的多功能性,最终导致有效的表格数据学习和预测。
分类。根据流程,可以建立用于表格数据学习的图神经网络的分类体系。我们在图2中给出了分类。下面,我们相应地描述了分类体系中的分类,其中每个类别中的一些代表性研究被提到并在表2中总结。