图数据的自监督学习介绍
来源:DeepHub IMBA 本文约2100字,建议阅读8分钟
图自我监督学习是一个有趣的话题,因为大多数数据都是图结构的,并且通常没有标签。
深度学习在解决许多复杂的机器学习问题方面一直是一个有趣的课题,特别是最近在图数据方面。然而,大多数的解决方案要么是监督或半监督,高度依赖于数据中的标签,导致过拟合和整体鲁棒性较弱。自监督学习(Self-Supervised Learning, SSL)是一种很有前途的解决方案,它从无标记数据中挖掘有用的信息,使其成为图数据领域中一个非常有趣的选择。
图形数据和定义
Node-level 节点级任务是与图形中的节点相关的不同任务,例如,节点分类,其中在少量标记节点上训练的模型会预测其余节点的标签。 Link-level 链接级任务专注于节点的边缘和表示形式,例如,链接预测,其目标是识别边缘之间的任何连接。 Graph-leve 图级任务以图形表示为目标,它们从多个图中学习并预测单个图的属性。
预训练和微调是第一种训练方案,其中在编码器中预先进行预置任务,然后在特定下游任务中进行微调。 联合学习是一种将编码器与前置任务和下游任务一起进行预训练的方案。 无监督表示学习,其中先使用前置任务对编码器进行预训练,然后在使用下游任务训练模型时冻结编码器的参数。在此训练方案中,在编码器训练期间没有监督。
图自监督学习的类型
蒙版特征回归(MFR)。
屏蔽节点特征回归图补全—通过启用GNN从上下文中提取特征; AttributeMask —它的目标是重建经过PCA处理的密集特征矩阵; AttrMasking —通过用特殊的掩码替换边和节点的属性,强制GNN同时重建它们; 重构技术-从干净或损坏的输入中重构特征或嵌入,并使用它们以联合学习的方式训练编码器。
基于回归的方法(R-APP)——在这种方法中,学习了图的局部属性,例如,关于图的整体结构的代表性节点属性。然后,利用这些信息可以根据图中预定义的簇预测未标记节点的属性; 基于分类的方法(C-APP)——与R-APP相比,这种方法依赖于构建伪标签。在训练过程中分配伪标签并使用这些自我监督标签(属性)、基于固有拓扑(基于结构)对节点进行分组、图属性预测(节点的统计属性和节点的中心性)是基于分类方法(C-APP)的一些例子。
基于上下文的方法(C-SSC)-此方法的主要思想是在嵌入空间中拉近上下文节点。假设上下文相似的节点更可能在图中互连: 基于增强的方法(A-SSC)-通过这种方法从原始数据样本生成增强的数据样本,并将来自同一来源的样本视为正对,而来自不同来源的样本视为负对。
例如,GPT-GNN将MFR和C-SSC组合成一个图生成任务以预训练图神经网络; 使用节点特征重构(MFR)和图结构恢复(C-SSC)来预训练图变换器模型的Graph-Bert。
挑战
结论
编辑:黄继彦
校对:林亦霖
评论