ICLR 2022 | 图与主动学习:软标签情况下如何设计图上主动学习策略?
共 4109字,需浏览 9分钟
·
2022-06-08 08:30
来源:PKUDAIR 本文约2700字,建议阅读5分钟
本文介绍了在图神经网络上主动学习的软标签方法。
▲ 图3. 信息增益公式
3.2 传播影响力估计
每个新标注的节点都会将其标签信息传播给 k 层图神经网络中的 k 跳邻居,并相应地影响这些节点的标签分布。由于节点对其不同邻居的影响可能是多种多样的,我们通过计算节点 i 的输入标签的变化对 k 步传播后节点 j 的传播标签的影响来衡量它,公式如下图:
▲ 图4. 影响力公式
3.3 全图信息增益
3.4 最大化全图信息增益
在确定了每个点对于全图的信息增益后,我们在每一批选点中,都优先挑选信息增益最大的点来给 oracle 打标签,并将得到的软标签交给模型进行下一步的训练迭代,直至用完所有的打标签预算。具体优化目标的公式如下:
实验
数据集使用了 3 个论文引用数据集:Cora、Citseer 和 PubMed。一个社区数据集 Reddit。一个 OGB 公开数据集 ogbn-arxiv,具体细节信息如表格所示。而对比的 baseline 里我们选择了 GRAIN [4] 和 ALG [5] 等最新的在图上做主动学习的方法。
我们将选点的预算设置为节点类目数量的二十倍,所得的结果如下,可以看出 IGP 显著优于其他方法。
我们测试了所有方法随着选点预算增加时的准确率,结果如图,证明 IGP 方法在任何选点预算下都优于其他方法。
4.4 可解释性实验
我们将有标签的点可视化投影至二维平面中,并用不同颜色分开标注了硬标签和软标签,从图中可以看出,相比于其他方法,IGP 所获得的硬标签和软标签都够多,这解释了 IGP 的有效性。
[1] Thomas N. Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings, 2017b.
[2] Kaveh Hassani and Amir Hosein Khasahmadi. Contrastive multi-view representation learning on graphs. In International Conference on Machine Learning, pp. 4116–4126. PMLR, 2020.
[3] Robert Burbidge, Jem J Rowland, and Ross D King. Active learning for regression based on query by committee. In International conference on intelligent data engineering and automated learning, pp. 209–218. Springer, 2007.
[4] Wentao Zhang, Zhi Yang, Yexin Wang, Yu Shen, Yang Li, Liang Wang, and Bin Cui. Grain: Improving data efficiency of graph neural networks via diversified influence maximization. Proc. VLDB Endow., 14(11):2473–2482, 2021b.
[5] Wentao Zhang, Yu Shen, Yang Li, Lei Chen, Zhi Yang, and Bin Cui. ALG: fast and accurate active learning framework for graph convolutional networks. In SIGMOD ’21: International Conference on Management of Data, Virtual Event, China, June 20-25, 2021, pp. 2366–2374, 2021a.