“硬train一下” 前的 “主动学习”-技术圈

“ 硬train一下的样本真的不要删一下嘛？构建样本累了嘛？累了就来吧

~”

各位看官里面请 ~~ 自上次断更之后，慕寒花了一段时间让自己走上了人工智能（ Artificial Intelligence ， AI ）这条路。为了将自己在这条路上获得的体会向各位讲讲，于是乎，开了个新的系列： 我们与 AI 。希望能对各位有所帮助

。今天就从 主动学习（ Active Learning ， AL ） 开始 ~

先抛个问题：在搞研究的这条路上，各位开始“硬 train 一下”之前是否都经历过无聊且枯燥的样本标注工作？有没有想过，我标的这么多样本真的都有用嘛？有没有可能有些样本压根就不需要标注呢？所以说，这个时候我们就需要AL了。都说人工智能是为了让机器能够像人类一样处理问题，那我们人类在面对海量新事物的时候是咋做的？可能我们要三思一下，能不能只用有用的部分？然后，我们就要有目的地、主动地学习一些对于自己有用的新事物。用到机器身上，那就是今天的主角：主动学习。主动学习的专业点的介绍就是：主动学习不需要过多的手工标注数据进行训练，而是通过与环境的互动实现自我学习，其核心思想是通过不断地试错和调整来逐渐逼近最优解，让模型不断地抽取出满足条件的训练语料，并根据结果反馈调整策略。既然主动学习需要对样本进行有选择性地使用，那么问题来了，基于啥标准来选择呢？通过对文献的整理，慕寒发现可以分为两类：基于不确定性的指标、基于多样性的指标。所谓“ 基于不确定性的指标 ”要求我们选择那些模型很难处理的样本，就像人类需要选择一些难问题进行学习一样。所谓“ 基于多样性的指标 ”要求我们选择那些相互之间存在较大差异的样本，就像人类如果想要进步，就不能只关注相似的知识。下面慕寒列出一些常见的指标，当然这里以基于文本数据的命名实体识别任务为基础，各位可以将这些方法的思想迁移到不同的领域，例如计算机视觉。

01 — 基于不确定性的指标

最小置信度： 我们可以将置信度理解成一种概率值。在做命名实体识别任务时，根据识别算法的后验概率输出，从最佳的预测结果中获取不确定性，即置信度最小。将语料 x 的最小置信度定义如下：

为最佳序列预测的后验概率。

边缘度： 我们将概率值集合中的部分概率值称为“边缘概率”。在用实体识别算法获取文本序列标签的后验概率分布后，根据部分概率得分计算不确定性，例如根据文本 x 的最大的两个概率得分，计算其边缘度计算如下：

为最大的后验概率值。为排名第二的后验概率值。

墒：熵是信息量的一种表现形式，基于熵值，我们可以选择那些信息量大的样本。语料 x 的熵值可以定义如下：

对于序列标注任务，我们可以使用多种熵计算方式，例如： N-best 序列熵（ N-best sequence entropy ，基于后验概率分布中前 N 的概率值计算熵）、实体熵（ entity entropy ，基于语料中地理实体单元的后验概率分布计算熵）、词熵（ word entropy ，取句子中所有单词的熵之和）等等。

02 —
基于多样性的指标

文本相似度： 我们在挑选文本样本的时候，可以利用一些文本嵌入提取算法（ BERT 、 ELMo 等）获取文本的向量表示，然后利用相似度计算方法（余弦相似度等）计算文本相似度。 有关 BERT 与 ELMo 算法的讲解，慕寒以后一定介绍 ~
句法相似度： 说到处理文本，那我们就要说说文本的句法了，毕竟同样是一段文字，相互之间换个位置之后，意思可能就变了。所以，我们可以使用依存句法解释器分析文本的句法结构，然后判定句法结构的相似度。
语义相似度： 除了文本相似度、句法相似度，处理文本时，我们还要考虑文本的语义。所谓文本的语义，就是个抽样的东西了，它指的是文本的意义和含义，这就属于文本更深层的信息了。

当然了，主动学习领域的研究实在太多了，抽样策略肯定不止慕寒列出来的这些。比如说，如果我需要处理视频数据，那我可能就要从视频帧、视频语义等角度构建抽样策略；如果我需要处理图片数据，那我可能就要从像素级别或图片通道等角度构建抽样策略。看了这么些主动学习的研究，慕寒也有了一些自己的想法：常见的主动学习抽样策略貌似都有一些共性问题，貌似都属于启发式策略，都是人类觉得模型这样选是好的，那模型自己是否也能自己选呢？然后就是，主动学习能不能跟当今火地不要不要的大规模语言模型结合结合呢？于是乎，慕寒就开展了一些研究，研究成果等出来了，再和大家分享，哈哈哈哈。今天的分享就到这，我们下次再见 ~

以下是本文参考的一些文献： Allotey, J.; K. T. Butler.; J. Thiyagalingam. Entropy-based active learning of graph neural network surrogate models for materials properties. The Journal of Chemical Physics 2021, 155(17), 174116. Han, X.; C. K. Kwoh.; J.-j. Kim. Clustering based active learning for biomedical named entity recognition. 2016 International joint conference on neural networks (IJCNN)2016, 1253-1260. Li, T.; Y. Hu.; A. Ju.; Z. Hu. Adversarial Active Learning for Named Entity Recognition in Cybersecurity. Computers, Materials & Continua2021, 66(1), 407-420. Ren P, Xiao Y, Chang X, et al. A survey of deep active learning[J]. ACM computing surveys (CSUR), 2021, 54(9): 1-40.