“硬train一下” 前的 “主动学习”

共 2730字,需浏览 6分钟

 ·

2024-04-11 14:19

 硬train一下 的 样本真的不要删一下嘛?构建样本累了嘛?累了就来吧888017d038a743eecce053006a82fc4a.webp~
各位看官里面请 ~~ 自上次断更之后,慕寒花了一段时间让自己走上了人工智能( Artificial Intelligence AI )这条路。为了将自己在这条路上获得的体会向各位讲讲,于是乎,开了个新的系列: 我们与 AI 。希望能对各位有所帮助77ffb8386515d510b9b0315890767a33.webp77ffb8386515d510b9b0315890767a33.webp77ffb8386515d510b9b0315890767a33.webp。今天就从 主动学习( Active Learning AL 开始 ~ 9c675e4b20513363a5dbe96250293b4c.webp 先抛个问题:在搞研究的这条路上,各位开始“硬 train 一下”之前是否都经历过无聊且枯燥的样本标注工作?有没有想过,我标的这么多样本真的都有用嘛?有没有可能有些样本压根就不需要标注呢? 所以说,这个时候我们就需要AL了。都说人工智能是为了让机器能够像人类一样处理问题,那我们人类在面对海量新事物的时候是咋做的?可能我们要三思一下,能不能只用有用的部分?然后,我们就要有目的地、主动地学习一些对于自己有用的新事物。用到机器身上,那就是今天的主角:主动学习。主动学习的专业点的介绍就是:主动学习不需要过多的手工标注数据进行训练,而是通过与环境的互动实现自我学习,其核心思想是通过不断地试错和调整来逐渐逼近最优解,让模型不断地抽取出满足条件的训练语料,并根据结果反馈调整策略 既然主动学习需要对样本进行有选择性使用,那么问题来了,基于啥标准来选择呢?通过对文献的整理,慕寒发现可以分为两类: 基于不确定性的指标、基于多样性的指标。所谓“ 基于不确定性的指标 ”要求我们选择那些模型很难处理的样本,就像人类需要选择一些难问题进行学习一样。所谓“ 基于多样性的指标 ”要求我们选择那些相互之间存在较大差异的样本,就像人类如果想要进步,就不能只关注相似的知识。下面慕寒列出一些常见的指标,当然这里以基于文本数据的命名实体识别任务为基础,各位可以将这些方法的思想迁移到不同的领域,例如计算机视觉。
01 基于不确定性的指标
  • 最小置信度: 我们可以将置信度理解成一种概率值。在做命名实体识别任务时,根据识别算法的后验概率输出,从最佳的预测结果中获取不确定性,即置信度最小。将语料 x 的最小置信度定义如下:
为最佳序列预测的后验概率。
  • 边缘度: 我们将概率值集合中的部分概率值为“边缘概率”。在用实体识别算法获取文本序列标签的后验概率分布后,根据部分概率得分计算不确定性,例如根据文本 x 的最大的两个概率得分,计算其边缘度计算如下:

为最大的后验概率值。 为排名第二的后验概率值。
  • 墒: 熵是信息量的一种表现形式,基于熵值,我们可以选择那些信息量大的样本。语料 x 的熵值可以定义如下:
对于序列标注任务,我们可以使用多种熵计算方式,例如: N-best 序列熵( N-best sequence entropy ,基于后验概率分布中前 N 的概率值计算熵)、实体熵( entity entropy ,基于语料中地理实体单元的后验概率分布计算熵)、词熵( word entropy ,取句子中所有单词的熵之和)等等。


02
基于多样性的指标
  • 文本相 似度: 我们在挑选文本样本的时候,可以利用一些文本嵌入提取算法( BERT ELMo 等)获取文本的向量表示,然后利用相似度计算方法(余弦相似度等)计算文本相似度。 有关 BERT ELMo 算法的讲解,慕寒以后一定介绍 ~
  • 句法相似度: 说到处理文本,那我们就要说说文本的句法了,毕竟同样是一段文字,相互之间换个位置之后,意思可能就变了。所以,我们可以使用依存句法解释器分析文本的句法结构,然后判定句法结构的相似度。
  • 语义相似度: 除了文本相似度、句法相似度,处理文本时,我们还要考虑文本的语义。所谓文本的语义,就是个抽样的东西了,它的是文本的意义和含义,这就属于文本更深层的信息了。

当然了,主动学习领域的研究实在太多了,抽样策略肯定不止慕寒列出来的这些。比如说,如果我需要处理视频数据,那我可能就要从视频帧、视频语义等角度构建抽样策略;如果我需要处理图片数据,那我可能就要从像素级别或图片通道等角度构建抽样策略。 看了这么些主动学习的研究,慕寒也有了一些自己的想法:常见的主动学习抽样策略貌似都有一些共性问题,貌似都属于启发式策略,都是人类觉得模型这样选是好的,那模型自己是否也能自己选呢?然后就是,主动学习能不能跟当今火不要不要的大规模语言模型结合结合呢?于是乎,慕寒就开展了一些研究,研究成果等出来了,再和大家分享,哈哈哈哈。 今天的分享就到这,我们下次再见 ~ a83b462f8401b778fb2c6b2d45eb7a34.webp
以下是本文参考的一些文献: Allotey, J.; K. T. Butler.; J. Thiyagalingam. Entropy-based active learning of graph neural network surrogate models for materials properties. The Journal of Chemical Physics 2021, 155(17), 174116. Han, X.; C. K. Kwoh.; J.-j. Kim. Clustering based active learning for biomedical named entity recognition. 2016 International joint conference on neural networks (IJCNN)2016, 1253-1260. Li, T.; Y. Hu.; A. Ju.; Z. Hu. Adversarial Active Learning for Named Entity Recognition in Cybersecurity. Computers, Materials & Continua2021, 66(1), 407-420. Ren P, Xiao Y, Chang X, et al. A survey of deep active learning[J]. ACM computing surveys (CSUR), 2021, 54(9): 1-40.


浏览 16
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报