NLPer 如何做关键词抽取NLP从入门到放弃关注共 2164字,需浏览 5分钟 ·2021-07-01 12:26 大家好,我是 DASOU;原来对公众号的想法是做大做好,走上五百强,囧。现在发现平衡工作和生活及公众号太难了,所以之后公众号我变为不定期更新,内容上也是最大可能发原创。大家可以星标一下我的公众号,之后内容绝对干货。广告的话,长期关注的朋友可能也发现了,我基本没广告,尤其是最近,我基本全都拒绝了。所以大家可以放心打开;我还是想把这个公众号作为和大家交流的一个平台。有同学私下问题关键词抽取的问题,之前有写过类似的文章,搜了一下笔记,整理了一下,发上来,供大家参考:关键词的提取,也可以称之为文本标签提取。比如说,”今天这顿烧烤是真不错啊“,在这句话中,”烧烤“这个词就可以被认为是一个关键词,或者说这个句子的一个标签。这个标签在一定程度上能够表现出这个句子的含义,比如这个”烧烤“,如果用在文本分类任务中,可以隐含带有”美食“这个类别的信息。这些标签有些时候也可以用在推荐系统的召回,比如直接按照”烧烤“这个标签做一路召回。对于关键词的提取一般来说分为抽取式和生成式。其实类比到摘要,其实也是分为抽取式和生成式。生成式有一个缺点就是有些结果不可控,这其实还挺要命的。对于抽取式,就是从现有的数据中拿出来词组。最差的结果也就是拿出的单词并不重要,不是我们想要的。我们的重点是在抽取式提取关键词。关键词的提取可以分为两个步骤:召回+排序1.召回召回就是得到文本中的候选关键词,也就是得到这个句子中有可能是关键词的词汇。这一步,可以做的方法有很多,比如我们有积累的关键词词库,在这里直接匹配出来。一些符合的词性的候选词,比如我挑选出名词作为候选词还可以基于一些统计特征提出候选词,比如TF-IDF(有些时候统计特征也会用在排序中作为特征)基于一些规则,比如一个句子出现了人名地名,书名号中词,这些很有可能就是关键词召回其实是一个很重要的部分,在这一步骤,尽可能的召回有用的词汇。我自己的标准是宁可多不能少。如果多了,无非就是增加了资源消耗,但是少了,可能在排序阶段就是无米之炊了。2.排序排序阶段,我们可以将方法大致的分为有监督和无监督的方法2.1无监督抽取关键词对于无监督,我们分为基于统计和基于图。基于统计就是TF-IDF和各种变种。基于图最常见的就是TextRank。关键词提取的一个baseline就是 TF-IDF 提取,这种方法效果已经很好。投入产出比很高,我们一般需要去掉常用的停用词,保留重要的词语。TF-IDF基于统计,易于实现,但是缺点就是没有考虑词与词,词与文档之间的关系。是割裂的。另一个baseline就是基于图的TextRank, TextRank 由 PageRank 演变而来。相比于TF-IDF,TextRank考虑了词与词之间的关系(提取思想就是从窗口之间的词汇关系而来),但是缺点是它针对的是单个文本,而不是整个语料,在词汇量比较少的文本中,也就是短文中,效果会比较差。随着数据量的积累,我们需要把模型更换到有监督模型加上。一般来说,有监督分为两种,一种是看做序列标注,一种是看做二分类的问题。2.2有监督之二分类先说二分类问题,比较简单,就是找到词汇的各种特征,去判断这个词汇是不是这个文本的关键词。我大概罗列一些可能会用到的特征。位置特征:使用位置特征是我们基于文本关键词出现的位置是在大量数据的情况下是有规律可言的,比如微博文本中出现在##符号中部分词汇有很大概率就是文本的一个关键词。是否出现在开头,是否出现在中间部分,是否出现在末尾,出现的位置(具体是第几个单词);相对于整个文本的位置;是否出现在##符号中...统计特征:共现矩阵信息;词频;逆词频;词性;词跨度;关键词所在句子的最大长度/最小长度/平均长度;向量特征:关键词词向量和文档向量的相似性2.3有监督之序列标注关键词的提取,就是一个典型的序列标注的问题。判断句子中关键词的开头中间结尾的位置。序列标注最基础的就是HMM和CRF方法,但是特征工程比较复杂。为了解决特征工程复杂的问题,我们使用深度学习模型序列标注。关于序列标注,大家可以参考我这个文章内容:工业级命名体识别经验+代码总结3.新词发现还会出现一个问题,如果我们使用二分类判定关键词,上述的过程我们都是基于我们的分词器来做的。有可能会出现一些新词,由于分词错误,不能及时的出现在你的候选词库中,比如”爷青结“。这个时候,我们需要一个新词发现系统,持续不断的补充到词库中,在召回阶段可以提升召回率。对于新词发现来说,基操就是从文本的自由程度和凝固程度来判断是否是新词,这样的问题就是阈值不好调整从而导致召回和精准不好平衡。我们还可以通过别的方法离线挖掘实体词补充道词库中,之前有借鉴美团ner的文章实现了一下,效果还不错,在这里,大家可以参考我这个文章:实体库构建:离线大规模新词实体挖掘有兴趣的去github看更多相关文文章:https://github.com/DA-southampton/NLP_ability 浏览 23点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 使用 Node.js 对文本内容分词和关键词抽取程序员成长指北0XsoupHTML抽取器Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间都只有Html文本抽取解决方案薄言文本抽取平台可以对客户所提供文档的目标要素进行智能抽取,同时抽取部分在文档内高亮提示,有助于提高业务效率。XsoupHTML抽取器Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。相比另一个常用的基于XPathTFIDF提取关键词pytorch玩转深度学习0TextRank提取关键词pytorch玩转深度学习0chatgpt实现NLP基本任务(实体识别、关系抽取、属性抽取、事件抽取、文本分类)向AI转型的程序员都关注了这个号👇👇👇基础函数一、实体识别抽取文本:驻港部队从1993年初开始组建,1996年1月28日组建完毕,1997年7月1日0时进驻香港,取代驻港英军接管香港防务,驻港军费均由中央人民政府负担。《中华人民共和国香港特别行政区驻军法》规定了驻香港部队的职责为防备和抵抗侵略,保卫如何做前端单元测试前端Sharing0企业如何做直播企业做直播学学董明珠 格力电器董事长董明珠也开始直播了。4月24日晚上八点,董明珠开了她的首场直播秀。我认为她的直播方式很值得企业做直播时学习借鉴。 有以下三个方面: 一是她把直播场地选在了格力电器的展厅。这个场地要比重新搭建一个直播间好多了。真实性、宏大,会更有充分的产品渲染力。 企业做直播不要盲目照搬直播间形式。网红主播、明星主播可能适合直播间模式。企业做直播最好不要固定在直播间。可以选择在企业展厅、可以选择终端环节、可以选择车间、研发中心、可以选择仓、也可以选择更多的客户场景。 包括如果是老板亲自直播,选择在老板的办公室也可能比直播间要好。最起码带来的感觉是直播间会比较“假”,不如实实在在场景更具真实性。 二是老板PMTalk如何做内容?Kevin改变世界的点滴0点赞 评论 收藏 分享 手机扫一扫分享分享 举报