公众号文章分类
个人方法论文方法研读篇
语法纠错问题
事件抽取
命名实体识别
语义匹配
关键词提取
语义匹配
关系抽取
Transformers
蒸馏
实体链接
转载方法解读
对话系统
按照知识领域分类:面向限定领域的问答系统、面向开放领域的问答系统、面向常用问题集的问答系统
答案来源分类:基于结构化的问答系统、基于文档的问答系统、基于问答对的问答系统
答案反馈机制分类:基于检索式的问答系统、基于生成式的问答系统
根据任务类型分类:问答机器人、任务机器人、闲聊机器人
机器人的实现技术 之 end-to-end模式:从用户输入到系统输入作为一个整体去训练,希望训练一个从用户端自然语言输入到机器端自然语言输出的整体映射关系;优点:灵活性强、可拓展性高、减少人工成本、解决传统模块之间的隔离、偏置误差小;缺点:模型过于庞大对数据的数量和质量要求很高,训练困难,并且对于填槽、API 调用等过程的建模不够明确,修改任何一个功能,都需要重新训练整个模型;
器人的实现技术 之 pipeline模式:从input->NLU->DST->DPL->NLG->output,一个对话从输入像流水线一样经过系统,最终得到答案输出给用户。
文本匹配方法解读
NLP系列之句子向量、语义匹配(二):BERT_avg/BERT_Whitening/SBERT/SimCSE—方法解读
Bert 怎么用于 文本匹配任务?
Bert 做文本匹配任务会遇到什么问题?
什么叫各向异性?
Bert 之后模型怎么解决各向异性?
孪生网络 怎么用于 文本匹配任务?
为什么SBert 比 Bert 做召回时延小?
对比学习 怎么用于 文本匹配任务?
NLP系列之句子向量、语义匹配(三):BERT_avg/BERT_whitening/SBERT/SimCSE—实验代码
BERT_avg/BERT_whitening/SBERT/SimCSE 哪个效果最好?
命名实体识别
关系抽取方法解读
Prompt范式
Query理解
业界盘点|Query理解在搜索中的落地技巧
心法利器[34] | 报告小结:query理解概述
query 理解应用背景:推广搜+对话
搜索与对话的技术架构
腾讯搜索:Query理解(预处理、拓展、纠错等)-》检索召回(文本/字面检索和语义/向量检索)-》排序(结合各种特征,来对召回的结果进行排序)
微软小冰:
平安人寿智能问答引擎:quuery理解-》检索模块-》排序模块-》结合现实场景,用户对话的内容,进行对话策略的调整
NLU(自然语言理解)的三大任务
意图识别——文本分类。
实体抽取、term分析——命名实体识别。
语义表征——语义相似度。
知识图谱
文本分类
Text2SQL
新词发现
实体库构建:离线大规模新词实体挖掘
什么是新词?
不存在于 实体库 中的词汇
如何新词发现?
无监督方法:使用紧密度加自由度调整阈值就可以提取新词。问题:调整阈值问题;
有监督方法:利用中文分词的方法,将切分出来的不在 词汇库 中的词认为是新词;
新词发现 步骤:
挖掘频繁项;
提取频繁项的各种统计特征;
频繁项和已经有的实体交集作为正样本,负采样得到负样本。使用多个分类器进行集成,训练多个二元分类器;
搜索日志中搜索次数比较高的词条和正样本的交集作为高质量短语,负样本减去词条作为低质量短语,使用Bert训练质量打分器;
难点:
阈值确定问题;
Bert打分器这个东西的可靠性;
推荐系统
机器学习
TensorFlow
专栏
美团技术
美团搜索中NER技术的探索与实践
美团商品知识图谱的构建及应用