公众号文章分类

共 4537字，需浏览 10分钟

·

2021-09-21 00:03

个人方法论文方法研读篇

语法纠错问题

【关于 GECToR】那些你不知道的事

事件抽取

【关于 MLBiNet】那些你不知道的事

命名实体识别

【关于 Continual Learning for NER】那些你不知道的事
paperShape 之 Biaffine
【关于嵌套实体识别之 Biaffine 】那些你不知道的事

语义匹配

【关于 Sentence-BERT】那些你不知道的事

关键词提取

【关于关键词提取】那些你不知道的事
【关于 KeyBERT 】那些你不知道的事

语义匹配

【关于 DSSM】那些你不知道的事
【关于文本匹配模型 ESIM 】那些你不知道的事
【关于 DC-BERT】那些你不知道的事
【关于 Sentence-BERT】那些你不知道的事

关系抽取

【关于关系抽取之 HBT】那些的你不知道的事
【关于 ATLOP】那些的你不知道的事
【关于实体关系联合抽取论文】那些你不知道的事

Transformers

【关于 Efficient Transformers: A Survey】那些你不知道的事

蒸馏

【关于 BERT to TextCNN】那些你不知道的事
【关于自训练 + 预训练 = 更好的自然语言理解模型】那些的你不知道的事

实体链接

【关于 GENER 】那些你不知道的事

转载方法解读

对话系统

（一）对话机器人概述

按照知识领域分类：面向限定领域的问答系统、面向开放领域的问答系统、面向常用问题集的问答系统
答案来源分类：基于结构化的问答系统、基于文档的问答系统、基于问答对的问答系统
答案反馈机制分类：基于检索式的问答系统、基于生成式的问答系统
根据任务类型分类：问答机器人、任务机器人、闲聊机器人
机器人的实现技术之 end-to-end模式：从用户输入到系统输入作为一个整体去训练，希望训练一个从用户端自然语言输入到机器端自然语言输出的整体映射关系；优点：灵活性强、可拓展性高、减少人工成本、解决传统模块之间的隔离、偏置误差小；缺点：模型过于庞大对数据的数量和质量要求很高，训练困难，并且对于填槽、API 调用等过程的建模不够明确，修改任何一个功能，都需要重新训练整个模型；
器人的实现技术之 pipeline模式：从input->NLU->DST->DPL->NLG->output，一个对话从输入像流水线一样经过系统，最终得到答案输出给用户。

文本匹配方法解读

业界大盘点！文本相关性在搜广推三大场景中的应用！
Github13K！相似搜索百宝箱，文本匹配入门必备！
NLP系列之句子向量、语义匹配（一）：业务场景思考
NLP系列之句子向量、语义匹配（二）：BERT_avg/BERT_Whitening/SBERT/SimCSE—方法解读

Bert 怎么用于文本匹配任务？
Bert 做文本匹配任务会遇到什么问题？
什么叫各向异性？
Bert 之后模型怎么解决各向异性？
孪生网络怎么用于文本匹配任务？
为什么SBert 比 Bert 做召回时延小？
对比学习怎么用于文本匹配任务？

NLP系列之句子向量、语义匹配（三）：BERT_avg/BERT_whitening/SBERT/SimCSE—实验代码

BERT_avg/BERT_whitening/SBERT/SimCSE 哪个效果最好？

命名实体识别

NER技术在对话系统中的应用实践
如何提高模型泛化能力？以中文NER为例

关系抽取方法解读

从头来看关系抽取
从头来看关系抽取-远程监督来袭
NLP系列之NER/RE：序列标注/层叠指针网络/Multi-head Selection/Deep Biaffine Attn
IJCAI2021 | 长文本知识抽取：基于语义分割的文档级三元组关系抽取
论文小综 | 文档级关系抽取方法（上）
论文小综 | 文档级关系抽取方法（下）

Prompt范式

Prompt范式，真香
Prompt范式的缘起｜Pattern-Exploiting Training

Query理解

业界盘点｜Query理解在搜索中的落地技巧

心法利器[34] | 报告小结：query理解概述

query 理解应用背景：推广搜+对话
搜索与对话的技术架构

腾讯搜索：Query理解（预处理、拓展、纠错等）-》检索召回（文本/字面检索和语义/向量检索）-》排序（结合各种特征，来对召回的结果进行排序）
微软小冰：
平安人寿智能问答引擎：quuery理解-》检索模块-》排序模块-》结合现实场景，用户对话的内容，进行对话策略的调整

NLU（自然语言理解）的三大任务

意图识别——文本分类。
实体抽取、term分析——命名实体识别。
语义表征——语义相似度。

知识图谱

ICDE2021 | 利用大规模知识图谱预训练改进对话推荐系统
IJCAI 2021 | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊

文本分类

心法利器[26] | 以搜代分：文本多分类新思路

Text2SQL

文本转SQL？这里有一份Baseline解析

新词发现

实体库构建：离线大规模新词实体挖掘

什么是新词？

不存在于实体库中的词汇

如何新词发现？

无监督方法：使用紧密度加自由度调整阈值就可以提取新词。问题：调整阈值问题；
有监督方法：利用中文分词的方法，将切分出来的不在词汇库中的词认为是新词；

新词发现步骤：

挖掘频繁项；
提取频繁项的各种统计特征；
频繁项和已经有的实体交集作为正样本，负采样得到负样本。使用多个分类器进行集成，训练多个二元分类器；
搜索日志中搜索次数比较高的词条和正样本的交集作为高质量短语，负样本减去词条作为低质量短语，使用Bert训练质量打分器；

难点：

阈值确定问题；
Bert打分器这个东西的可靠性；

推荐系统

推荐系统是如何找到相似用户的？
推荐系统技术演进趋势：召回篇
推荐系统技术演进趋势：排序篇
推荐系统技术演进趋势：重排篇

机器学习

5.1 前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念
5.2 感知机相关；利用tensorflow等工具定义简单的几层网络（激活函数sigmoid），递归使用链式法则来实现反向传播。
5.3. 激活函数的种类以及各自的提出背景、优缺点。（和线性模型对比，线性模型的局限性，去线性化）
5.4. 深度学习中的正则化
5.5. 深度模型中的优化
XGBoost算法原理小结
决策树学习笔记（一）：特征选择
决策树学习笔记（二）：剪枝，ID3，C4.5
决策树学习笔记（三）：CART算法，决策树总结
XGBoost之切分点算法
【机器学习】决策树总结|ID3 C4.5/C5.0 CHAID CART与QUEST
KNN算法介绍
Python随机森林 - CodeProject

TensorFlow

干货|TensorFlow开发环境搭建（Ubuntu16.04+GPU+TensorFlow源码编译）
简单易用 TensorFlow 代码集，GAN通用框架、函数
【文末送书】横向对比三大分布式机器学习平台：Spark、PMLS、TensorFlow
从框架优缺点说起，这是一份TensorFlow入门极简教程
分布式TensorFlow入门教程
独家 | 10分钟带你上手TensorFlow实践（附代码）
Tensorboard 详解（上篇）

专栏

美团技术

美团搜索中NER技术的探索与实践
美团商品知识图谱的构建及应用
美团商品知识图谱的构建及应用
美团智能客服技术实践

工具篇

实体标注(支持) | 文本分类(支持) | 关系标注(支持)

百面百搭

机器学习篇

【关于过拟合和欠拟合】那些你不知道的事
【关于归一化】那些你不知道的事
【关于 BatchNorm vs LayerNorm】那些你不知道的事
【关于优化算法】那些你不知道的事
【关于正则化】那些你不知道的事

Trick 篇

【关于主动学习】那些你不知道的事
【关于数据增强之对抗训练】那些你不知道的事
【关于 EDA 】那些你不知道的事
【关于文本分类 trick】那些你不知道的事
【关于 NER trick】那些你不知道的事
【关于语义相似度匹配任务中的 BERT】那些你不知道的事
【关于早停法 EarlyStopping 】那些你不知道的事
【关于 NLP 比赛 trick】那些你不知道的事

深度学习方法篇

【关于 CNN】那些你不知道的事
【关于 Attention 】那些你不知道的事

NLP 任务篇

【关于文本摘要】那些你不知道的事
【关于对话系统】那些你不知道的事
【关于文本分类】那些你不知道的事
【关于关系抽取】那些你不知道的事
【关于 DNN-CRF 】那些的你不知道的事
【关于中文领域 NER】那些的你不知道的事
【关于 KBQA】那些你不知道的事
【关于 GCN in NLP 】那些你不知道的事

Transformer

【关于Transformer】那些的你不知道的事（上）
【关于Transformer】那些的你不知道的事（中）
【关于Transformer】那些的你不知道的事 (下)
【关于 Transformer 代码实战（文本摘要任务篇）】那些你不知道的事

预训练

【关于 TF-idf】那些你不知道的事
【关于 Word2vec】那些你不知道的事
【关于 Elmo】那些你不知道的事
【关于 fastText】那些你不知道的事
【关于Bert】那些的你不知道的事
【关于 Bert 源码解析I 之主体篇】那些的你不知道的事
【关于 Bert 源码解析II 之预训练篇】那些的你不知道的事
【关于 Bert 源码解析III 之微调篇】那些的你不知道的事
【关于 Bert 源码解析IV 之句向量生成篇】那些的你不知道的事
【关于 Bert 源码解析V 之文本相似度篇】那些的你不知道的事

TopicShare

TopicShare 学习小组集结令
TopicShare 之浅谈强化学习
TopicShare 之盘点近年来的命名实体识别
TopicShare 之 SimCSE

五味杂谈

如何打造标准化的数据治理评估体系？
如何搭建一个好的数据指标体系？
【干货】基于KG的认知智能中台：构建及产业化实践.pdf（附下载链接）

顶会

AAAI 2021

【关于 AAAI 2021 之关系抽取论文串烧】那些你不知道的事
【关于 AAAI 2021 之命名实体识别论文串烧】那些你不知道的事
【关于 AAAI 2021 之情感分析论文串烧】那些你不知道的事

大数据

Hadoop

兄弟，用大白话告诉你小白都能看懂的Hadoop架构原理【石杉的架构笔记】
教你玩转Hadoop分布式集群搭建，进击大数据

Spark 学习

Spark 学习
RDD编程，熟悉算子，读写文件
DataFrame,SparkSQL
读取和保存数据
MLlib流

浏览 100

点赞

收藏

分享

举报

评论

图片

表情

对文章按照内容类型进行自动分类，首批支持娱乐、体育、科技等26个主流内容类型，为文章聚类、文本内容分析等应用提供基础技术支持

精心整理｜公众号文章分类目录

2021 总结与公众号文章回顾

mlog-wxbot微信公众号文章采集

mlog-wxbot，微信公众号文章采集。功能简介机器人关注技术相关的公众号，当这些公众号推送文章的时候，机器人就能够收到消息，然后将消息对应的文章内容抓取下来，通过该方式能第一时间获取到自己关注的公

mlog-wxbot微信公众号文章采集

mlog-wxbot，微信公众号文章采集。功能简介机器人关注技术相关的公众号，当这些公众号推送文章的

【干货导航】各大公众号优质文章分类导航，你想看的全都有

白帽子社区

Selenium自动化｜轻松爬取公众号文章

Crossin的编程教室

再见，公众号

公众号定制

公众号定制

公众号助手

公众号助手

点赞

收藏

分享

举报