强的离谱!这份NLP算法工程师学习路线yyds!

机器学习初学者

共 5906字,需浏览 12分钟

 ·

2022-06-09 08:49

大家都知道NLP近几年非常火,而且相关技术发展也特别快,像BERT、GPT-3、图神经网络、知识图谱等技术被大量应用于项目实践中,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求。于是很多人欲转行NLP。


但是最近有同学私信我,NLP很难学,这条路能坚持走吗?


对于这位朋友的问题,我想从两方面开始回答。


NLP学起来不容易

01

很多大多数欲从事NLP相关工作的同学,往往都是通过自学的方式来进行学习,但是这样很明显的问题是:


1. 虽然学习了解了很多算法模型,但是技术深度和宽度的理解是比较薄弱的,大多还是只停留在调用现有工具比如BERT、XLNet等阶段。 导致无论面试还是真正去业界做NLP,都会被NLP领域的”老枪老炮“们一眼识别出小白属性

2. 对于算法原理理解不深刻,这就会导致实际应用时不能很好地发挥出来,另外面试时对于大厂面试官的刨根问底,只能是眼睁睁的丢掉offer。

学到多好才能找到好工作?

02

人的精力肯定是有极限的,既然急于求成要不得,那么我们究竟得学到多好才算是“出山”,可以去外面纵横天下了呢?

而对于NLP行业的面试无非就是向面试官证明两点:

  • 我知道怎么做
  • 我做过

没错,在这个行业内企业最看重的自然是项目经历,但初学者又很难接触到工业界项目,怎么办?

安心,我已经给你准备好了,

为了迎合大家学习的需求,我们重磅推出了《自然语言处理训练营》(一定要看到最后),主要有两个目的:


   1. 对于今后想从业NLP领域的人,这可能是最全面但同时最精简的课程,学完绝对可以满足相关岗位的要求(当然面试不仅仅看技术哦~),而且大概率在技术层面上能做到同行业TOP20%的水准


    2. 对于已经从业AI领域的人,可以帮助你利用最少的时间成本来加深对知识的理解和对前沿技术的理解。


2017年有一篇开创性的文章叫作"Attention is all you need", 那我们可以很自信地说“This course is all you need”,覆盖了从经典的机器学习、文本处理技术、序列模型、深度学习、预训练模型、知识图谱到图神经网络所有必要的技术。


课程已经过10期正式开班的迭代优化,不需要任何AI基础,唯一的要求是较好的编程基础。



NLP算法工程师培养计划

助你成为行业TOP10%的工程师

对课程有意向的同学

扫描二维码咨询


01

本课程适合谁


在读学生

  • 理工科相关专业的本科/硕士/博士生,毕业后想从事NLP工作的人

  • 希望能够深入AI领域,为科研或者出国做准备

  • 希望系统性学习NLP领域的知识


在职人士
  • 目前从事IT相关的工作,今后想做跟NLP相关的项目

  • 目前从事AI相关的工作,希望与时俱进,加深对技术的理解

  • 希望能够及时掌握前沿技术


02
课程导师团介绍


李文哲

贪心学院CEO,曾任凡普金科集团首席数据科学家、 美国亚马逊和高盛高级工程师, 是金融行业开创知识图谱做大数据反欺诈的第一人。美国南加州大学博士,先后在AAAI、KDD、AISTATS、CHI等发表高水平学术论文15篇以上。


Frank Max


香港城市大学博士, 加州大学博士后,师从领域大牛。主要从事于数据分析,机器学习,图卷积,图嵌入的研究。先后在ECCV, Trans on Cybernetics, Trans on NSE, INDIN等发表高水平学术论文

王老师

毕业于QS世界综合排名TOP20名校计算机学院。研究方向为机器阅读理解,信息检索,文本生成等。曾多次于新加坡国立大学,南洋理工大学等世界名校访学交流。先后在AAAI, ICLR等发表高水平学术论文,拥有多项国家发明专利。

【课程辅导导师】高老师

数据科学家,中国科学院博士,曾发表多篇高水平学术论文。曾参与简历信息抽取与匹配项目、机器阅读理解、问答系统 无监督文本匹配、业务场景分类识别和BD交流、微博博文品牌识别、微博博文评论句子级情感分析、微博博文微信文章文本分类、微博博文微信文章关键词提取、KOL和微博周榜榜单人群画像等项目,具有十分丰富的项目经验。

【答疑导师】闫老师

某国家研究院NLP算法工程师,中国人民大学硕士,曾就职于网易,阿里巴巴等互联网大厂。负责过高阶NLP3,4,5,6,7,8,9期、高阶机器学习1,2,3,4期等课程的答疑工作。


03
课程大纲

第一周:

第一节:自然语言处理概述

  • 什么是自然语言处理 

  • 自然语言处理的现状和前景

  • 自然语言处理应用

  • 自然语言处理经典任务

  • 学习自然语言处理技术

第二节:数据结构与算法基础

  • 时间复杂度、空间复杂度

  • 斐波那契数列的时间和空间复杂度

  • 动态规划算法

  • 经典的DP问题
【直播课程】:关于逻辑回归的一切



第二周

第一节:机器学习基础 - 逻辑回归

  • 分类问题以及逻辑回归重要性

  • 辑回归的条件概率

  • 最大似然估计

  • 构建逻辑回归的目标函数

  • 优化与梯度下降法

  • 随机梯度下降法

第二节:机器学习基础 - 模型的泛化

  • 理解什么是过拟合

  • 如何防止过拟合现象

  • L1与L2正则

  • 交叉验证

  • L1正则与拉普拉斯分布

  • L2正则与高斯分布

【直播课程】:案例讲解


第三周

第一节:机器学习基础 - 其他机器学习模型

  • KNN算法

  • 朴素贝叶斯

  • 决策树

  • 随机森林

 

第二节:分词、词的标准化、过滤

  • 文本分析流程

  • 中英文的分词

  • 最大匹配算法

  • 基于语言模型的分词

  • Stemming和Lemmazation

  • 停用词的使用

  • 拼写纠错问题

  • 编辑距离的实现

  • 暴力搜索法

  • 基于后验概率的纠错

【直播课程】文本预处理实践

 

第四周

第一节:文本的表示

  • 单词的独热编码表示

  • 句子的独热编码表示

  • tf-idf表示

  • 句子相似度比较

  • 独热编码下的单词语义相似度

  • 从独热编码到词向量

  • 词向量的可视化、句子向量

第二节:【项目作业】豆瓣电影评分预测

  • 数据描述以及任务

  • 中文分词

  • 独热编码、tf-idf

  • 分布式表示与Word2Vec

  • BERT向量

  • 句子向量

【直播课程】(项目一)豆瓣电影评分预测讲解

 

第五周

第一节:词向量技术

  • 独热编码表示的优缺点

  • 独热编码与分布式表示的比较

  • 静态词向量与动态词向量

  • 学习词向量 - 分布式假设

  • SkipGram与CBOW

  • SkipGram模型的目标

  • 负采样(Negative Sampling)

  • 基于矩阵分解的词向量学习

  • 基于Glove的词向量学习

  • 在非欧式空间中的词向量学习

第二节:【项目作业】智能客服问答系统

  • l问答系统和应用场景

  • 问答系统搭建流程

  • 本的向量化表示

  • FastText

  • 倒排表技术

  • 问答系统中的召回

  • 问答系统中的排序

  • 项目:搭建知乎智能客服系统

 

【直播课程】代码直播实战:用Python从零实现SkipGram

 

第六周

第一节:语言模型

  • 语言模型的必要性

  • 马尔科夫假设

  • Unigram语言模型

  • Bigram、Trigram语言模型

  • 语言模型的评估

  • 语言模型的平滑技术

第二节:隐马尔科夫模型

  • HMM的应用

  • HMM的参数

  • HMM的推理过程和维特比算法

  • 前向、后向算法

  • Complete Case中的参数估计

  • Incomplete Case中的参数估计

【直播课程】:(项目二)智能客服问答系统项目讲解

 

第七周

第一节:无向图模型与标记偏置

  • 有向图与无向图

  • 无向图中的特征函数

  • 生成模型与判别模型

  • 从HMM到MEMM

  • MEMM中的标记偏置问题

第二节:Linear-CRF模型

  • Log-Linear模型介绍

  • Log-Linear与逻辑回归

  • 从Log-Linear到Linear-CRF

  • Log-Linear中的参数估计

  • Linear-CRF中的Partition函数计算

  • Linear-CRF的参数估计

【直播课程】:基于HMM的结巴分词

 

第八周

第一节:【项目三】基于Liner-CRF的医疗实体识别

  • 命名实体识别介绍

  • 练数据的准备

  • 特征工程

  • 结果的评估标准

  • 训练模型和测试模型

  • 项目:利用CRF抽取并识别医疗文本中的实体 

第二节:深度学习基础

  • 理解神经网络

  • 各类常见的激活函数

  • 理解多层神经网络

  • 反向传播算法

  • 神经网络中的过拟合

  • 浅层模型与深层模型对比

  • 深度学习中的层次表示

  • 练习:从零实现多层神经网络

  • 练习:激活函数的实现技巧

 

第九周

第一节:Pytorch的使用

  • 环境安装

  • Pytorch与Numpy的语法比较

  • Pytorch中的Autograd用法

  • Pytorch的Forward函数

第二节:RNN与LSTM

  • 从HMM到RNN模型

  • RNN中的梯度问题

  • 解决梯度爆炸问题

  • 梯度消失与LSTM

  • LSTM到GRU

  • 双向LSTM模型

  • 基于LSTM的生成

【直播课程】:基于特征工程+CRF的实体识别

 

第十周

第一节:Seq2Seq模型与注意力机制

  • 浅谈机器翻译

  • Seq2Seq模型

  • Greedy Decoding

  • Beam Search

  • 长依赖所存在的问题

  • 注意力机制

  • 注意力机制的不同实现

【直播课程】:智能营销文案生成

 

第十一周

第一节:动态词向量与ELMo技术

  • 基于上下文的词向量技术

  • 图像识别中的层次表示

  • 文本领域中的层次表示

  • 深度BI-LSTM

  • ELMo模型

  • ELMo的训练与测试

  • ELMo的优缺点

第二节:自注意力机制与Transformer

  • 基于LSTM模型的缺点

  • Transformer结构概览

  • 理解自注意力机制

  • 位置信息的编码

  • 理解Encoder与Decoder区别

  • 理解Transformer的训练和预测

  • Transformer的缺点

【直播课程】:代码训练之利用ELMo训练词向量

 

第十二周

第一节:BERT与ALBERT

  • 自编码器介绍

  • Transformer Encoder

  • Masked LM

  • BERT模型

  • BERT模型不同训练方式

  • ALBERT 

第二节:【项目作业】基于闲聊的对话系统搭建

  • 对话系统介绍

  • 常见的对话系统技术

  • 闲聊型对话系统框架

  • 料库的准备

  • 据的处理 

【直播课程】:基于Transformer模型的机器翻译

 

第十三周

第一节:BERT的其他变种

  • RoBERTa模型

  • SpanBERT模型

  • FinBERT模型

  • 引入先验知识

  • K-BERT

  • KG-BERT

第二节:GPT与XLNet

  • Transformer Encoder回顾

  • GPT-1,GPT-2

  • GPT-3

  • ELMo的缺点

  • 语言模型下同时考虑上下文

  • Permutation LM

  • 双流自注意力机制

  • Transformer-XL

  • XLNet总结

【直播课程】:实战案例之GPT-3代码解读和应用

 

第十四周

第一节:命名实体识别与实体消歧

  • 信息抽取的应用和关键技术

  • 命名实体识别

  • NER识别常用技术

  • 实体消歧技术

  • 实体消歧常用技术

  • 实体统一技术

  • 指代消解

第二节:关系抽取

  • 关系抽取的应用

  • 基于规则的方法

  • 基于监督学习方法

  • Bootstrap方法

  • Distant Supervision方法

【直播课程】:基于BERT-BILSTM-CRF的命名实体识别

 

第十五周

第一节:句法分析

  • 句法分析以及应用

  • CFG介绍

  • 从CFG到PCFG

  • 评估语法树

  • 寻找最好的语法树

  • CKY算法

第二节:依存文法分析

  • 从语法分析到依存文法分析

  • 依存文法分析的应用

  • 使用依存文法分析

  • 基于图算法的依存文法分析

  • 基于Transtion-based的依存文法分析

  • 其他依存文法分析方法论

【直播课程】A Fast and Accurate Dependency Parser using Neural Networks

 

第十六周

第一节:知识图谱

  • 知识图谱以及重要性

  • 知识图谱中的实体和关系

  • 利用非结构化数据构造知识图谱

  • 知识图谱的设计

第二节:【项目作业】搭建基于医疗知识图谱的问答系统

  • 基于知识图谱的问答系统框架

  • 医疗专业词汇的使用

  • 获取问句的意图

  • 问句的解释,提取关键实体

  • 讲意图和关键信息转化为查询语句

  • 把查询结果转化为自然语言的形式

【直播课程】:(项目四)基于闲聊的对话系统搭建

 

第十七周

第一节:模型的压缩

  • 模型压缩的必要性

  • 常见的模型压缩算法总览

  • 于矩阵分解的压缩技术

  • 从BERT到ALBERT的压缩

  • 基于贝叶斯模型的压缩技术

  • 模型的量化

  • 模型的蒸馏方法

第二节:基于图的学习

  • 图的表示

  • 图与知识图谱

  • 基于图表示的应用场景

  • 关于图的一些常见算法

  • Deepwalk和Node2vec

  • TransE图嵌入模型

  • DSNE图嵌入模型

【直播课程】:模型压缩实战

 

第十八周

第三十四章:图神经网络

  • 卷积神经网络的回顾

  • 图神经网络发展历程

  • 设计图中的卷积操作

  • 图中的信息传递

  • 图卷积神经网络(GCN)

第三十五章:GraphSage与GAT

  • GCN的优缺点

  • 从GCN到GraphSage

  • 注意力机制回顾

  • 注意力机制与图表示

  • GAT模型详解

  • GAT与GCN的比较

  • 对于Heterogenous数据处理

【直播课程】:(项目五)搭建基于医疗知识图谱的问答系统讲解

 

第十九周

第三十六章:图神经网络与其他应用

  • Node Classification

  • Graph Classification

  • Link Prediction

  • Community Detection

  • 推荐系统中的应用

  • 文本分类中的应用

  • 图神经网络的未来发展

【直播课程】GCN在文本分类中的应用

【直播课程】就业指导



NLP算法工程师培养计划


助你成为行业TOP10%的工程师

对课程有意向的同学

扫描二维码咨询


04
课程中的部分案例

1. 实现一个拼写纠错器
        2. 从零实现Word2Vec词向量
        3. 利用SkipGram做推荐
        4. 从零实现HMM模型
        5. 基于Linear-CRF的词性分类器实现
        6. 从零实现深度学习反向传播算法
        7. 实现AI程序帮助写程序
        8. 实现AI程序帮助写文章
 9. 基于Transformer的机器翻译
       10. 基于KG-BERT的知识图谱学习
       11. 基于知识图谱的风控系统
       12. 基于知识图谱的个性化教学
       13. 利用蒸馏算法压缩Transformer
       14. 利用GCN实现社交推荐
       15. 基于GAT的虚假新闻检测
      (剩下20+个案例被折叠,完整请咨询...)



05
部分项目作业
(完整的请咨询)

01

豆瓣电影评分预测

    涉及到的知识点
  • 中文分词技术

  • 独热编码、tf-idf

  • 分布式表示与Word2Vec

  • BERT向量、句子向量


02

智能客服问答系统

    涉及到的知识点
  • 问答系统搭建流程

  • 文本的向量化表示

  • FastText

  • 倒排表

  • 问答系统中的召回、排序


03

基于Linear-CRF的医疗实体识别

    涉及到的知识点
  • 命名实体识别

  • 特征工程

  • 评估标准

  • 过拟合


04

基于闲聊的对话系统搭建

    涉及到的知识点
  • 常见的对话系统技术

  • 闲聊型对话系统框架

  • 数据的处理技术

  • BERT的使用

  • Transformer的使用


05

搭建基于医疗知识图谱的问答系统

    涉及到的知识点
  • 医疗专业词汇的使用

  • 获取问句的意图

  • 问句的解释、提取关键实体

  • 转化为查询语句




NLP算法工程师培养计划

助你成为行业TOP10%的工程师

对课程有意向的同学

扫描二维码咨询


浏览 12
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报