【NLP】NLP爱好者学习资源推荐汇总
书籍篇
《Speech and Language Processing》
第三版:
https://web.stanford.edu/~jurafsky/slp3/
作者:Daniel Jurafsky & James H. Martin
主要内容:
本书内容涵盖了自然语言处理的方方面面,从底层的词法分词、语法分析和语义分析,到和应用更为接近的自然语言处理任务,如信息抽取、机器翻译、自动问答、文本摘要、对话系统等。书中将自然语言处理、计算语言学以及语音识别等内容融合在一起,把各种技术相互联系起来,让读者了解怎样才能最佳地利用每种技术,怎样才能将各种技术结合起来使用。本书在国内有中译本《自然语言处理综论》。
《Foundations of Statistical Natural Language Processing》
电子版:https://nlp.stanford.edu/fsnlp/
作者:Chris Manning & Hinrich Schütze
主要内容:本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。本书在国内有中译本《统计自然语言处理基础》
《Introduction to Information Retrieval》
电子版:https://nlp.stanford.edu/IR-book/
作者:Chris Manning、Prabhakar Raghavan & Hinrich Schütze
排名/搜索领域的一本好书。本书在国内有中译本《信息检索导论》
《Neural Network Methods in Natural Language Processing》
电子版:http://u.cs.biu.ac.il/~yogo/nnlp.pdf
作者:Yoav Goldberg
对NLP领域神经网络应用的深入介绍。
《统计自然语言处理(第2版)》
作者:宗成庆
主要内容:本书介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等。
《自然语言处理的表示学习》
本书是一本完整介绍自然语言处理表示学习技术的著作。书中全面介绍了表示学习技术在自然语言处理领域的最新进展,对相关理论、方法和应用进行了深入介绍,并展望了未来的重要研究方向。
《神经网络与深度学习》
丘锡鹏老师的书,一方面是出版时间很新(20年5月),另一方面是书相对较小,不会给初学者造成太大压力。
《深度学习》
《深度学习》(花书)不是一次就能读完读透的,已经有基础的同学可以当作工具书来用,在碰到难题或者面试前都可以翻翻。没有基础的同学最好先看上一本。除了深度学习之外,经典的统计方法也是需要了解的,业界也有一些应用场景,像分词这样对速度要求高的任务不必要上神经网络,经典方法足矣。
《自然语言处理入门》
这本是HanLP的作者何晗出品的,HanLP是Github上一个21k的项目,基于Java高效地实现了分词、词性标注等通用句法、语义任务,虽然不是研究层面的,但在工业界应用十分广泛,很多公司的分词基础组件都是基于HanLP改的。何晗大佬的这本书主要从统计算法角度讲解,侧重于句法分析任务的理论和实践。
《数学之美》
数学之美是吴军老师很经典的科普读物,用易懂的语言和故事带我们了解一个个NLP应用。书不厚,适合闲暇时间阅读。
《知识图谱与深度学习》
刘知远老师、韩旭博士和孙茂松教授20年中出品的书,系统地介绍了知识图谱相关模型及应用,还有各模型的实验测评。
《智能问答》+《机器翻译》+《知识图谱》
这三本18年底出版的系列书籍是周明、李沐、赵军三位大佬分别署名的,主要是对该领域进行体系化地分类,再介绍历任模型、数据集等,可以当综述看。
《文本情感分析》
由中科院靳小龙团队在19年11月出版,比较新,系统地介绍了情感分析领域。
《机器阅读理解算法与实践》
斯坦福博士、微软研究员朱晨光20年初的书,除了阅读理解外还介绍了NLP基础,并讲到了最新的BERT,同时配有阅读理解模型代码,适合初入该领域的同学。
《百面系列》
Hulu团队出品,基本是面试必备了。虽然基础都学了,但面试时总会发现有知识点遗漏,这两本可以帮忙迅速补救。
《动手学深度学习》
李沐在19年中出版的实战书,虽然使用了MXNet这个框架,但概念的讲解和Python实现都不错,适合快速上手。目前的深度学习框架都差不多,蹭别人源码时用pytorch和tensorflow都有可能,不用太拘泥,初入门时主要学习模型的逻辑。
本书代码库:
https://github.com/diveintodeeplearning/d2l-zh
《自然语言处理实战》
如果不想看MXNet,可以参考这本比较新的书,20年底出版,配有Keras代码,比其他深度学习框架都容易些。
《TensorFlow自然语言处理》
19年7月出版,从词向量到文本生成都有讲,还不错。
《Machine Learning Yearning》
作者:吴恩达
吴恩达《Machine Learning Yearning》中文版pdf下载
一本培养机器学习思维的书
《机器学习》/《机器学习公式详解》/《统计学习方法》
《机器学习公式详解》是《机器学习》配套的公式推导书籍。Python 实现李航老师的《统计学习方法》一书中所有算法代码库地址:https://github.com/WenDesi/lihang_book_algorithm
《Pattern Recognition and Machine Learning》
本书中文译名《模式识别与机器学习》,简称 PRML,出自微软剑桥研究院实验室主任 Christopher Bishop 大神之手。PRML 是模式识别和机器学习领域的经典著作,出版于 2007 年。该书作者 Christpher M. Bishop 是模式识别和机器学习领域的大家。PRML 深入浅出地介绍了模式识别与机器学习的基本理论和主要方法,不仅适合初学者学习,而且对专业研究人员也有很大的参考价值。
下载主页:https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book
本书代码:
http://prml.github.io/
PRML python 代码链接:
https://github.com/ctgk/PRML
PRML习题答案:
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/05/prml-web-sol-2009-09-08.pdf
ChillyRain 的"PRML Notes"系列博文
http://chillyrain.is-programmer.com/categories/7613/posts
在线课程篇
斯坦福大学自然语言处理入门课程
教师:Dan Jurafsky & Chris Manning
https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269
斯坦福CS224d:用深度学习做自然语言处理
教师:Richard Socher
http://cs224d.stanford.edu/syllabus.html
与Manning的入门课程相比,这门课讲解了更高级的机器学习算法,以及用于NLP的深度学习和神经网络架构。这是斯坦福大学自然语言小组的基于深度学习的自然语言处理的课程。主要介绍了自然语言处理领域广泛应用的网络结构(例如循环神经网络、卷积神经网络以及递归神经网络等)及其在自然语言处理的经典任务,例如分类任务(情感分类),序列标注任务(实体识别),序列到序列的生成任务(机器翻译)的实际应用。
Oxford Deep Learning for NLP class
教师:Phil Blunsom. (2017) Class by Deep Mind NLP Group.
https://github.com/oxford-cs-deepnlp-2017/lectures
DeepMind团队成员在牛津大学教授基于深度学习的自然语言处理的课程。内容涉及到词嵌入,基于循环神经网络的语言模型,基于循环神经网络和卷积神经网络的文本分类,基于循环神经网络的条件语言模型(广泛应用于机器翻译、文本摘要等)及其中的注意力机制,以及基于深度学习模型的自动问答等主要自然语言处理的任务。
CS224n
http://web.stanford.edu/class/cs224n/
斯坦福的深度学习的自然语言处理,包括视频、PPT讲义。
吴恩达的机器学习
https://www.coursera.org/learn/machine-learning#syllabus
这是机器学习的经典视频。这门课程由吴恩达老师主讲,可以说是机器学习入门的最热门课程,绝大部分初学者是看这门课入门机器学习的。有人在github开源了吴恩达机器学习个人笔记,用Python复现了课程作业,star数达到20000+,地址:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
吴恩达深度学习课程笔记:
https://github.com/fengdu78/deeplearning_ai_books
李宏毅老师的系列课程
http://speech.ee.ntu.edu.tw/~tlkagk/courses.html
林轩田老师的课程,机器学习基石和机器学习技法
主页:
https://www.csie.ntu.edu.tw/~htlin/mooc/
主页可以找到课程资料以及视频链接。没梯子也可以B站看。
教程习题解答:
https://github.com/Doraemonzzz/Learning-from-data
深度学习框架篇
Keras
官方文档:
https://github.com/keras-team/keras中文文档:
https://keras-cn.readthedocs.io/en/latest/
Tensorflow
官方文档:
https://github.com/tensorflow/tensorflow中文文档:
http://www.tensorfly.cn/中文教程:
https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial例子:
https://github.com/aymericdamien/TensorFlow-Examples
Pytorch
官方文档:
https://github.com/pytorch/pytorch中文文档:
https://pytorch.apachecn.org/#/例子:
https://github.com/yunjey/pytorch-tutorial超全资源:
https://github.com/bharathgs/Awesome-pytorch-list
论文篇
国内有一个关于计算机的排名叫
CCF推荐排名(原链接丢失,以下长长的链接建议到浏览器打开):
https://blog.csdn.net/cxqiang2013/article/details/44837425?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.wap_blog_relevant_pic&dist_request_id=1328740.37902.16169828571462503&depth_1-utm_source=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.wap_blog_relevant_pic
里面包罗了计算机各大领域的会议期刊排名,比如计算机体系结构、计算机网络、人工智能、数据挖掘等等。CCF 推荐排名把会议和期刊被分成 A,B,C 三类。但是这个国内人搞的,国外基本不看这个。不过被推到这里的会议/期刊质量都还算不错。
国外把 ACL、EMNLP、NAACL、COLING 被称为 NLP 四大顶会,其中唯独ACL在CCF里面是 A 类,可见在 ACL 中一篇文章是很难的。ACL 学会在北美和欧洲召开分年会,分别称为NAACL和EACL。
ACL 学会下设多个特殊兴趣小组,其中比较有名的诸如 SIGDAT、SIGNLL 等。而 EMNLP 则是 SIGDAT 组织的国际会议。比较有名的还有 SIGNLL 组织的 CoNLL。
NLP/CL 也有自己的旗舰学术期刊 Computational Linguistics 和 ACL 创办的期刊 TACL。
作为交叉学科,也有很多相关领域值得关注。主要包括:信息检索和数据挖掘领域:SIGIR、WWW、KDD、WSDM 等和人工智能领域: AAAI、IJCAI 等。
博客篇
Google研究博客
https://research.googleblog.com/
语言日志博客(Mark Liberman)
http://languagelog.ldc.upenn.edu/nll/
Sebastian Ruder’s blog
http://ruder.io/
Jay Alammar’s illustrated blog
http://jalammar.github.io/
NLP Highlights hosted by Matt Gardner and Waleed Ammar
https://podcasts.apple.com/us/podcast/nlp-highlights/id1235937471
苏剑林的博客
https://kexue.fm/
其他篇
100 Days Of ML Code:
地址:
https://github.com/Avik-Jain/100-Days-Of-ML-Code
中文版地址:
https://github.com/Avik-Jain/100-Days-of-ML-Code-Chinese-VersionDeep Learning with Python:
地址:
https://github.com/fchollet/deep-learning-with-python-notebooks
中文版链接:
https://pan.baidu.com/s/1Fsc1gg8D8E39XhQZ_nRn2Q
提取码:indzReddit 超高赞免费 NLP 课程:
地址:
https://github.com/yandexdataschool/nlp_course一个提供了很多机器学习问题的当前最优结果的项目:
地址:
https://github.com//RedditSota/state-of-the-art-result-for-machine-learning-problems跟踪 NLP 当前最新技术进度的项目:
地址:
https://github.com/yuquanle/NLP-progress川大毕业极客创建项目深度学习500问:
地址:
https://github.com/yuquanle/DeepLearning-500-questions汇集了40个关于中文 NLP 词库项目:
地址:
https://github.com/yuquanle/funNLP机器学习/深度学习/自然语言处理/C/C++/Python/面试笔记:
地址:
https://github.com/yuquanle/Algorithm_Interview_Notes-Chinese清华大学 NLP 组 github,很多 paper 的整理:https://github.com/thunlp/
AI Challenger 2018 baseline方法:
地址:
https://github.com/AIChallenger/AI_Challenger_2018一份很全面的机器学习算法资料,包括视频、代码、Demo:
地址:
https://github.com/trekhleb/homemade-machine-learning200 多个最好的机器学习、NLP 和 Python 相关教程:
地址:http://suo.im/5fTvIN机器学习小抄(像背单词一样理解机器学习):
地址:
https://pan.baidu.com/s/1eQpA1DknCJCgjMS8QMLOJQ提取码:b79u
在JupiterNotebook下利用python和一些数据科学库实现的nlp基础教程,包括情感分析,句子生成等nlp基本内容
https://github.com/adashofdata/nlp-in-python-tutorial
东北大学自然语言处理实验室维护的自然语言处理和机器学习综述论文项目
https://github.com/NiuTrans/ABigSurvey
欢迎交流指正
参考资料:
[1]https://mp.weixin.qq.com/s/NKUvSe0qPpXgb4bE2ZrwfA
[2]https://mp.weixin.qq.com/s/7m90zihmoGZABP7Ib4aYIA
[3]https://mp.weixin.qq.com/s/_TWehfGCT6sKoZzYGQBsCw
[4]https://mp.weixin.qq.com/s/3WfIY5I8rJh-hs7xJRoE5A
[5]https://zhuanlan.zhihu.com/p/88404821
[6]https://mp.weixin.qq.com/s/TOPHDo4YfRVr4h6V92I-xw
[7]https://mp.weixin.qq.com/s/s7jqVhs5a6WdfsYsDFs9Vg
[8]https://mp.weixin.qq.com/s/ZB6cFfjaGJ7MiBQLb6SI4A
[9]https://mp.weixin.qq.com/s/nekdcpdhTPkyggMXzzVT2w
[10]https://www.6aiq.com/article/1584520876427
[11]https://mp.weixin.qq.com/s/po_zYjcGA01msd90bb9jRg
往期精彩回顾
本站qq群851320808,加入微信群请扫码: