NLP菜鸟逆袭
NLP菜鸟逆袭记:
地址:
Github地址:https://github.com/km1994/AwesomeNLP
dGitee 地址:https://gitee.com/km601/AwesomeNLP_gitee
x
介绍:【NLP菜鸟逆袭】分享 自然语言处理(文本分类、信息抽取、知识图谱、机器翻译、问答系统、文本生成、Text-to-SQL、文本纠错、文本挖掘、知识蒸馏、模型加速、OCR、TTS、Prompt、embedding等)等 实战与经验。
梳理 NLP基础任务(文本分类、命名实体识别、关系抽取、事件抽取、文本摘要、文本生成、Prompt)和 LLMs 大模型等开源项目,争取做成一个全网最全NLP小白入门教程!
一、文本分类
1.1 多类别文本分类
-
NLP菜鸟逆袭记——【多类别文本分类】笔记 -
多类别文本分类 实战篇 -
非预训练类模型 -
FastText -
TextCNN -
TextRNN -
TextRCNN -
Transformer -
预训练类模型 -
Bert -
Albert -
Roberta -
Distilbert -
Electra
-
NLP菜鸟逆袭记——【多类别文本分类】实战
1.2 多标签文本分类
-
NLP菜鸟逆袭记——【多标签文本分类】笔记 -
多标签文本分类 实战篇 -
NLP菜鸟逆袭记——【基于 Bert 中文多标签分类】实战 -
NLP菜鸟逆袭记——【剧本角色情感 中文多标签分类】实战
1.3 方面级情感识别
-
NLP菜鸟逆袭记——【基于方面的情感分析(ABSA)】理论 -
基于方面的情感分析(ABSA) 实战篇 -
NLP菜鸟逆袭记——【基于 Bert 中文方面级情感识别】实战
1.4 文本匹配
-
NLP菜鸟逆袭记——【文本匹配】理论 -
文本匹配 实战篇 -
NLP菜鸟逆袭记——【文本匹配】实战
二、信息抽取
2.1 命名实体识别
-
命名实体识别 理论篇 -
NLP菜鸟逆袭记——【HMM->MEMM->CRF】实战 -
DNN-CRF 理论篇 -
命名实体识别 实战篇 -
NLP菜鸟逆袭记——【Bert-CRF】实战 -
NLP菜鸟逆袭记——【Bert-Softmax】实战 -
NLP菜鸟逆袭记——【Bert-Span】实战 -
NLP菜鸟逆袭记——【MRC for Flat Nested NER:一种基于机器阅读理解的命名实体识别】实战 -
NLP菜鸟逆袭记——【Biaffine NER:一种基于双仿射注意力机制的命名实体识别】实战 -
NLP菜鸟逆袭记——【Multi Head Selection Ner:一种基于多头选择的命名实体识别】实战 -
NLP菜鸟逆袭记——【one vs rest NER:一种基于one vs rest的命名实体识别】实战 -
NLP菜鸟逆袭记——【GlobalPointer:一种基于span分类的解码方法】实战 -
NLP菜鸟逆袭记——【W2NER:一种统一的命名实体识别词与词的的命名实体识别】实战
2.2 关系抽取
-
NLP菜鸟逆袭记——【关系抽取(分类)】理论 -
关系抽取 实战篇 -
NLP菜鸟逆袭记——【BERT-RE:一种基于 Bert 的 Pipeline 实体关系抽取】实践 -
NLP菜鸟逆袭记——【Casrel Triple Extraction:一种基于 CasRel 的 三元组抽取】实践 -
NLP菜鸟逆袭记——【GPLinker:一种基于 GPLinker的 三元组抽取】实践
2.3 事件抽取
-
事件抽取 理论篇 -
事件抽取 实战篇 -
NLP菜鸟逆袭记——【BERT Event Extraction:一种基于 Bert 的 Pipeline 事件抽取】实践 -
NLP菜鸟逆袭记——【BERT MRC Event Extraction:一种基于 MRC 的 事件抽取】实践
2.4 属性抽取
-
NLP菜鸟逆袭记——【属性抽取(Attribute Extraction)】理论 -
属性抽取 实战篇 -
NLP菜鸟逆袭记——【一种基于 albert 的中文属性抽取 —— Albert for Attribute Extraction】实践
2.5 关键词抽取
-
【NLP菜鸟逆袭记—【关键词提取】理论 -
关键词抽取 实战篇
2.6 新词发现
-
NLP菜鸟逆袭记—【新词发现】理论 -
新词发现 实战篇
三、知识图谱
3.1 知识图谱
-
【NLP菜鸟逆袭记—【知识图谱】理论 -
知识图谱 实战篇 -
NLP菜鸟逆袭记—【基于金融知识图谱的知识计算引擎构建】实战 -
NLP菜鸟逆袭记—【基于金融知识图谱的问答系统】实战
3.2 实体链指
-
【NLP菜鸟逆袭记—【实体链指】理论 -
实体链指 实战篇
3.3 知识图谱补全
-
【NLP菜鸟逆袭记—【知识图谱补全】理论 -
知识图谱补全 实战篇
3.4 neo4j
-
【NLP菜鸟逆袭记—【Neo4j】实战
四、机器翻译
-
NLP菜鸟逆袭记—【机器翻译】理论 -
机器翻译 实战篇 -
NLP菜鸟逆袭记—【seq2seq_english_to_chinese 一种结合 seq2seq 的 文本翻译】理论
五、问答系统
-
NLP菜鸟逆袭记—【智能问答技术】理论
5.1 阅读理解
-
NLP菜鸟逆袭记—【机器阅读理解】理论 -
阅读理解 实战篇 -
NLP菜鸟逆袭记—【基于QANet的中文阅读理解】实战
5.2 检索式问答
-
NLP菜鸟逆袭记—【FAQ 检索式问答系统】理论 -
检索式问答 实战篇 -
NLP菜鸟逆袭记—【Faiss】实践 -
NLP菜鸟逆袭记—【milvus】理论
5.3 基于知识图谱问答
-
NLP菜鸟逆袭记—【KBQA】理论 -
基于知识图谱问答 实战篇 -
NLP菜鸟逆袭记—【基于金融知识图谱的知识计算引擎构建】实战 -
NLP菜鸟逆袭记—【基于金融知识图谱的问答系统】实战
5.4 基于知识图谱问答
-
NLP菜鸟逆袭记—【对话系统】理论 -
对话系统 实战篇
六、文本生成
-
NLP菜鸟逆袭记—【自然语言生成】理论 -
文本生成 实战篇 -
NLP菜鸟逆袭记—【Bert_Unilm】实践 -
NLP菜鸟逆袭记—【T5_Pegasus】实践
七、Text-to-SQL
-
NLP菜鸟逆袭记—【Text-to-SQL】理论 -
Text-to-SQL 实战篇
八、文本纠错
-
NLP菜鸟逆袭记—【文本纠错】理论 -
文本纠错 实战篇 -
NLP菜鸟逆袭记—【一种结合 Bert 的 中文拼写检查】实战 -
NLP菜鸟逆袭记—【CSC 一种结合 Soft-Masked Bert 的 中文拼写检查】实战
九、文本挖掘
-
NLP菜鸟逆袭记—【文本挖掘】理论 -
文本挖掘 实战篇
十、知识蒸馏
-
NLP菜鸟逆袭记—【Bert 压缩】理论 -
NLP菜鸟逆袭记【FastBERT】理论 -
知识蒸馏 实战篇 -
NLP菜鸟逆袭记【Distilling Task-Specific from BERT into SNN】实战 -
NLP菜鸟逆袭记【FastBERT】实战
十一、模型加速
11.1 CTranslate2
-
NLP菜鸟逆袭记—【模型加速 —— CTranslate2】理论
11.2 optimum
-
NLP菜鸟逆袭记—【模型加速 —— Optimum】理论
十二、OCR
-
NLP菜鸟逆袭记—【OCR】理论
12.1 pytesseract
-
NLP菜鸟逆袭记—【OCR —— tesseract】理论
12.2 hn_ocr
-
NLP菜鸟逆袭记—【OCR —— hn_ocr】理论
12.3 PaddleOCR
-
NLP菜鸟逆袭记—【OCR —— PaddleOCR】理论
十三、TTS
-
NLP菜鸟逆袭记—【文本语音合成 TTS】理论
13.1 pyttsx3
-
NLP菜鸟逆袭记—【文本语音合成 —— pyttsx3】实战
13.2 PaddleSpeech
-
PaddleSpeech 理论篇
13.3 tensorflow_tts
-
NLP菜鸟逆袭记—【文本语音合成 —— tensorflow_tts】实战
13.4 KAN_TTS
-
NLP菜鸟逆袭记—【文本语音合成 —— KAN-TTS】实战
十四、Prompt
-
NLP菜鸟逆袭记—【Prompt】实战 -
Prompt 实战篇 -
NLP菜鸟逆袭记—【PromptCLUE】实战
十五、embedding
-
NLP菜鸟逆袭记—【Embeddings】理论 -
embedding 实战篇 -
NLP菜鸟逆袭记—【sbert】实战 -
NLP菜鸟逆袭记—【text2vec】实战 -
NLP菜鸟逆袭记—【SGPT:基于GPT的生成式embedding】实战 -
NLP菜鸟逆袭记—【BGE —— 智源开源最强语义向量模型】实战 -
NLP菜鸟逆袭记—【M3E:一种大规模混合embedding】实战
NLP 神器
-
chaizi:一种 汉语拆字词典 神器 -
cn2an:一种中文数字与阿拉伯数字的相互转换神器 -
cocoNLP:一种 人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法 -
difflib.SequenceMatcher:一种 文本查重 神器 -
Entity_Emotion_Express:一种 词汇情感值 神器 -
jieba_fast:一种 中文分词 神器 -
JioNLP:一种 中文 NLP 预处理 神器 -
ngender:一种 根据名字判断性别 神器 -
pdfplumber:一种 pdf 内容解析神器 -
phone:一种 中国手机归属地查询 神器 -
PrettyTable:一种 生成美观的ASCII格式的表格 神器 -
Pypinyin:一种汉字转拼音神器 -
Rank-BM25:一种 基于bm25算法 神器 -
schedule :一种 最全的Python定时任务神器 -
similarity:一种 相似度计算 神器 -
SnowNLP:一种 中文文本预处理 神器 -
Synonyms:一种中文近义词 神器 -
textfilter:一种 中英文敏感词过滤 神器 -
一种 中文缩写库 神器
LLMs 千面郎君:https://github.com/km1994/LLMs_interview_notes
介绍:该仓库主要记录 大模型(LLMs) 算法工程师相关的面试题
LLMs九层妖塔:https://github.com/km1994/LLMsNineStoryDemonTower
介绍:【LLMs九层妖塔】分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。
NLP 面无不过:https://github.com/km1994/NLP-Interview-Notes
介绍:该仓库主要记录 NLP 算法工程师相关的面试题
【关于 NLP】 那些你不知道的事:https://github.com/km1994/nlp_paper_study
介绍:该仓库主要记录 NLP 算法工程师相关的顶会论文研读笔记