NLP菜鸟逆袭

共 8831字,需浏览 18分钟

 ·

2024-07-19 07:00




NLP菜鸟逆袭记:




    • 地址:



      • Github地址:https://github.com/km1994/AwesomeNLP





      • dGitee 地址:https://gitee.com/km601/AwesomeNLP_gitee


      •  x








    • 介绍:【NLP菜鸟逆袭】分享 自然语言处理(文本分类、信息抽取、知识图谱、机器翻译、问答系统、文本生成、Text-to-SQL、文本纠错、文本挖掘、知识蒸馏、模型加速、OCR、TTS、Prompt、embedding等)等 实战与经验。




梳理 NLP基础任务(文本分类、命名实体识别、关系抽取、事件抽取、文本摘要、文本生成、Prompt)和 LLMs 大模型等开源项目,争取做成一个全网最全NLP小白入门教程!


一、文本分类


1.1 多类别文本分类





  • NLP菜鸟逆袭记——【多类别文本分类】笔记



  • 多类别文本分类 实战篇




    • 非预训练类模型




      • FastText



      • TextCNN



      • TextRNN



      • TextRCNN



      • Transformer




    • 预训练类模型




      • Bert



      • Albert



      • Roberta



      • Distilbert



      • Electra








    • NLP菜鸟逆袭记——【多类别文本分类】实战



1.2 多标签文本分类





  • NLP菜鸟逆袭记——【多标签文本分类】笔记



  • 多标签文本分类 实战篇




    • NLP菜鸟逆袭记——【基于 Bert 中文多标签分类】实战



    • NLP菜鸟逆袭记——【剧本角色情感 中文多标签分类】实战



1.3 方面级情感识别





  • NLP菜鸟逆袭记——【基于方面的情感分析(ABSA)】理论



  • 基于方面的情感分析(ABSA) 实战篇




    • NLP菜鸟逆袭记——【基于 Bert 中文方面级情感识别】实战



1.4 文本匹配





  • NLP菜鸟逆袭记——【文本匹配】理论



  • 文本匹配 实战篇




    • NLP菜鸟逆袭记——【文本匹配】实战



二、信息抽取


2.1 命名实体识别





  • 命名实体识别 理论篇




    • NLP菜鸟逆袭记——【HMM->MEMM->CRF】实战



    • DNN-CRF 理论篇




  • 命名实体识别 实战篇




    • NLP菜鸟逆袭记——【Bert-CRF】实战



    • NLP菜鸟逆袭记——【Bert-Softmax】实战



    • NLP菜鸟逆袭记——【Bert-Span】实战



    • NLP菜鸟逆袭记——【MRC for Flat Nested NER:一种基于机器阅读理解的命名实体识别】实战



    • NLP菜鸟逆袭记——【Biaffine NER:一种基于双仿射注意力机制的命名实体识别】实战



    • NLP菜鸟逆袭记——【Multi Head Selection Ner:一种基于多头选择的命名实体识别】实战



    • NLP菜鸟逆袭记——【one vs rest NER:一种基于one vs rest的命名实体识别】实战



    • NLP菜鸟逆袭记——【GlobalPointer:一种基于span分类的解码方法】实战



    • NLP菜鸟逆袭记——【W2NER:一种统一的命名实体识别词与词的的命名实体识别】实战



2.2 关系抽取





  • NLP菜鸟逆袭记——【关系抽取(分类)】理论



  • 关系抽取 实战篇




    • NLP菜鸟逆袭记——【BERT-RE:一种基于 Bert 的 Pipeline 实体关系抽取】实践



    • NLP菜鸟逆袭记——【Casrel Triple Extraction:一种基于 CasRel 的 三元组抽取】实践



    • NLP菜鸟逆袭记——【GPLinker:一种基于 GPLinker的 三元组抽取】实践



2.3 事件抽取





  • 事件抽取 理论篇



  • 事件抽取 实战篇




    • NLP菜鸟逆袭记——【BERT Event Extraction:一种基于 Bert 的 Pipeline 事件抽取】实践



    • NLP菜鸟逆袭记——【BERT MRC Event Extraction:一种基于 MRC 的 事件抽取】实践



2.4 属性抽取





  • NLP菜鸟逆袭记——【属性抽取(Attribute Extraction)】理论



  • 属性抽取 实战篇




    • NLP菜鸟逆袭记——【一种基于 albert 的中文属性抽取 —— Albert for Attribute Extraction】实践



2.5 关键词抽取





  • 【NLP菜鸟逆袭记—【关键词提取】理论



  • 关键词抽取 实战篇


2.6 新词发现





  • NLP菜鸟逆袭记—【新词发现】理论



  • 新词发现 实战篇


三、知识图谱


3.1 知识图谱





  • 【NLP菜鸟逆袭记—【知识图谱】理论



  • 知识图谱 实战篇




    • NLP菜鸟逆袭记—【基于金融知识图谱的知识计算引擎构建】实战



    • NLP菜鸟逆袭记—【基于金融知识图谱的问答系统】实战



3.2 实体链指





  • 【NLP菜鸟逆袭记—【实体链指】理论



  • 实体链指 实战篇


3.3 知识图谱补全





  • 【NLP菜鸟逆袭记—【知识图谱补全】理论



  • 知识图谱补全 实战篇


3.4 neo4j





  • 【NLP菜鸟逆袭记—【Neo4j】实战


四、机器翻译





  • NLP菜鸟逆袭记—【机器翻译】理论



  • 机器翻译 实战篇




    • NLP菜鸟逆袭记—【seq2seq_english_to_chinese 一种结合 seq2seq 的 文本翻译】理论



五、问答系统





  • NLP菜鸟逆袭记—【智能问答技术】理论


5.1 阅读理解





  • NLP菜鸟逆袭记—【机器阅读理解】理论



  • 阅读理解 实战篇




    • NLP菜鸟逆袭记—【基于QANet的中文阅读理解】实战



5.2 检索式问答





  • NLP菜鸟逆袭记—【FAQ 检索式问答系统】理论



  • 检索式问答 实战篇




    • NLP菜鸟逆袭记—【Faiss】实践



    • NLP菜鸟逆袭记—【milvus】理论



5.3 基于知识图谱问答





  • NLP菜鸟逆袭记—【KBQA】理论



  • 基于知识图谱问答 实战篇




    • NLP菜鸟逆袭记—【基于金融知识图谱的知识计算引擎构建】实战



    • NLP菜鸟逆袭记—【基于金融知识图谱的问答系统】实战



5.4 基于知识图谱问答





  • NLP菜鸟逆袭记—【对话系统】理论



  • 对话系统 实战篇


六、文本生成





  • NLP菜鸟逆袭记—【自然语言生成】理论



  • 文本生成 实战篇




    • NLP菜鸟逆袭记—【Bert_Unilm】实践



    • NLP菜鸟逆袭记—【T5_Pegasus】实践



七、Text-to-SQL





  • NLP菜鸟逆袭记—【Text-to-SQL】理论



  • Text-to-SQL 实战篇


八、文本纠错





  • NLP菜鸟逆袭记—【文本纠错】理论



  • 文本纠错 实战篇




    • NLP菜鸟逆袭记—【一种结合 Bert 的 中文拼写检查】实战



    • NLP菜鸟逆袭记—【CSC 一种结合 Soft-Masked Bert 的 中文拼写检查】实战



九、文本挖掘





  • NLP菜鸟逆袭记—【文本挖掘】理论



  • 文本挖掘 实战篇


十、知识蒸馏





  • NLP菜鸟逆袭记—【Bert 压缩】理论




    • NLP菜鸟逆袭记【FastBERT】理论




  • 知识蒸馏 实战篇




    • NLP菜鸟逆袭记【Distilling Task-Specific from BERT into SNN】实战



    • NLP菜鸟逆袭记【FastBERT】实战



十一、模型加速


11.1 CTranslate2





  • NLP菜鸟逆袭记—【模型加速 —— CTranslate2】理论


11.2 optimum





  • NLP菜鸟逆袭记—【模型加速 —— Optimum】理论


十二、OCR





  • NLP菜鸟逆袭记—【OCR】理论


12.1 pytesseract





  • NLP菜鸟逆袭记—【OCR —— tesseract】理论


12.2 hn_ocr





  • NLP菜鸟逆袭记—【OCR —— hn_ocr】理论


12.3 PaddleOCR





  • NLP菜鸟逆袭记—【OCR —— PaddleOCR】理论


十三、TTS





  • NLP菜鸟逆袭记—【文本语音合成 TTS】理论


13.1 pyttsx3





  • NLP菜鸟逆袭记—【文本语音合成 —— pyttsx3】实战


13.2 PaddleSpeech





  • PaddleSpeech 理论篇


13.3 tensorflow_tts





  • NLP菜鸟逆袭记—【文本语音合成 —— tensorflow_tts】实战


13.4 KAN_TTS





  • NLP菜鸟逆袭记—【文本语音合成 —— KAN-TTS】实战


十四、Prompt





  • NLP菜鸟逆袭记—【Prompt】实战



  • Prompt 实战篇




    • NLP菜鸟逆袭记—【PromptCLUE】实战



十五、embedding





  • NLP菜鸟逆袭记—【Embeddings】理论



  • embedding 实战篇




    • NLP菜鸟逆袭记—【sbert】实战



    • NLP菜鸟逆袭记—【text2vec】实战



    • NLP菜鸟逆袭记—【SGPT:基于GPT的生成式embedding】实战



    • NLP菜鸟逆袭记—【BGE —— 智源开源最强语义向量模型】实战



    • NLP菜鸟逆袭记—【M3E:一种大规模混合embedding】实战



NLP 神器





  • chaizi:一种 汉语拆字词典 神器



  • cn2an:一种中文数字与阿拉伯数字的相互转换神器



  • cocoNLP:一种 人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法



  • difflib.SequenceMatcher:一种 文本查重 神器



  • Entity_Emotion_Express:一种 词汇情感值 神器



  • jieba_fast:一种 中文分词 神器



  • JioNLP:一种 中文 NLP 预处理 神器



  • ngender:一种 根据名字判断性别 神器



  • pdfplumber:一种 pdf 内容解析神器



  • phone:一种 中国手机归属地查询 神器



  • PrettyTable:一种 生成美观的ASCII格式的表格 神器



  • Pypinyin:一种汉字转拼音神器



  • Rank-BM25:一种 基于bm25算法 神器



  • schedule :一种 最全的Python定时任务神器



  • similarity:一种 相似度计算 神器



  • SnowNLP:一种 中文文本预处理 神器



  • Synonyms:一种中文近义词 神器



  • textfilter:一种 中英文敏感词过滤 神器



  • 一种 中文缩写库 神器











  • LLMs 千面郎君:https://github.com/km1994/LLMs_interview_notes



    • 介绍:该仓库主要记录 大模型(LLMs) 算法工程师相关的面试题



  • LLMs九层妖塔:https://github.com/km1994/LLMsNineStoryDemonTower



    • 介绍:【LLMs九层妖塔】分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。



  • NLP 面无不过:https://github.com/km1994/NLP-Interview-Notes



    • 介绍:该仓库主要记录 NLP 算法工程师相关的面试题



  • 【关于 NLP】 那些你不知道的事:https://github.com/km1994/nlp_paper_study



    • 介绍:该仓库主要记录 NLP 算法工程师相关的顶会论文研读笔记








浏览 50
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报