NLP菜鸟逆袭

DayNightStudy

共 8831字,需浏览 18分钟

 · 2024-04-11

NLP菜鸟逆袭记:

    • 地址:

      • Github地址:https://github.com/km1994/AwesomeNLP

      • dGitee 地址:https://gitee.com/km601/AwesomeNLP_gitee

      •  x


    • 介绍:【NLP菜鸟逆袭】分享 自然语言处理(文本分类、信息抽取、知识图谱、机器翻译、问答系统、文本生成、Text-to-SQL、文本纠错、文本挖掘、知识蒸馏、模型加速、OCR、TTS、Prompt、embedding等)等 实战与经验。

梳理 NLP基础任务(文本分类、命名实体识别、关系抽取、事件抽取、文本摘要、文本生成、Prompt)和 LLMs 大模型等开源项目,争取做成一个全网最全NLP小白入门教程!

一、文本分类

1.1 多类别文本分类

  • NLP菜鸟逆袭记——【多类别文本分类】笔记
  • 多类别文本分类 实战篇
    • 非预训练类模型
      • FastText
      • TextCNN
      • TextRNN
      • TextRCNN
      • Transformer
    • 预训练类模型
      • Bert
      • Albert
      • Roberta
      • Distilbert
      • Electra

    • NLP菜鸟逆袭记——【多类别文本分类】实战

1.2 多标签文本分类

  • NLP菜鸟逆袭记——【多标签文本分类】笔记
  • 多标签文本分类 实战篇
    • NLP菜鸟逆袭记——【基于 Bert 中文多标签分类】实战
    • NLP菜鸟逆袭记——【剧本角色情感 中文多标签分类】实战

1.3 方面级情感识别

  • NLP菜鸟逆袭记——【基于方面的情感分析(ABSA)】理论
  • 基于方面的情感分析(ABSA) 实战篇
    • NLP菜鸟逆袭记——【基于 Bert 中文方面级情感识别】实战

1.4 文本匹配

  • NLP菜鸟逆袭记——【文本匹配】理论
  • 文本匹配 实战篇
    • NLP菜鸟逆袭记——【文本匹配】实战

二、信息抽取

2.1 命名实体识别

  • 命名实体识别 理论篇
    • NLP菜鸟逆袭记——【HMM->MEMM->CRF】实战
    • DNN-CRF 理论篇
  • 命名实体识别 实战篇
    • NLP菜鸟逆袭记——【Bert-CRF】实战
    • NLP菜鸟逆袭记——【Bert-Softmax】实战
    • NLP菜鸟逆袭记——【Bert-Span】实战
    • NLP菜鸟逆袭记——【MRC for Flat Nested NER:一种基于机器阅读理解的命名实体识别】实战
    • NLP菜鸟逆袭记——【Biaffine NER:一种基于双仿射注意力机制的命名实体识别】实战
    • NLP菜鸟逆袭记——【Multi Head Selection Ner:一种基于多头选择的命名实体识别】实战
    • NLP菜鸟逆袭记——【one vs rest NER:一种基于one vs rest的命名实体识别】实战
    • NLP菜鸟逆袭记——【GlobalPointer:一种基于span分类的解码方法】实战
    • NLP菜鸟逆袭记——【W2NER:一种统一的命名实体识别词与词的的命名实体识别】实战

2.2 关系抽取

  • NLP菜鸟逆袭记——【关系抽取(分类)】理论
  • 关系抽取 实战篇
    • NLP菜鸟逆袭记——【BERT-RE:一种基于 Bert 的 Pipeline 实体关系抽取】实践
    • NLP菜鸟逆袭记——【Casrel Triple Extraction:一种基于 CasRel 的 三元组抽取】实践
    • NLP菜鸟逆袭记——【GPLinker:一种基于 GPLinker的 三元组抽取】实践

2.3 事件抽取

  • 事件抽取 理论篇
  • 事件抽取 实战篇
    • NLP菜鸟逆袭记——【BERT Event Extraction:一种基于 Bert 的 Pipeline 事件抽取】实践
    • NLP菜鸟逆袭记——【BERT MRC Event Extraction:一种基于 MRC 的 事件抽取】实践

2.4 属性抽取

  • NLP菜鸟逆袭记——【属性抽取(Attribute Extraction)】理论
  • 属性抽取 实战篇
    • NLP菜鸟逆袭记——【一种基于 albert 的中文属性抽取 —— Albert for Attribute Extraction】实践

2.5 关键词抽取

  • 【NLP菜鸟逆袭记—【关键词提取】理论
  • 关键词抽取 实战篇

2.6 新词发现

  • NLP菜鸟逆袭记—【新词发现】理论
  • 新词发现 实战篇

三、知识图谱

3.1 知识图谱

  • 【NLP菜鸟逆袭记—【知识图谱】理论
  • 知识图谱 实战篇
    • NLP菜鸟逆袭记—【基于金融知识图谱的知识计算引擎构建】实战
    • NLP菜鸟逆袭记—【基于金融知识图谱的问答系统】实战

3.2 实体链指

  • 【NLP菜鸟逆袭记—【实体链指】理论
  • 实体链指 实战篇

3.3 知识图谱补全

  • 【NLP菜鸟逆袭记—【知识图谱补全】理论
  • 知识图谱补全 实战篇

3.4 neo4j

  • 【NLP菜鸟逆袭记—【Neo4j】实战

四、机器翻译

  • NLP菜鸟逆袭记—【机器翻译】理论
  • 机器翻译 实战篇
    • NLP菜鸟逆袭记—【seq2seq_english_to_chinese 一种结合 seq2seq 的 文本翻译】理论

五、问答系统

  • NLP菜鸟逆袭记—【智能问答技术】理论

5.1 阅读理解

  • NLP菜鸟逆袭记—【机器阅读理解】理论
  • 阅读理解 实战篇
    • NLP菜鸟逆袭记—【基于QANet的中文阅读理解】实战

5.2 检索式问答

  • NLP菜鸟逆袭记—【FAQ 检索式问答系统】理论
  • 检索式问答 实战篇
    • NLP菜鸟逆袭记—【Faiss】实践
    • NLP菜鸟逆袭记—【milvus】理论

5.3 基于知识图谱问答

  • NLP菜鸟逆袭记—【KBQA】理论
  • 基于知识图谱问答 实战篇
    • NLP菜鸟逆袭记—【基于金融知识图谱的知识计算引擎构建】实战
    • NLP菜鸟逆袭记—【基于金融知识图谱的问答系统】实战

5.4 基于知识图谱问答

  • NLP菜鸟逆袭记—【对话系统】理论
  • 对话系统 实战篇

六、文本生成

  • NLP菜鸟逆袭记—【自然语言生成】理论
  • 文本生成 实战篇
    • NLP菜鸟逆袭记—【Bert_Unilm】实践
    • NLP菜鸟逆袭记—【T5_Pegasus】实践

七、Text-to-SQL

  • NLP菜鸟逆袭记—【Text-to-SQL】理论
  • Text-to-SQL 实战篇

八、文本纠错

  • NLP菜鸟逆袭记—【文本纠错】理论
  • 文本纠错 实战篇
    • NLP菜鸟逆袭记—【一种结合 Bert 的 中文拼写检查】实战
    • NLP菜鸟逆袭记—【CSC 一种结合 Soft-Masked Bert 的 中文拼写检查】实战

九、文本挖掘

  • NLP菜鸟逆袭记—【文本挖掘】理论
  • 文本挖掘 实战篇

十、知识蒸馏

  • NLP菜鸟逆袭记—【Bert 压缩】理论
    • NLP菜鸟逆袭记【FastBERT】理论
  • 知识蒸馏 实战篇
    • NLP菜鸟逆袭记【Distilling Task-Specific from BERT into SNN】实战
    • NLP菜鸟逆袭记【FastBERT】实战

十一、模型加速

11.1 CTranslate2

  • NLP菜鸟逆袭记—【模型加速 —— CTranslate2】理论

11.2 optimum

  • NLP菜鸟逆袭记—【模型加速 —— Optimum】理论

十二、OCR

  • NLP菜鸟逆袭记—【OCR】理论

12.1 pytesseract

  • NLP菜鸟逆袭记—【OCR —— tesseract】理论

12.2 hn_ocr

  • NLP菜鸟逆袭记—【OCR —— hn_ocr】理论

12.3 PaddleOCR

  • NLP菜鸟逆袭记—【OCR —— PaddleOCR】理论

十三、TTS

  • NLP菜鸟逆袭记—【文本语音合成 TTS】理论

13.1 pyttsx3

  • NLP菜鸟逆袭记—【文本语音合成 —— pyttsx3】实战

13.2 PaddleSpeech

  • PaddleSpeech 理论篇

13.3 tensorflow_tts

  • NLP菜鸟逆袭记—【文本语音合成 —— tensorflow_tts】实战

13.4 KAN_TTS

  • NLP菜鸟逆袭记—【文本语音合成 —— KAN-TTS】实战

十四、Prompt

  • NLP菜鸟逆袭记—【Prompt】实战
  • Prompt 实战篇
    • NLP菜鸟逆袭记—【PromptCLUE】实战

十五、embedding

  • NLP菜鸟逆袭记—【Embeddings】理论
  • embedding 实战篇
    • NLP菜鸟逆袭记—【sbert】实战
    • NLP菜鸟逆袭记—【text2vec】实战
    • NLP菜鸟逆袭记—【SGPT:基于GPT的生成式embedding】实战
    • NLP菜鸟逆袭记—【BGE —— 智源开源最强语义向量模型】实战
    • NLP菜鸟逆袭记—【M3E:一种大规模混合embedding】实战

NLP 神器

  • chaizi:一种 汉语拆字词典 神器
  • cn2an:一种中文数字与阿拉伯数字的相互转换神器
  • cocoNLP:一种 人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法
  • difflib.SequenceMatcher:一种 文本查重 神器
  • Entity_Emotion_Express:一种 词汇情感值 神器
  • jieba_fast:一种 中文分词 神器
  • JioNLP:一种 中文 NLP 预处理 神器
  • ngender:一种 根据名字判断性别 神器
  • pdfplumber:一种 pdf 内容解析神器
  • phone:一种 中国手机归属地查询 神器
  • PrettyTable:一种 生成美观的ASCII格式的表格 神器
  • Pypinyin:一种汉字转拼音神器
  • Rank-BM25:一种 基于bm25算法 神器
  • schedule :一种 最全的Python定时任务神器
  • similarity:一种 相似度计算 神器
  • SnowNLP:一种 中文文本预处理 神器
  • Synonyms:一种中文近义词 神器
  • textfilter:一种 中英文敏感词过滤 神器
  • 一种 中文缩写库 神器




  • LLMs 千面郎君:https://github.com/km1994/LLMs_interview_notes

    • 介绍:该仓库主要记录 大模型(LLMs) 算法工程师相关的面试题

  • LLMs九层妖塔:https://github.com/km1994/LLMsNineStoryDemonTower

    • 介绍:【LLMs九层妖塔】分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。

  • NLP 面无不过:https://github.com/km1994/NLP-Interview-Notes

    • 介绍:该仓库主要记录 NLP 算法工程师相关的面试题

  • 【关于 NLP】 那些你不知道的事:https://github.com/km1994/nlp_paper_study

    • 介绍:该仓库主要记录 NLP 算法工程师相关的顶会论文研读笔记

浏览 5
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报