CWSharp.NET 中文分词组件

联合创作 · 2023-09-29 05:15

CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。


特性



  • 支持多种分词器



    • StandardTokenizer


    • BigramTokenizer


    • StopwordTokenizer



  • 可扩展的自定义分词接口


  • 支持自定义词典


  • 支持Lucene.Net分词


  • MIT授权协议



安装&编译



  • NuGet



nuget install CWSharp


  • Package Manager Console



PM> install-package CWSharp

算法



  • 基于正向最大匹配的算法。介绍


  • 词典使用DAWG结构,比传统的前缀树占用更少的内存空间。介绍



TODO



  • HMM算法,识别未登记词语以及人名、地名识别


  • 支持跨平台Windows、Linux



FAQ



  • 词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。


  • lucene.net插件 - Lucene.Net分词接口


浏览 22
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报