CWSharp.NET 中文分词组件
CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。
特性
-
支持多种分词器
-
StandardTokenizer
-
BigramTokenizer
-
StopwordTokenizer
-
可扩展的自定义分词接口
-
支持自定义词典
-
支持Lucene.Net分词
-
MIT授权协议
安装&编译
-
NuGet
nuget install CWSharp
-
Package Manager Console
PM> install-package CWSharp
算法
TODO
-
HMM算法,识别未登记词语以及人名、地名识别
-
支持跨平台Windows、Linux
FAQ
-
词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。
-
lucene.net插件 - Lucene.Net分词接口
评论