CWSharp.NET 中文分词组件
CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。
特性
-
支持多种分词器
-
StandardTokenizer
-
BigramTokenizer
-
StopwordTokenizer
-
可扩展的自定义分词接口
-
支持自定义词典
-
支持Lucene.Net分词
-
MIT授权协议
安装&编译
-
NuGet
nuget install CWSharp
-
Package Manager Console
PM> install-package CWSharp
算法
TODO
-
HMM算法,识别未登记词语以及人名、地名识别
-
支持跨平台Windows、Linux
FAQ
-
词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。
-
lucene.net插件 - Lucene.Net分词接口
评论
jiebaPython中文分词组件
jieba"结巴"中文分词:做最好的Python中文分词组件"Jieba" Feature支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出
jiebaPython中文分词组件
0
word分词Java分布式中文分词组件
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词
word分词Java分布式中文分词组件
0
Ansj中文分词
Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经
Ansj中文分词
0
ansj_segAnsj中文分词
Ansj中文分词使用帮助开发文档:3.x版本及之前,5.x版本及之后摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右(macair下测试),准
ansj_segAnsj中文分词
0