CWSharp.NET 中文分词组件

联合创作 · 2023-09-29 05:15

CWSharp 是 .Net 的中文分词组件，支持中英文或者混合词组，提供自定义词典功能，支持Lucene.Net。

特性

支持多种分词器

StandardTokenizer

BigramTokenizer

StopwordTokenizer

可扩展的自定义分词接口

支持自定义词典

支持Lucene.Net分词

MIT授权协议

安装&编译

NuGet

nuget install CWSharp

Package Manager Console

PM> install-package CWSharp

算法

基于正向最大匹配的算法。介绍

词典使用DAWG结构，比传统的前缀树占用更少的内存空间。介绍

TODO

HMM算法，识别未登记词语以及人名、地名识别

支持跨平台Windows、Linux

FAQ

词典 - 如何生成DAWG词典文件，如何添加新的词组到DAWG词典中。

lucene.net插件 - Lucene.Net分词接口

浏览 22

点赞

收藏

分享

举报

评论

图片

表情

jiebaPython中文分词组件

jieba"结巴"中文分词：做最好的Python中文分词组件"Jieba" Feature支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出

word分词Java分布式中文分词组件

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词

word分词Java分布式中文分词组件

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经

ansj_segAnsj中文分词

Ansj中文分词使用帮助开发文档：3.x版本及之前，5.x版本及之后摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（macair下测试），准

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开

SegoGo 中文分词

词典用双数组trie（Double-Array Trie）实现，分词器算法为基于词频的最短路径加动

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用CRF(ConditionalRandomField)条件随机场算法。Feature支持python2.x、python3.x以及py

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词典支持单位合并支持汉字数字识别Installpipinstallscseg通过importscseg

点赞

收藏

分享

举报