imdict-chinese-analyzer智能中文分词模块

联合创作 · 2023-09-29 05:34

imdict-chinese-analyzer 是 imdict智能词典的智能中文分词模块，算法基于隐马尔科夫模型(Hidden Markov Model, HMM)，是中国科学院计算技术研究所的ictclas中文分词程序的重新实现（基于Java），可以直接为lucene搜索引擎提供简体中文分词支持。

主要特点：

1. 完全Unicode支持

分词核心模块完全采用Unicode编码，无须各种汉字编码的转换，极大的提升了分词的效率。

2. 提升搜索效率

根据imdict智能词典的实践，在有智能中文分词的情况下，索引文件比没有中文分词的索引文件小1/3

3. 提高搜索准确度

imdict-chinese-analyzer采用了HHMM分词模型，极大的提高了分词的准确率，在此基础上的搜索，比对汉字逐个切分要准确得多！

4. 更高效的数据结构

为了提高效率，针对常用中文检索的应用场景，imdict-chinese-analyzer对一些不必要的功能进行了删减，例如词性标注、人名识别、时间识别等等。另外还修改了算法的数据结构，在内存占用量缩减到1/3的情况下把效率提升了数倍。

浏览 17

点赞

收藏

分享

举报

评论

图片

表情

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经

ansj_segAnsj中文分词

Ansj中文分词使用帮助开发文档：3.x版本及之前，5.x版本及之后摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（macair下测试），准

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开

SegoGo 中文分词

词典用双数组trie（Double-Array Trie）实现，分词器算法为基于词频的最短路径加动

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用CRF(ConditionalRandomField)条件随机场算法。Feature支持python2.x、python3.x以及py

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词典支持单位合并支持汉字数字识别Installpipinstallscseg通过importscseg

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用 CRF(Conditional

SegoGo 中文分词

词典用双数组trie（Double-ArrayTrie）实现，分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式，支持用户词典、词性标注，可运行JSONRPC服务。分词速度单线

cwsharp-gogo中文分词包

cwsharp-gocwsharp-go是golang的文本分词包，支持中文、英文以及中英混合词组，除此之外，提供自定义分词的扩展（比如日文、韩文或其它语种）。.NET版：CWSharp-C#安装&a

点赞

收藏

分享

举报