ideaseg基于 NLP 的中文分词器
ideaseg
是一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。
HanLP
相比其他诸如 IK
、jcseg
等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。 通过对 HanLP
进行优化配置,ideaseg
在准确度和分词速度上取得了最佳的平衡。
与其他基于 HanLP
的插件相比,ideaseg
同步了最新 HanLP
的代码和数据,去除了无法商用的相关内容;实现了自动配置; 包含了模型数据,无需自行下载,使用简单方便。
ideaseg
提供三个模块包括:
-
core
~ 核心分词器模块 -
elasticsearch
~ ElasticSearch 的 ideaseg 分词插件 (最高支持 7.10.2 版本) -
opensearch
~ OpenSearch 的 ideaseg 分词插件 (默认版本 2.4.1)
评论
rmmseg-cppRuby中文分词器
rmmseg的主要问题是性能和内存消耗。用纯ruby编写的rmmseg分词的速度非常慢,而且内存消耗非常惊人,当使用复杂分词算法的时候,内存呈线性上升的现象。为此rmmseg的作者pluskid再接再
rmmseg-cppRuby中文分词器
0
mmseg4j中文分词器
1、mmseg4j用Chih-HaoTsai的MMSeg算法(http://technology.chtsai.org/mmseg/)实现的中文分词器,并实现lucene的analyzer和solr的
mmseg4j中文分词器
0
RMMSeg中文分词器
rmmseg是浙江大学的学生pluskid开发的纯ruby版本的中文分词程序,采用的也是“基于词典的最大匹配算法”$echo"我们都喜欢用Ruby"|rmmseg我们都喜欢用Ruby
RMMSeg中文分词器
0