ideaseg基于 NLP 的中文分词器
ideaseg
是一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。
HanLP
相比其他诸如 IK
、jcseg
等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。 通过对 HanLP
进行优化配置,ideaseg
在准确度和分词速度上取得了最佳的平衡。
与其他基于 HanLP
的插件相比,ideaseg
同步了最新 HanLP
的代码和数据,去除了无法商用的相关内容;实现了自动配置; 包含了模型数据,无需自行下载,使用简单方便。
ideaseg
提供三个模块包括:
-
core
~ 核心分词器模块 -
elasticsearch
~ ElasticSearch 的 ideaseg 分词插件 (最高支持 7.10.2 版本) -
opensearch
~ OpenSearch 的 ideaseg 分词插件 (默认版本 2.4.1)
评论