ideaseg基于 NLP 的中文分词器
ideaseg 是一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。
HanLP 相比其他诸如 IK、jcseg 等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。 通过对 HanLP 进行优化配置,ideaseg 在准确度和分词速度上取得了最佳的平衡。
与其他基于 HanLP 的插件相比,ideaseg 同步了最新 HanLP 的代码和数据,去除了无法商用的相关内容;实现了自动配置; 包含了模型数据,无需自行下载,使用简单方便。
ideaseg 提供三个模块包括:
-
core~ 核心分词器模块 -
elasticsearch~ ElasticSearch 的 ideaseg 分词插件 (最高支持 7.10.2 版本) -
opensearch~ OpenSearch 的 ideaseg 分词插件 (默认版本 2.4.1)
评论
