gseGo 语言高效分词

联合创作 · 2023-09-29 05:09

gse 是一个 Go 语言高效分词, 支持英文、中文、日文等。

  • 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, 以及 DAG 和 HMM 算法分词.
  • 支持 HMM 分词, 使用 viterbi 算法。
  • 支持普通、搜索引擎、全模式、精确模式和 HMM 模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务
  • 分词速度单线程 9.2MB/s,goroutines 并发 26.8MB/s. HMM 模式单线程分词速度 3.2MB/s.( 双核 4 线程 Macbook Pro)。
浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报