gseGo 语言高效分词
gse 是一个 Go 语言高效分词, 支持英文、中文、日文等。
- 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, 以及 DAG 和 HMM 算法分词.
- 支持 HMM 分词, 使用 viterbi 算法。
- 支持普通、搜索引擎、全模式、精确模式和 HMM 模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。
- 分词速度单线程 9.2MB/s,goroutines 并发 26.8MB/s. HMM 模式单线程分词速度 3.2MB/s.( 双核 4 线程 Macbook Pro)。
评论