SegoGo 中文分词

联合创作 · 2023-09-29 05:10

词典用双数组trie（Double-Array Trie）实现，分词器算法为基于词频的最短路径加动态规划。

支持普通和搜索引擎两种分词模式，支持用户词典、词性标注，可运行JSON RPC服务。

分词速度单线程9MB/s，goroutines并发42MB/s（8核Macbook Pro）。

示例代码：



package main



import (

    "fmt"

    "github.com/huichen/sego"

)



func main() {

    // 载入词典

    var segmenter sego.Segmenter

    segmenter.LoadDictionary("github.com/huichen/sego/data/dictionary.txt")



    // 分词

    text := []byte("中华人民共和国中央人民政府")

    segments := segmenter.Segment(text)



    // 处理分词结果

    // 支持普通模式和搜索模式两种分词，见代码中SegmentsToString函数的注释。

    fmt.Println(sego.SegmentsToString(segments, false)) 

}

浏览 28

点赞

收藏

分享

举报

评论

图片

表情

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用CRF(ConditionalRandomField)条件随机场算法。Feature支持python2.x、python3.x以及py

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开

ansj_segAnsj中文分词

Ansj中文分词使用帮助开发文档：3.x版本及之前，5.x版本及之后摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（macair下测试），准

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词典支持单位合并支持汉字数字识别Installpipinstallscseg通过importscseg

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用 CRF(Conditional

elasticsearch-jieba-pluginJieba 中文分词插件

elasticsearch-jieba-plugin 是 Jieba 中文分词插件。试用 Elast

LibMMSeg中文分词软件包

LibMMSeg简介LibMMSeg是Coreseek.com为Sphinx全文搜索引擎设计的中文分词软件包，其在GPL协议下发行的中文分词法，采用Chih-HaoTsai的MMSEG算法。MMSEG

GoJiebaGo语言中文分词

GoJieba 是 Jieba 分词（结巴中文分词）的 Golang 语言版本分词库。简介支持多种

点赞

收藏

分享

举报