smallseg中文分词工具包

联合创作 · 2023-09-29 05:34

smallseg -- 开源的，基于DFA的轻量级的中文分词工具包

特点：可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

Python 示例代码：

s3 = file("text.txt").read()

words = [x.rstrip() for x in file("main.dic") ]



from smallseg import SEG

seg = SEG()

print 'Load dict...'

seg.set(words)

print "Dict is OK."



A,B = seg.cut(s3) #A是识别出的登录词列表，B是未登录词列表

for t in A:

    try:

        print t.decode('utf-8')

    except:

        pass

print "============================"

for t in B:

    try:

        print t.decode('utf-8')

    except:

        pass

Java 示例代码：

Seg seg = new Seg();

seg.useDefaultDict();

System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));



stdout>>

r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]

u:[Java, 草泥马, 泥马]

(因为“草泥马”并没有在词库中)

浏览 24

点赞

收藏

分享

举报

评论

图片

表情

pkuseg中文分词工具包

pkuseg-python：一个高准确度的中文分词工具包pkuseg-python简单易用，支持多领域分词，在不同领域的数据上都大幅提高了分词的准确率。主要亮点pkuseg是由北京大学语言计算与机器学

pkuseg中文分词工具包

pkuseg-python：一个高准确度的中文分词工具包pkuseg-python 简单易用，支持多

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经

ansj_segAnsj中文分词

Ansj中文分词使用帮助开发文档：3.x版本及之前，5.x版本及之后摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（macair下测试），准

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开

SegoGo 中文分词

词典用双数组trie（Double-Array Trie）实现，分词器算法为基于词频的最短路径加动

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用CRF(ConditionalRandomField)条件随机场算法。Feature支持python2.x、python3.x以及py

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词典支持单位合并支持汉字数字识别Installpipinstallscseg通过importscseg

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用 CRF(Conditional

点赞

收藏

分享

举报