finalseg基于HMM模型的中文分词

联合创作 · 2023-09-29 05:27

finalseg -> Chinese Words Segment Library in Python based on HMM Model 基于HMM模型的中文分词

用法

将finalseg目录放置于当前目录或者site-packages目录

import finalseg

代码示例

import finalseg



sentence_list = [

"姚晨和老凌离婚了",

"他说的确实在理",

"长春市长春节讲话"

]



print u"=默认效果"



for sentence in sentence_list:

    seg_list = finalseg.cut(sentence)

    print "/ ".join(seg_list)



print u"\n=打开新词发现功能后的效果\n"





for sentence in sentence_list:

    seg_list = finalseg.cut(sentence,find_new_word=True)

    print "/ ".join(seg_list)

算法

算法是基于HMM模型,采用了Viterbi算法

可以选择是否打开新词发现功能

算法简单，只有89行纯Python代码 https://github.com/fxsjy/finalseg/blob/master/finalseg/__init__.py

性能

200 KB/Second

Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《围城》.txt

例子

在线分词效果展示 https://finalseg.appspot.com/ (需要翻墙)

浏览 25

点赞

收藏

分享

举报

评论

图片

表情

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用CRF(ConditionalRandomField)条件随机场算法。Feature支持python2.x、python3.x以及py

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开

ansj_segAnsj中文分词

Ansj中文分词使用帮助开发文档：3.x版本及之前，5.x版本及之后摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（macair下测试），准

Ansj中文分词

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经

SegoGo 中文分词

词典用双数组trie（Double-Array Trie）实现，分词器算法为基于词频的最短路径加动

scsegPython中文分词

scseg中文分词，是基于mmseg的简单分词组件Feature支持pinyin分词支持用户自定义词典支持单位合并支持汉字数字识别Installpipinstallscseg通过importscseg

genius中文分词

GeniusGenius是一个开源的python中文分词组件，采用 CRF(Conditional

SegoGo 中文分词

词典用双数组trie（Double-ArrayTrie）实现，分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式，支持用户词典、词性标注，可运行JSONRPC服务。分词速度单线

jieba分词-Python中文分词领域的佼佼者

Python大数据分析

点赞

收藏

分享

举报