scsegPython中文分词

联合创作 · 2023-09-29 05:23

scseg中文分词,是基于mmseg的简单分词组件


Feature



  • 支持pinyin分词

  • 支持用户自定义词典

  • 支持单位合并

  • 支持汉字数字识别


Install



  • pip install scseg

  • 通过import scseg来引用


Algorithm



  • 采用mmseg算法进行切分

  • 采用规则方式支持中文数字分词


功能 1):分词scseg.seg_text方法



  • scseg.seg_text函数接受3个参数:

  • text参数为需要分词的字符

  • ext_dict_words为用户自定义的扩展字典

  • use_combine代表是否需要合并处理


代码示例( 全功能分词 )



#encoding=utf-8
import genius

seg_list = scseg.seg_text(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

功能 2):面向索引的分词



  • scseg.seg_keywords为面向索引的切割方式

  • 其作用是枚举出所有可能的切割方式

  • text参数为需要分词的字符


代码示例( 全功能分词 )



#encoding=utf-8
import scseg

seg_list = scseg.seg_keywords(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)
浏览 19
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报