phpSplitPHP 中文分词包
phpSplit 是一个基于php开发的中文分词库。
居于Unicode编码词典的php分词器
只适用于php5,必要函数 iconv
本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译,本类里提供了 MakeDict() 方法
简单操作流程: SetSource -> StartAnalysis -> GetResult
对主词典使用特殊格式进行编码, 不需要载入词典到内存操作
使用
首先 确保使用php为5.3+
安装composer
composer install
require __DIR__ .'/vendor/autoload.php'; $split = new Split(); var_dump( $split->simple("您好 phpSplit")); $this->assertTrue(True);
array(3) { [0] => string(0) "" [1] => string(6) "您好" [2] => string(8) "phpSplit" }
分词结果后缀说明
名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w
同事增加了以下3类标记 *专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz; *语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等; *动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)
合计约40个左右。
欢迎大家完善
评论
cwsharp-gogo中文分词包
cwsharp-gocwsharp-go是golang的文本分词包,支持中文、英文以及中英混合词组,除此之外,提供自定义分词的扩展(比如日文、韩文或其它语种)。.NET版:CWSharp-C#安装&a
cwsharp-gogo中文分词包
0
Ansj中文分词
Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经
Ansj中文分词
0
ansj_segAnsj中文分词
Ansj中文分词使用帮助开发文档:3.x版本及之前,5.x版本及之后摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右(macair下测试),准
ansj_segAnsj中文分词
0
genius中文分词
GeniusGenius是一个开源的python中文分词组件,采用CRF(ConditionalRandomField)条件随机场算法。Feature支持python2.x、python3.x以及py
genius中文分词
0