rmmseg-cppRuby中文分词器
rmmseg的主要问题是性能和内存消耗。用纯ruby编写的rmmseg分词的速度非常慢,而且内存消耗非常惊人,当使用复杂分词算法的时候,内存呈线性上升的现象。为此rmmseg的作者pluskid再接再厉用C++重写了一遍rmmseg项目,这就是rmmseg-cpp。根据作者自己的简单测试表明:rmmseg-cpp的性能是rmmseg的400倍之多。
安装方法:gem install pluskid-rmmseg-cpp --source=http://gems.github.com
rmmseg-cpp和libmmseg目前都可以作为比较好的ruby中文分词程序来使用,他们的性能和内存管理都相当不错,经过我们测试和使用的情况来看,都可以放心在生产环境当中使用。
评论
mmseg4j中文分词器
1、mmseg4j用Chih-HaoTsai的MMSeg算法(http://technology.chtsai.org/mmseg/)实现的中文分词器,并实现lucene的analyzer和solr的
mmseg4j中文分词器
0
RMMSeg中文分词器
rmmseg是浙江大学的学生pluskid开发的纯ruby版本的中文分词程序,采用的也是“基于词典的最大匹配算法”$echo"我们都喜欢用Ruby"|rmmseg我们都喜欢用Ruby
RMMSeg中文分词器
0
JcsegJava 开源中文分词器
Jcseg是什么?Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene,solr,elast
JcsegJava 开源中文分词器
0
frisoC 语言开源高性能中文分词器
Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使
frisoC 语言开源高性能中文分词器
0