cwsharp-gogo中文分词包
cwsharp-go
cwsharp-go是golang的文本分词包,支持中文、英文以及中英混合词组,除此之外,提供自定义分词的扩展(比如日文、韩文或其它语种)。
.NET版:CWSharp-C#
安装&测试
$ go get github.com/zhengchun/cwsharp-go
$ cd main
$ go run main.go Hello,World!你好,世界!
分词算法
cwsharp-go支持多种分词算法,你可以根据需求选择适合自己的或者自定义新的分词算法。
mmseg-tokenizer
标准的基于词典的分词方法。
tips: 建议使用单一实例,避免每次分词都需重新加载字典
tokenizer, err := cwsharp.New("../data/cwsharp.dawg") //加载字典 iter := tokenizer.Tokenize(strings.NewReader("Hello,world!你好,世界!")) for tok, ok := iter(); ok; tok, ok = iter() { fmt.Printf("%s/%s ", tok.Text, tok.Type) } >> hello/w ,/p world/w !/p 你好/w ,/p 世界/w !/p
bigram-tokenizer
二元分词方法,无需字典,速度快,支持完整的英文和数字切分。
iter := cwsharp.BigramTokenize(strings.NewReader("世界人民大团结万岁!")) for token, ok := iter(); ok; token, ok = iter() { fmt.Printf("%s/%s ", token.Text, token.Type) } >> 世界/w 界人/w 人民/w 民大/w 大团/w 团结/w 结万/w 万岁/w !/p
whitespace-tokenizer
标准的英文分词,无需字典,适合切分英文的内容,中文会被当做独立的字符输出。
iter := cwsharp.WhitespaceTokenize(strings.NewReader("Hello,world!你好!")) for token, ok := iter(); ok; token, ok = iter() { fmt.Printf("%s/%s ", token.Text, token.Type) } >> hello/w ,/p world/w !/p 你/w 好/w !/p
TokenizerFunc
TokenizerFunc是自定义分词的扩展接口帮助类,允许你自定义新的分词。
type TokenizerFunc func(io.Reader) Iterator
评论
phpSplitPHP 中文分词包
phpSplit是一个基于php开发的中文分词库。居于Unicode编码词典的php分词器只适用于php5,必要函数iconv本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译,本类里提供了M
phpSplitPHP 中文分词包
0
genius中文分词
GeniusGenius是一个开源的python中文分词组件,采用CRF(ConditionalRandomField)条件随机场算法。Feature支持python2.x、python3.x以及py
genius中文分词
0
ansj_segAnsj中文分词
Ansj中文分词使用帮助开发文档:3.x版本及之前,5.x版本及之后摘要这是一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右(macair下测试),准
ansj_segAnsj中文分词
0
Ansj中文分词
Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经
Ansj中文分词
0