text-classifier-collectionJava 文本分类器集合
text-classifier-collection 是一个文本分类器集合。一个强大易用的Java文本分类工具包
特色
-
功能全面
-
内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等
-
内置SVM、kNN、朴素贝叶斯等多种分类器
-
内置支持CSV等格式数据的读取
-
-
高度可定制
-
你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等
-
可以轻易实现你自己的分类器而与工具包中其它工具一起使用
-
-
容易使用
-
可自动按给定数据集选取最优分类器
-
与Java8引入的流和函数式API无缝结合
-
效果
数据集 | 样本数 | 分类数 | 准确率 |
---|---|---|---|
YouTube Spam Collection | 1956 | 2 | 92.1% |
SMS Spam Collection | 5574 | 2 | 98.2% |
Sentence Classification | 1510 | 5 | 80.4% |
Reuters-21578 Text Categorization Collection | 21578 | 135 | 59.8% |
Reuters-21578 Text Categorization Collection | 21578 | 175 | 67.8% |
评论