text-classifier-collectionJava 文本分类器集合

联合创作 · 2023-09-29 05:07

text-classifier-collection 是一个文本分类器集合。一个强大易用的Java文本分类工具包

特色

  • 功能全面

    • 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等

    • 内置SVM、kNN、朴素贝叶斯等多种分类器

    • 内置支持CSV等格式数据的读取

  • 高度可定制

    • 你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等

    • 可以轻易实现你自己的分类器而与工具包中其它工具一起使用

  • 容易使用

    • 可自动按给定数据集选取最优分类器

    • 与Java8引入的流和函数式API无缝结合

效果

数据集 样本数 分类数 准确率
YouTube Spam Collection 1956 2 92.1%
SMS Spam Collection 5574 2 98.2%
Sentence Classification 1510 5 80.4%
Reuters-21578 Text Categorization Collection 21578 135 59.8%
Reuters-21578 Text Categorization Collection 21578 175 67.8%
浏览 9
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报