caterpillars文本预处理
caterpillars工具主要用来提供文本预处理功能。输入文本全文及其该文本的字典,字典是手动制作,输出两个二进制格式的全文索引文件。用户可以直接根据这两个索引文件,实现嵌入式设备上的文本查询,缩短嵌入式设备用户查询的等待时间。
软件特征:为文本创建全文二级索引文件,支持unicode支持的语言,例如中文,英文,德文等。
注意事项:被创建的文本需要采用unicode编码格式,即ucs-2编码格式
评论
HarvestText文本挖掘和预处理工具
HarvestText是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。适用于许多文本预处理和初步探索性分析任务,在小说分析,网络文本,专业文献等
HarvestText文本挖掘和预处理工具
0
HTMLProcHTML预处理
HTMLProc是一个HTML预处理。它允许你到文件中包括的文件,选择文件使用的是全局的路径或名称,并处理文件无论他们身在何处,它为每张图片增加了宽度和高度值。
HTMLProcHTML预处理
0