simhash-javasimhash 算法的 java 实现
simhash-java
Java实现simhash算法的简单实现。
特征:
- 计算字符串的simhash
 - 通过构建智能索引来计算所有链之间的相似度,因此我们可以处理大数据。
 
如何使用:
-  
使用inputfile和outputfile运行Main。
 -  
输入文件的格式(请参阅src / test_in):每行doc带有utf8字符集。
 -  
输出文件的格式(请参见src / test_out):
 -  
开始//开始标志
 -  
第一行// doc
 -  
sencode lien // // doc1 \ tdist dist是doc和doc1之间的汉明距离
 -  
结束//结束标志
 
未来:
- 将项目构建到可运行的jar中。
 - 在大数据下提高性能。
 
注意:
- 在运行Main.java之前,您应该选择一个更好的分析器而不是BinaryWordSeg!
 
评论
