simhash-javasimhash 算法的 java 实现

联合创作 · 2023-09-28 12:28

simhash-java


Java实现simhash算法的简单实现。


特征:



  1. 计算字符串的simhash

  2. 通过构建智能索引来计算所有链之间的相似度,因此我们可以处理大数据。


如何使用:



  • 使用inputfile和outputfile运行Main。


  • 输入文件的格式(请参阅src / test_in):每行doc带有utf8字符集。


  • 输出文件的格式(请参见src / test_out):


  • 开始//开始标志


  • 第一行// doc


  • sencode lien // // doc1 \ tdist dist是doc和doc1之间的汉明距离


  • 结束//结束标志



未来:



  1. 将项目构建到可运行的jar中。

  2. 在大数据下提高性能。


注意:



  1. 在运行Main.java之前,您应该选择一个更好的分析器而不是BinaryWordSeg!

浏览 31
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报