simhash-javasimhash 算法的 java 实现

联合创作 · 2023-09-28 12:28

simhash-java

Java实现simhash算法的简单实现。

特征:

  1. 计算字符串的simhash
  2. 通过构建智能索引来计算所有链之间的相似度,因此我们可以处理大数据。

如何使用:

  • 使用inputfile和outputfile运行Main。

  • 输入文件的格式(请参阅src / test_in):每行doc带有utf8字符集。

  • 输出文件的格式(请参见src / test_out):

  • 开始//开始标志

  • 第一行// doc

  • sencode lien // // doc1 \ tdist dist是doc和doc1之间的汉明距离

  • 结束//结束标志

未来:

  1. 将项目构建到可运行的jar中。
  2. 在大数据下提高性能。

注意:

  1. 在运行Main.java之前,您应该选择一个更好的分析器而不是BinaryWordSeg!
浏览 10
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报