Duke重复数据删除

联合创作 · 2023-10-01 01:23

Duke 是一个快速灵活的去除重复数据的引擎,基于 Lucene 开发,普通笔记本电脑可以在 11 分钟内处理完 100 万条记录。

特征

  • 高性能。
  • 高度可配置。
  • 支持CSV,JDBC,SPARQL,NTriples和JSON
  • 许多内置比较器
  • 插入自己的数据源,比较器和清理器
  • 遗传算法可自动调整配置。
  • 命令行客户端入门。
  • 用于嵌入任何类型的应用程序的API
  • 支持批处理和连续处理。
  • 可以维护通过JNDI / JDBC找到的链接数据库。
  • 可以在多个线程中运行。

下图是 Duke 的架构:

浏览 1
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报