Duke重复数据删除
Duke 是一个快速灵活的去除重复数据的引擎,基于 Lucene 开发,普通笔记本电脑可以在 11 分钟内处理完 100 万条记录。
特征
- 高性能。
 - 高度可配置。
 - 支持CSV,JDBC,SPARQL,NTriples和JSON。
 - 许多内置比较器。
 - 插入自己的数据源,比较器和清理器。
 - 遗传算法可自动调整配置。
 - 命令行客户端入门。
 - 用于嵌入任何类型的应用程序的API。
 - 支持批处理和连续处理。
 - 可以维护通过JNDI / JDBC找到的链接数据库。
 - 可以在多个线程中运行。
 
下图是 Duke 的架构:
评论
