Duke重复数据删除

联合创作 · 2023-10-01 01:23

Duke 是一个快速灵活的去除重复数据的引擎，基于 Lucene 开发，普通笔记本电脑可以在 11 分钟内处理完 100 万条记录。

特征

高性能。

高度可配置。

支持CSV，JDBC，SPARQL，NTriples和JSON。

许多内置比较器。

插入自己的数据源，比较器和清理器。

遗传算法可自动调整配置。

命令行客户端入门。

用于嵌入任何类型的应用程序的API。

支持批处理和连续处理。

可以维护通过JNDI / JDBC找到的链接数据库。

可以在多个线程中运行。

下图是 Duke 的架构：

浏览 18

点赞

收藏

分享

举报

评论

图片

表情

Opendedup重复数据删除解决方案

Opendedup重复数据删除解决方案

Opendedup重复数据删除解决方案

Opendedup，一个新的开源重复数据删除解决方案。作为针对Linux的重复数据删除文件系统（也成为SDFS），Opendedup从设计上来说针对的是那些拥有虚拟环境并寻求高性能、可扩展和低成本重复

SQL中删除重复数据问题

SQL数据库开发

如何正确的使用一条SQL删除重复数据

数据库干货铺

MySQL 如何查找删除重复行？

杰哥的IT之旅

MySQL 如何查找删除重复行？

MySQL 如何查找删除重复行？

MySQL 如何查找删除重复行？

【一天一道Leetcode】删除字符串相邻重复项

看那个码农

大批量数据插入MySQL ，如何过滤掉重复数据？

Java技术精选

点赞

收藏

分享

举报