Web-HarvestWeb 数据提取工具
Web-Harvest 是用 Java 编写的开源 Web 数据提取工具。它提供了一种收集所需网页并从中提取有用数据的方法。为了做到这一点,它利用了成熟的文本/xml操作技术,如XSLT、XQuery和正则表达式。Web-Harvest主要专注于基于HTML/XML的网站,这些网站仍然占网络内容的绝大部分。另一方面,它可以很容易地通过定制的Java库来补充,以增强其提取能力。
评论
Jailer智能数据提取工具
Jailer是一个功能强大的智能型数据提取工具,可以支持DB2、Firebird、Derby等应用。它使用方便,运行的环境需要JavaJRE5的支持。
Jailer智能数据提取工具
0
PHTXHTML表格提取工具
PHTX(Peter'sHTMLTableeXtractor)是一个小的Unix命令工具用来从HTML文件中抽取表格数据并存放到CSV格式文件。
PHTXHTML表格提取工具
0
HtmlSuckerHTML 正文提取工具
HtmlSucker是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、封面图以及文章正文内容。基于 jsoup 库进行HTML解析。HtmlSucker提取文章正
HtmlSuckerHTML 正文提取工具
0