ContentExtractor网页正文抽取算法

联合创作 · 2023-09-28 16:47

简介

ContentExtractor 是一个开源的网页正文抽取工具，用JAVA实现，具有非常高的抽取精度。

项目地址转移

项目已和WebCollector合并，当前项目为老版本ContentExtractor,请前往WebCollector项目查看ContentExtractor的最新版本源码和API。

教程(只适用于老版本，新版本请前往WebCollector)

ContentExtractor的接口非常简单，用户可以根据网页的url，或者网页的html，来进行网页正文抽取：

根据url，抽取网页的正文：



public static void main(String[] args) throws Exception {

        String content=ContentExtractor.getContentByURL("http://news.

            xinhuanet.com/world/2014-11/02/c_127166728.htm");

        System.out.println(content);

}

根据html，抽取网页的正文：



public static void main(String[] args) throws Exception {

        String html="获取到的html源码";

        String content=ContentExtractor.getContentByHtml(html);

        System.out.println(content);

}

导入项目(只适用于老版本，新版本请前往WebCollector)

从ContentExtractor的github主页https://github.com/hfut-dmic/ContentExtractor上下载ContentExtractor-{版本号}-bin.zip,将解压后得到的jar包全部放到工程的build path即可。

ContentExtractor由合肥工业大学dmic团队开发

Git@OSC：http://git.oschina.net/webcollector/ContentExtractor

浏览 21

点赞

收藏

分享

举报

评论

图片

表情

cx-extractor通用网页正文抽取

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的

GNE新闻网页正文通用抽取器

GNE新闻网页正文通用抽取器

GNE新闻网页正文通用抽取器

GNE是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上，还增加了标题、发布时间和文章作者的自动化探测与提取功能。最后的输出效果如下图所示：本

GNE-JS新闻网页正文通用抽取器

GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文

GNE-JS新闻网页正文通用抽取器

GNE-JS是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上，还增加了标题、发布时间和文章作者的自动化探测与提取功能。该项目启发自 GNE，

Krabber网页抽取工具

Krabber是kVitrail的网页抽取工具。 Krabber的设计目标是提供一个可以为Java应

Html2ArticleHtml网页正文提取

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压缩的Html文档中提取正文，每个页面平均提取时间为30ms，正确率到95%以上。Html2Artic

Html2ArticleHtml网页正文提取

.NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压

Krabber网页抽取工具

Krabber是kVitrail的网页抽取工具。Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTM

HtmlExtractor网页信息抽取组件

HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫

点赞

收藏

分享

举报