GNE-JS新闻网页正文通用抽取器
GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。
在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。
该项目启发自 GNE,由 Python 迁移到 Node.js,并做了一些改动,提高提取准确度。
demo:
评论
GNE新闻网页正文通用抽取器
GNE是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。最后的输出效果如下图所示:本
GNE新闻网页正文通用抽取器
0
cx-extractor通用网页正文抽取
基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的
cx-extractor通用网页正文抽取
0
ContentExtractor网页正文抽取算法
简介ContentExtractor是一个开源的网页正文抽取工具,用JAVA实现,具有非常高的抽取精度。项目地址转移项目已和WebCollector合并,当前项目为老版本ContentExtracto
ContentExtractor网页正文抽取算法
0
XsoupHTML抽取器
Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间都只有Html
XsoupHTML抽取器
0