XsoupHTML抽取器
Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。
相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析时间和抽取时间都只有HtmlCleaner的一半。同时Xsoup提供全面的XPath解析错误提示。
示例代码:
@Test public void testSelect() { String html = "<html><div><a href='https://github.com'>github.com</a></div></html>"; Document document = Jsoup.parse(html); String result = Xsoup.select(document, "//a/@href").get(); Assert.assertEquals("https://github.com", result); result = Xsoup.compile("//a/@href").evaluate(document).get(); Assert.assertEquals("https://github.com", result); }
评论
GNE新闻网页正文通用抽取器
GNE是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。最后的输出效果如下图所示:本
GNE新闻网页正文通用抽取器
0
GNE-JS新闻网页正文通用抽取器
GNE-JS是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。该项目启发自 GNE,
GNE-JS新闻网页正文通用抽取器
0
chatgpt实现NLP基本任务(实体识别、关系抽取、属性抽取、事件抽取、文本分类)
向AI转型的程序员都关注了这个号👇👇👇基础函数一、实体识别抽取文本:驻港部队从1993年初开始组建,1996年1月28日组建完毕,1997年7月1日0时进驻香港,取代驻港英军接管香港防务,驻港军费均由中央人民政府负担。《中华人民共和国香港特别行政区驻军法》规定了驻香港部队的职责为防备和抵抗侵略,保卫
机器学习AI算法工程
10