CruxHTML 正文内容提取库
Crux 是一个 HTML 正文内容提取库,它通过分析 Web 页面,以确定一篇文章的关键内容。该库由多个独立的 API 组成,可随意选择想使用的那个。比如说,如果你在 Android 应用中使用 Crux ,则可以使用 Proguard 或其他压缩工具来去除不需要的部分。
文章提取 API :
-
可格式化提取内容丰富,不限于纯文本。
-
支持更多的网站和更好的页面整体解析。
-
支持更多的元数据格式:OpenGraph, Twitter Cards,Schema.org 等
-
占用空间小,JSoup 是唯一需要的依赖项。
-
更少的 setters/getters,简单易用
-
能够使用默认的 HttpUrlConnection 之外的 HTTP 库,例如 OkHttp 。
-
代码简洁
-
高度支持通过 Gradle 导入 Android Studio 项目
-
持续集成单元测试和 golden file 测试。
示例代码:
在后台线程中,发出网络请求并获取想要分析的页面的 rawHTML 。
String url = "https://example.com/article.html"; String rawHTML = "<html><body><h1>This is an article</h1></body></html>"; Article article = ArticleExtractor.with(url, rawHTML) .extractMetadata() .extractContent() // If you only need metadata, you can skip `.extractContent()` .article();
在 UI 线程上:
// Use article.document, article.title, etc.
评论
BoilerpipeHTML 正文内容提取库
Boilerpipe是一个能从HTML中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的Java库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。Boilerpipe
BoilerpipeHTML 正文内容提取库
0
HtmlSuckerHTML 正文提取工具
HtmlSucker是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、封面图以及文章正文内容。基于 jsoup 库进行HTML解析。HtmlSucker提取文章正
HtmlSuckerHTML 正文提取工具
0
Html2ArticleHtml网页正文提取
.NET平台下,一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。Html2Artic
Html2ArticleHtml网页正文提取
0