GNE新闻网页正文通用抽取器-技术圈

GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。

在论文中描述的正文提取基础上，还增加了标题、发布时间和文章作者的自动化探测与提取功能。

最后的输出效果如下图所示：

本项目取名为抽取器，而不是爬虫，是为了规避不必要的风险，因此，本项目的输入是 HTML，输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。

在线体验

如果你想先体验 GNE 的提取效果，那么你可以访问http://gne.kingname.info/。一般情况下，你只需要把网页粘贴到最上面的多行文本框中，然后点提取按钮即可。通过附加更多的参数，可以让提取更精确。具体参数的写法与作用，请参阅 API

使用环境

如果你想体验 GNE 的功能，请按照如下步骤进行：

安装 GNE



# 以下两种方案任选一种即可



# 使用 pip 安装

pip install --upgrade gne



# 使用 pipenv 安装

pipenv install gne

使用 GNE

提取正文



>>> from gne import GeneralNewsExtractor



>>> html = '''经过渲染的网页 HTML 代码'''



>>> extractor = GeneralNewsExtractor()

>>> result = extractor.extract(html, noise_node_list=['//div[@class="comment-list"]'])

>>> print(result)



{"title": "xxxx", "publish_time": "2019-09-10 11:12:13", "author": "yyy", "content": "zzzz", "images": ["/xxx.jpg", "/yyy.png"]}

更多使用说明，请参阅 GNE 的文档

提取列表页(测试版)



>>> from gne import ListPageExtractor

>>> html = '''经过渲染的网页 HTML 代码'''

>>> list_extractor = ListPageExtractor()

>>> result = list_extractor.extract(html,

                                    feature='列表中任意元素的 XPath")

>>> print(result)

GNE新闻网页正文通用抽取器

在线体验

使用环境

安装 GNE

使用 GNE

运行截图

网易新闻

今日头条

新浪新闻