GNE新闻网页正文通用抽取器
GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。
在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。
最后的输出效果如下图所示:
本项目取名为抽取器
,而不是爬虫
,是为了规避不必要的风险,因此,本项目的输入是 HTML,输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。
在线体验
如果你想先体验 GNE 的提取效果,那么你可以访问http://gne.kingname.info/。 一般情况下,你只需要把网页粘贴到最上面的多行文本框中,然后点提取
按钮即可。通过附加更多的参数,可以让提取更精确。具体 参数的写法与作用,请参阅 API
使用环境
如果你想体验 GNE 的功能,请按照如下步骤进行:
安装 GNE
# 以下两种方案任选一种即可 # 使用 pip 安装 pip install --upgrade gne # 使用 pipenv 安装 pipenv install gne
使用 GNE
提取正文
>>> from gne import GeneralNewsExtractor >>> html = '''经过渲染的网页 HTML 代码''' >>> extractor = GeneralNewsExtractor() >>> result = extractor.extract(html, noise_node_list=['//div[@class="comment-list"]']) >>> print(result) {"title": "xxxx", "publish_time": "2019-09-10 11:12:13", "author": "yyy", "content": "zzzz", "images": ["/xxx.jpg", "/yyy.png"]}
更多使用说明,请参阅 GNE 的文档
提取列表页(测试版)
>>> from gne import ListPageExtractor >>> html = '''经过渲染的网页 HTML 代码''' >>> list_extractor = ListPageExtractor() >>> result = list_extractor.extract(html, feature='列表中任意元素的 XPath") >>> print(result)
运行截图
网易新闻
今日头条
新浪新闻
评论