GNE新闻网页正文通用抽取器

0粉丝
GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者
简介
GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。最后的输出效果如下图所示:本项目取名为抽取器,而不是爬虫,是为了规避不必要的风险,因此,本项目的输入是 HTML,输出是一个字... 更多
其它信息
地区
国产
开发语言
Python
开源组织
所属分类
应用工具、 网络爬虫
授权协议
MIT
操作系统
跨平台
收录时间
2023-09-29
软件类型
开源软件
适用人群
未知

时光轴

里程碑1
LOG0
2023
2023-09
轻识收录
评价
0.0(满分 10 分)0 个评分
什么是点评分
图片
表情
全部评价( 0)
推荐率 100%
推荐