Python-goose用于文章提取的 Python 库
Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。
Python-goose可提取的信息包括:
-
文章主体内容
-
文章主要图片
-
文章中嵌入的任何Youtube/Vimeo视频
-
元描述
-
元标签
示例
>>> from goose import Goose >>> url = 'http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2' >>> g = Goose() >>> article = g.extract(url=url) >>> article.title u'Occupy London loses eviction fight' >>> article.meta_description "Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoid eviction Wednesday in a decision made by London's Court of Appeal." >>> article.cleaned_text[:150] (CNN) -- Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoi >>> article.top_image.src http://i2.cdn.turner.com/cnn/dam/assets/111017024308-occupy-london-st-paul-s-cathedral-story-top.jpg
评论
Newspaper基于 Python 的文章提取程序
Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。作者从requests库的简洁与强大得到灵感,使用python开发的可用于提取文章内容的程序。支持10多种语言并且所
Newspaper基于 Python 的文章提取程序
0
librosa用于音频分析的 Python 库
librosa是一个用于音频和音乐分析的Python库。安装PyPI上提供了最新的稳定版本,可以通过以下命令来安装pipinstalllibrosaAnaconda用户可以使用conda-forge方
librosa用于音频分析的 Python 库
0
Tangent用于自动微分的 Python 库
Tangent 是一个免费、开源的新 Python 库,用于自动微分。和目前已有的机器学习库不同,Tangent 是一个源到源(source-to-source)的系统,利用 Python 函数 f
Tangent用于自动微分的 Python 库
0