牛逼!40行Python代码一键把html网页保存为pdf,太方便了!
共 2758字,需浏览 6分钟
·
2021-03-09 12:37
公众号 “菜鸟学Python”, 设为 “星标”
第451篇原创,和30w+一起学Python!
01.抓取的学习资料
02.获取网页链接
在上图中,我们需要格外关注的是红色方格标注的链接,每个链接都会跳转到对应的子网页中,而在子网页中,就是我们想要保存的内容。
03.html转pdf
下载https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.mxe-cross-win64.7z 并解压到本地文件中。(后台输入:pdf) 直接获取。 将解压文件中的bin文件路径添加到系统变量Path中。 执行 pip install pdfkit
执行 pip install wkhtmltopdf
上面的程序主要完成几下几步:
首先需要指定wkhtmltopdf.exe文件的路径;
然后分别通过from_url、from_file和from_string的三种方式来保存为pdf文件;
需要注意的是,from_file和from_url中的第一个参数必须是一个html的字符串或者是html文档的列表;
但是小编通过程序运行发现,from_url第一个参数只能是html的字符串,不能是html的列表。
因此,pdfkit库只能将子网页保存为单独的pdf文档,无法直接通过pdfkit库将所有的子网页拼接成一个完整的pdf文档,小编通过PyPDF2库中的PdfFileMerger类来实现pdf文档的拼接。程序如下图所示。
04.总结
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
年度爆款文案
点这里,直达菜鸟学PythonB站!!