用 Python 开发了一个 PDF 抽取表格的小工具

Python绿色通道

共 468字,需浏览 1分钟

 · 2022-06-25


↑ 关注 + 星标 ,每天学Python新技能

后台回复【大礼包】送你Python自学大礼包

从 PDF 里 copy 表格时,粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过,所以,我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用,已把它部署到 huggingface ,同学可以直接去感受一下:

https://huggingface.co/spaces/beihai/PDF-Table-Extractor

使用方法

准备一个PDF(暂不支持扫描版)


页面中上传PDF,也不支持200M以上的文件,如果太大,大家可以先去压缩一下,我记得adobe官网有就类似小工具。


上传完成后,选择表格所在PDF的页码,等待片刻就会出现“提取完成,点击下载”


下载Excel,格式还需要微调,不过比直接复制出来的要好很多了,能节省一些时间。


目前这个工具还在完善,比如直接抽取PDF中所有表格,敬请期待。



  1. PyCharm是真的强!!!

  2. 神器 jupyter,终于来了!


浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报