用 Python 开发了一个 PDF 抽取表格的小工具
大家好哇
从 PDF 里 copy 表格时,粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过,所以,我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用,已把它部署到 huggingface ,同学可以直接去感受一下:
https://huggingface.co/spaces/beihai/PDF-Table-Extractor
使用方法
准备一个PDF(暂不支持扫描版)
![](https://filescdn.proginn.com/d6253838a1d494c5e08f7fea238a9b2d/340c60b907efbdcf205df1a778d03570.webp)
页面中上传PDF,也不支持200M以上的文件,如果太大,大家可以先去压缩一下,我记得adobe官网有就类似小工具。
![](https://filescdn.proginn.com/555f1fa21a2e83a13de29454470fea1a/d0f83cdd6f6e95bac9dce1e09fc9a0fc.webp)
上传完成后,选择表格所在PDF的页码,等待片刻就会出现“提取完成,点击下载”
![](https://filescdn.proginn.com/5eb89a1394d675f3a71915c0c18ca381/3c586c154f3f500f8dc784b11bb5dced.webp)
下载Excel,格式还需要微调,不过比直接复制出来的要好很多了,能节省一些时间。
![](https://filescdn.proginn.com/cf06bb5703eb1d22f22f3125708ae59b/d19b2041a3e45d15d1a924682d0a3a49.webp)
目前这个工具还在完善,比如直接抽取PDF中所有表格,敬请期待。
实现方法周末再公布吧,其实经常看我文章的同学应该都很熟悉了吧。之前在腾讯的这个算法,我搬到了网上,随便玩!一文中有介绍。
本文代码能在huggingface看到,其实也是刚刚调试好,觉得有用,期待三连。
推荐阅读
评论