Python 将 PDF 转换为 Word
码农StayUp
共 1104字,需浏览 3分钟
· 2023-05-25
大家好,我是水滴~
在平时的工作中,我们总会希望将需要的 PDF 文件转换为 Word 文件,而市面上很多工具都是收费的,这无疑增加了我们的成本。
所以,我使用 Python 编写了一个转换代码,可以 将 PDF 转换为 Word,完全是免费的,在这里分享给大家。
上面的 GIF 图片就是转换的过程。在使用前,需要安装
pdf2docx
库,下面是详细教程。
安装 pdf2docx
库
该库可以将 PDF 文件转换为 Word 文件,它使用 PyMuPDF
从 PDF 中提取数据,使用规则解析布局,并使用 python-docx
生成 docx
文件。
当然该库还有一些限制,并不是所有 PDF 都能解析的:
-
• 必须是基于文本的 PDF 文件
-
• 文字必须从左到右
-
• 阅读方向正常,无文字变换/旋转
-
• 基于规则的方法也不能 100% 转换 PDF 布局
pip install pdf2docx
转换代码
将 pdf
文件转换为 docx
文件:
# 将 pdf 文件转换为 docx 文件
def
pdf2docx
(
pdf_file
,
docx_file
):
cv
=
Converter
(
pdf_file
)
cv
.
convert
(
docx_file
)
cv
.
close
()
转换效果:
获取源码,请在下方「水滴技术」公众号回复:20230427
评论
OpenAI CEO斯坦福闭门猛料!“GPT-5将远超GPT-4”
来源:量子位 “AI模型将更加智能,我们还没有接近这条曲线的顶端。”这是Sam Altman最近在斯坦福闭门座谈会上谈到的观点。当然,对于人们跺脚期盼的GPT-5,他再次卖关子道:GPT-5将远超GPT-4,我们还没有走到Scaling Law的顶点。(os: 具体你们等着瞧
机器学习初学者
0
谷歌员工爆料Python基础团队原地解散
机器之心报道编辑:蛋酱什么?谷歌解雇了整个 Python 基础团队?「当与你直接共事的每个人,包括你的主管,都被裁员 —— 哦,是职位被削减,而你被要求安排他们的替代者入职,这些人被告知在不同的国家担任同样的职位,但他们并不为此感到高兴,这是很艰难的一天。」发布这一动态的 Thomas Wouter
机器学习初学者
0
OpenAI CEO斯坦福闭门猛料!“GPT-5将远超GPT-4”
Datawhale干货 最新:OpenAI,来源:量子位“AI模型将更加智能,我们还没有接近这条曲线的顶端。”这是Sam Altman最近在斯坦福闭门座谈会上谈到的观点。当然,对于人们跺脚期盼的GPT-5,他再次卖关子道:GPT-5将远超GPT-4,我们还没有走到Scaling
Datawhale
1
【Python】coverage,一个有趣的 Python 库!
大家好,今天为大家分享一个有趣的 Python 库 - coveragepy。Github地址:https://github.com/nedbat/coveragepy在软件开发中,测试是确保代码质量和稳定性的关键步骤之一。而代码覆盖率则是衡量测试覆盖代码的程度的重要指标之一。Python cove
机器学习初学者
0
【Python】Python加速运行技巧
Python 是一种脚本语言,相比 C/C++ 这样的编译语言,在效率和性能方面存在一些不足。但是,有很多时候,Python 的效率并没有想象中的那么夸张。本文对一些 Python 代码加速运行的技巧进行整理。 0. 代码优化原则 本文会介绍不少的 Python 代码加速运行的技巧。在深入代码优化细
机器学习初学者
0
Python列表知识应知应会
点击上方“Go语言进阶学习”,进行关注回复“Go语言”即可获赠从入门到进阶共10本电子书今日鸡汤只在此山中,云深不知处。一、前言 在Python程序开发中,列表(List)经常会使用。假设一个班里有50个学生现需要统计每一个学生的总成绩情况,如果不使用列
Go语言进阶学习
0
Python 字符串应该用双引号还是单引号?
转载来源:洪尔摩斯PyCharm升级至 2023.2版本后,经常弹出来一个提示问我要不要试一下Black formatter。试了一下,这个Black formatter 很有个性,特别喜欢换行。我的一个文件用PyCharm自带的代码整理器整理完之后是500行左右,然后再用Black整理就变成600
菜鸟学Python
0
delorean,一个超级实用的 Python 库!
作者通常周更,为了不错过更新,请点击上方“Python碎片”,“星标”公众号大家好,今天为大家分享一个超级实用的 Python 库 - delorean。Github地址:https://github.com/myusuf3/delorean/时间在计算机科学和软件开发中是一个至关重要的概念。Pyt
Python 碎片
0