Python 将 PDF 转换为 Word

共 1104字,需浏览 3分钟

 ·

2023-05-25 19:33


e9ebcd5f92c542468d9d6973511f76de.webp

大家好,我是水滴~


在平时的工作中,我们总会希望将需要的 PDF 文件转换为 Word 文件,而市面上很多工具都是收费的,这无疑增加了我们的成本。


所以,我使用 Python 编写了一个转换代码,可以 将 PDF 转换为 Word,完全是免费的,在这里分享给大家。



上面的 GIF 图片就是转换的过程。在使用前,需要安装 pdf2docx 库,下面是详细教程。



安装 pdf2docx 库


该库可以将 PDF 文件转换为 Word 文件,它使用 PyMuPDF 从 PDF 中提取数据,使用规则解析布局,并使用 python-docx 生成 docx 文件。


当然该库还有一些限制,并不是所有 PDF 都能解析的:



  • • 必须是基于文本的 PDF 文件


  • • 文字必须从左到右


  • • 阅读方向正常,无文字变换/旋转


  • • 基于规则的方法也不能 100% 转换 PDF 布局



    

pip install pdf2docx


转换代码


将 pdf 文件转换为 docx 文件:


    

# 将 pdf 文件转换为 docx 文件

def
 
pdf2docx
(

pdf_file
,
 docx_file

):

    cv 
=
 
Converter
(
pdf_file
)

    cv
.
convert
(
docx_file
)

    cv
.
close
()


转换效果:


17670b9c5eb7d2d082de47dd9567f689.webp

获取源码,请在下方「水滴技术」公众号回复:20230427




浏览 125
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报