Python 将 PDF 转换为 Word
 
 大家好,我是水滴~
在平时的工作中,我们总会希望将需要的 PDF 文件转换为 Word 文件,而市面上很多工具都是收费的,这无疑增加了我们的成本。
所以,我使用 Python 编写了一个转换代码,可以 将 PDF 转换为 Word,完全是免费的,在这里分享给大家。
上面的 GIF 图片就是转换的过程。在使用前,需要安装
pdf2docx库,下面是详细教程。
安装 pdf2docx 库
 
 该库可以将 PDF 文件转换为 Word 文件,它使用 PyMuPDF 从 PDF 中提取数据,使用规则解析布局,并使用 python-docx 生成 docx 文件。
当然该库还有一些限制,并不是所有 PDF 都能解析的:
-  • 必须是基于文本的 PDF 文件 
-  • 文字必须从左到右 
-  • 阅读方向正常,无文字变换/旋转 
-  • 基于规则的方法也不能 100% 转换 PDF 布局 
    
    
      pip install pdf2docx
    
   
 转换代码
将 pdf 文件转换为 docx 文件:
    
    
      # 将 pdf 文件转换为 docx 文件
      
def
       
      pdf2docx
      (
      
        pdf_file
        ,
         docx_file
      
      ):
      
    cv 
      =
       
      Converter
      (
      pdf_file
      )
      
    cv
      .
      convert
      (
      docx_file
      )
      
    cv
      .
      close
      ()
    
   
 转换效果:
 
 获取源码,请在下方「水滴技术」公众号回复:20230427
 
评论
