zdocument text文档/压缩包解析工具

联合创作 · 2023-09-29 16:32

zdocument_text 是一个文档解析库。主要用于解开各类压缩包,解析各类文档为文本和资源(主要是图片),解出的文本不关注样式。适用于机器学习,分词等,不适合展示。

背景

  • 在邮件反垃圾系统中, 需要解析附件(文档,压缩包,图片), 获取文本, 获取文件类型

支持的压缩包类型

  • z, 7z, gz, tar, tgz, zip/arj/zipx, rar/lzh,

支持的文档类型

  • doc/dot/wps/wpt, ppt/pps/dpt/dps, xls/xlt/ett/et
  • docx/docm/dotx, pptx/pptm, xlsx/xlsm
  • odt, odp, ods
  • xmldoc, xmlxls
  • rtf
  • pdf
浏览 5
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报