zdocument text文档/压缩包解析工具
zdocument_text 是一个文档解析库。主要用于解开各类压缩包,解析各类文档为文本和资源(主要是图片),解出的文本不关注样式。适用于机器学习,分词等,不适合展示。
背景
- 在邮件反垃圾系统中, 需要解析附件(文档,压缩包,图片), 获取文本, 获取文件类型
支持的压缩包类型
- z, 7z, gz, tar, tgz, zip/arj/zipx, rar/lzh,
支持的文档类型
- doc/dot/wps/wpt, ppt/pps/dpt/dps, xls/xlt/ett/et
- docx/docm/dotx, pptx/pptm, xlsx/xlsm
- odt, odp, ods
- xmldoc, xmlxls
- rtf
评论