zdocument text文档/压缩包解析工具
zdocument_text 是一个文档解析库。主要用于解开各类压缩包,解析各类文档为文本和资源(主要是图片),解出的文本不关注样式。适用于机器学习,分词等,不适合展示。
背景
- 在邮件反垃圾系统中, 需要解析附件(文档,压缩包,图片), 获取文本, 获取文件类型
支持的压缩包类型
- z, 7z, gz, tar, tgz, zip/arj/zipx, rar/lzh,
支持的文档类型
- doc/dot/wps/wpt, ppt/pps/dpt/dps, xls/xlt/ett/et
- docx/docm/dotx, pptx/pptm, xlsx/xlsm
- odt, odp, ods
- xmldoc, xmlxls
- rtf
评论
Piccolo XML ParserXML 文档解析工具
Piccolo是利用java快速解析XML文档的开源项目。它实现SAX1,SAX2.0.1,andJAXP1.1接口作为一个(Non-validating)非验证剖析器。
Piccolo XML ParserXML 文档解析工具
0
ArcConvert压缩包转换工具
ArcConvert是一款强力的压缩包转换工具,支持如下格式转换。7ZIP/LZH/CAB/ZIP/ARJ/ACE/RAR/TAR/TGZ/GZ/Z/BZ2/YZ1/YZ2/GCA/BEL等汉化方式为
ArcConvert压缩包转换工具
0
NekoPullXML 文档解析 API
NekoPull是一个XML文档解析API,它扩展了XercesNativeInterface (XNI)以提供请求解析功能。
NekoPullXML 文档解析 API
0
JSimpleDocJava文档工具
JSimpleDoc是一个用来根据程序源码生成文档的工具,类似JavaDoc,能自动保持跟源码文件的同步。支持PHP、Java编程语言。
JSimpleDocJava文档工具
0
Sphinx 文档工具
Sphinx简单来说,是一个文档生成工具,用于把reStructuredText格式的源文件生成诸如HTML,PDF,LaTex一类的格式。编辑者无须亲自处理文本的格式,程序会自动根据源文件里的设置产
Sphinx 文档工具
0
浅谈几款XML文档解析工具以及优缺点
一、简介XML,一种可扩展标记语言,通常被开发人员用来传输和存储数据,定义也比较简单,通常如下方式开头,用来表述文档的一些信息。<?xml version="1.0" encoding="UTF-8"?>例如下面这个简单的文档。<?xml versio
Stephen
1