DocumentExtractordoc及docx纯文本提取
在日常的很多项目中我们总会遇到各种各样的格式转换问题,这让我头疼不已。尤其是在window占领pc机大部分系统的今天,doc及docx格式虽然已经开放,但是对于一个一般开发者来说依然无法处理。所以我们研究了doc及docx文件格式写出了DocumentExtractor。
本项目简单易用,对外接口仅有三个分别为open ,getText ,close ,简单明了,易于使用。同时这仅仅是一个草稿版本,在构架及代码设计方面存在很多问题。我会尽快开发正式版本,
评论
xurls从纯文本提取 URL
xurls可以从纯文本中使用正则表达式提取URL。go get github.com/mvdan/xurls使用示例import "github.com/mvdan/xurls"func main()
xurls从纯文本提取 URL
0
textractPython 文本提取库
textract是一个Python库,用来从各种文档中提取文本信息。示例代码:# some python fileimport textracttext = textract.process("pat
textractPython 文本提取库
0