Minidx信息抽取组件

联合创作 · 2023-09-28 21:59

Minidx 这一组件是专门为开发人员准备的,利用Minidx Extract-Text Com组件,您可以轻松的从Word,Xls,Pdf……等200多种文件格式中读取文本内容。该组件本身用C++编写,以Com组件的形式调用,您可以 在一切可以调用Com组件的开发语言中调用这一组件,快速的抽取各种文本内容。

Minidx是一个文件管理系统。它具有:
自带超高速全文搜索引擎,瞬间找到所需要的文件
具有自己的存储系统,安全的管理重要文档
可存储与管理TB级别的数据,数据量的大小对系统运行的效率影响甚微
采用IFilter抽取文本,无须安装例如Office的应用程序即可阅读内容
基于Unicode编码,可正常输入/显示多国语言
高亮语法显示,方便地阅读多种文档
检索结果高亮显示,方便查看
模糊查询,自动识别同义词 例如要查询where时,输入whe也能得到结果
自带Web服务器,可方便的在Internet/局域网共享所管理的文档
独立的P2P功能,可自由选择启动服务端/客户端,或者同时启动
可以根据创建时间,修改时间,访问时间,标题,存储路径,内容等各项属性分等级,分目录地实现精确查询
可方便设定过滤字段

搜索引擎特性:
整个引擎非常小,由2万多行C/C++代码实现
标准C/C++编写,几乎可以运行在所有的系统
无需太多内存,在较低的硬件环境下也可以运行而不影响效率
方便的集成到各种系统,利用Minidx引擎,仅仅需要添加几行代码就可以让系统具有全文检索功能
超高速检索,百万条记录也能在毫秒内返回结果
字,词,句检索
条件”与”,”或”查询,以及他们的组合查询
采用UNICODE字符集,多国语言字符串混合查询
精确查询,甚至一个标点符号也可以精确定位

浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报