DataparkSearch搜索引擎

联合创作 · 2023-09-29 04:48

DataparkSearch 搜索引擎是一个 C 语言的全功能的开源基于Web的搜索引擎，

主要特征

支持http、https、ftp、nntp 和news URL 方案。

用于索引 SQL 数据库的htdb虚拟 URL 方案。

索引text/html、text/xml、text/plain、audio/mpeg (mp3) 和image/gif mime 类型。

外部解析器支持其他文档类型，包括 Microsoft Word、Excel、RTF、PowerPoint、Adobe Acrobat PDF 和 Flash。

可以使用内容协商索引多语言站点。

可以使用ispell词缀和词典搜索所有单词形式。

基于可编辑词典的同义词、首字母缩写词查询扩展，由语言和字符集指定。

停用词、同义词和首字母缩略词列表。

查询所有单词、所有彼此靠近的单词、任何单词或布尔查询的选项。支持 VQL（Verity 查询语言）的一个子集。

基于神经网络模型的人气排名。

结果可以按相关性（使用向量计算）、流行度排序为“Goo”（为传入链接添加权重）和“Neo”（神经网络模型）、最后修改时间和“重要性”（相关性的组合）和人气排名）。

通过自动字符集和语言检测支持广泛的字符集支持。

提供不区分重音的搜索选项。

提供中文、日文、韩文和泰文的词组切分（分词）。

包括一个索引器和一个 Web CGI 前端，以及一个用于 Apache Web 服务器的搜索模块 ( mod_dpsearch )。

处理国际化域名 (IDN)。

Summary Extraction Algorithm 自动将每个文档总结成几个句子。

使用 If-Modified-Since 来高效传输仅更改的文件。

可以使用会话 ID 和其他奇怪的格式调整 URL，包括一些 JavaScript 链接解码。

可以执行并行和多线程索引以加快更新速度。

灵活的更新计划，包括更频繁地检查网站某些部分的选项。

处理基本身份验证（用户名和密码）和 cookie。

存储文档的压缩文本版本以供提取和查看。

可以为服务器或子目录指定默认字符集和语言，或可能的语言列表。

Noindex标签：、<NOINDEX>、、谷歌特别评论、和  视为要包含/排除的标签。

可以指定一个内容正文标签。

使用aspell对查询词进行拼写检查。

用于自定义搜索结果页面的灵活选项和命令。

有效的缓存可以显着减少搜索时间。

查询日志存储查询、查询参数和找到的结果数。

浏览 8

点赞

收藏

分享

举报

评论

图片

表情

DataparkSearch搜索引擎

DataparkSearch搜索引擎是一个C语言的全功能的开源基于Web的搜索引擎，主要特征支持http、https、ftp、nntp 和news URL方案。用于索引SQL数据库的htdb虚拟URL

Nutch搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop

lunr.jsJavaScript 搜索引擎

lunr.js实现了在网页上的搜索引擎，类似Solr。示例代码：//定义索引varidx=lunr(function(){this.field('title',{boost:10})this.fiel

PonySEweb搜索引擎

PonySE是一个高速的,灵活的,小型web搜索引擎,使用C/C++开发.PonySE的每一个模块都尽量独立,这意味着你可以单独使用其中的一个你觉得有用的模块.

元搜索引擎

元搜索引擎原搜索引擎是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作，是对分布于网络的多种检索工具的全局控制机制。自己没搜索引擎，又想要大规模的数据源，怎么办？可

ssbcBT 搜索引擎

这是 www.shousibaocai.org 的网站源代码。开源的目的是为了促进技术交流和相互学习，把DHT与搜索引擎技术应用到更广泛的领域去。本站于2015年5月使用django改写。本站于201

Oxyus搜索引擎

Oxyus是一种使用100％Java编写的开源搜索引擎，旨在以简单的方式为您的网站提供搜索按钮。Oxyus使用ApacheLucene进行索引，使用Quartz进行调度以及其他有趣的软件产品。

Ferret-RubyRuby 搜索引擎

Ferret 是Java 全文搜索引擎Lucene的Ruby 移植版本。Ferret是一个与ApacheLucene相同的信息检索库。最初它是Lucene的完整版本，但现在它仍使用它自己的文件格式和索

RegainJava 搜索引擎

Regain是一个基于Jakarta Lucene的Java搜索引擎。它提供了索引和搜索文件的多种格

Zilverline搜索引擎

Zilverline是您可以称为的“反向搜索引擎”：Zilverline是提供对您的个人或Intra

点赞

收藏

分享

举报