终于有人把搜索引擎讲明白了
导读:我们现在正处在一个信息过载的时代。
全世界每年产生1EB到2EB (1EB≈1018B)信息,相当于地球上每个人每年大概产生250MB信息。其中,纸质信息仅占所有信息的0.03%。静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。Tom Landauer认为人的大脑只能存储约200MB信息,一生只能接触约6GB信息。
近些年,大数据技术的出现及发展、深度学习以及神经网络计算能力的提高,加速提高了我们对信息的处理能力,但是并没有缓解信息过载给我们造成的影响。搜索引擎成为我们获取信息的主要手段之一。
-
搜索器的功能是在互联网中漫游,负责发现和搜集信息。 -
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,输出用于表示文档以及生成文档库的索引表。 -
检索器的功能是根据用户的查询在索引库中快速检出文档,并进行文档与查询的相关度评价,对将要输出的结果进行排序,实现某种用户相关性反馈机制。 -
用户接口的功能是输入用户查询、显示查询结果、提供用户相关性反馈机制。
-
系统角度。从系统角度来看,搜索系统是一个更广泛的概念,包括搜索引擎。具有相关性计算和分析的系统都可以归为搜索系统。除了我们常说的搜索引擎外,搜索系统还应该包括外部支持的业务场景和应用领域等特征。 -
用户角度。从用户角度来看,搜索系统的输出是对用户需求的投射,因此我们在设计搜索系统时需要观察用户对检索结果的反应,除此之外,还得考虑相应的应用场景以及搜索工程。
-
顺序扫描,顾名思义,按照顺序查询特定的关键字,这种方式耗时且低效; -
全文检索需要提取关键字并建立索引,因此,搜索到的信息过于庞杂,用户需要逐一浏览并甄别所需信息。在用户没有明确检索意图情况下,全文检索方式效率稍显不足。Google和百度都是典型的全文搜索引擎。
-
用户通过网络访问元搜索引擎并向服务器发出查询,服务器接收到查询内容后,先访问结果数据库,查询近期记录中是否存在相同的查询,如果存在,返回结果; -
如果没有,将查询进行处理后分发到多个独立搜索引擎,并集中各搜索引擎的查询结果,结合排序方式对结果进行排序,生成最终结果并返给用户,同时保存现有结果到数据库中,以备下次查询使用。 -
保存的查询结果有一定的生存期,超过一定时间的记录就会被删除,以保证查询结果的时效性。
评论