搜索引擎分类

一、搜索引擎发展历史

随着互联网信息的爆炸性增长,用户想要在互联网中寻找到所需信息就如同大海捞针,这时,为满足大众信息检索需求的专业搜索引擎应运而生。

现实意义上的搜索引擎是1990年由蒙特利尔大学学生开发的Archie。虽然当时的WWW还未出现。但网络中文件传输已经相当频繁,而且由于大量文件散布在各个不同的FTP服务器中,形成了巨量的信息源。这位学生的Archie依靠脚本程序搜索网络上的文件,在对其进行索引,共使用者查询。由于Archie深受用户欢迎,受其启发,美国内华达高教系统计算服务中心于1993年开发了另一个类似的搜索工具,该搜索工具除了能索引文件外,还能检索网页。

当时,“机器人”一词十分流行,“机器人”是指快速不间断的执行某项任务的程序。由于专门用于检索信息的机器人程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎机器人程序也被称为蜘蛛程序。世界上第一个检测互联网发展规模的机器人程序是Gray开发的www。刚开始它用于统计互联网上服务器的数量,后来发展成为能够检索网站的域名。与www相对应,Koster于1993年10月创建了ALIWEB,它是Archie的HTIP版本。ALIWEB不使用机器人程序,而是靠网站主动提交信息来建立自己的链接索引,类似雅虎分类目录。

随着互联网的快速发展,检索新出现的网页变得越来越困难,因此,在Gray的基础上,将传统的蜘蛛程序做了改进。其设想是,既然所有网页都可能存在指向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索出整个互联网。到1993年年底,一些基于此原理的搜索引擎开始纷纷涌现,JUMPSTATION和www Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的搜索引擎。现代意义上的搜索引擎最早出现于1994年7月。当时,Michael将JOHN的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos.同年4月,斯坦福大学的两名博士生,David和美籍华人杨致远共同创办了超级目录索引雅虎,并成功地是搜索引擎的概念深入忍心。从此搜索引擎进入了高速发展的时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也今非昔比。例如,Google号称数据库中存放的网页以达40亿!

二、搜索引擎的分类

1.全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的全文搜索引擎有Google、雅虎,而国内比较有名的全文搜索引擎有百度等。他们都是通过从互联网上提取各网站的信息(以网页文字为主)建立数据库,再从这个数据库中检索与用户查询条件相匹配的相关记录,最后把这些记录按照一定的排列顺序返回给用户。

从搜索结果来源的角度,全文搜索引擎有自己的检索程序,俗称蜘蛛程序或机器人程序,并自行建立网页数据库,搜索结果就直接从自身的数据库中调用。

2.目录搜索引擎

目录搜索引擎虽然具备搜索功能,但严格的说并不是搜索引擎,仅仅是按照类别向用户展示相关网站列表的普通网站而已。目录搜索引擎中最具代表的要数雅虎了,其它还有ODP等。

3.元搜索引擎

元搜索引擎在接受用户查询请求的时候,会同时在其他多个搜索引擎上进行搜索,并将结果返回给用户,著名的元搜索引擎有Dogpile等。在搜索结果排列方面,有的直接按照来源排列搜索结果,有的则按照自定的规则将结果重新排列组合后再返回给用户。

除了上述三大类搜索引擎以外,还有以下两种非主流形式的搜索引擎。

集合式搜索引擎。这一类搜索引擎与元搜索引擎类似,但区别在于不是同时调用多个搜索引擎进行搜索,而只是让用户从提供的搜索引擎中进行选择,例如,hotbot在2002年底推出的搜索引擎。

免费链接列表。也就是常见的链接交换系统,这类网站一般只有简单的排列出网站的链接条目,少部分还会有简单的分类目录,不过规模比起雅虎这样的人工分类目录要小的多。

三、搜索引擎工作原理

搜索引擎优化的一个主要任务就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每一个环节都会与搜索引擎工作流程存在必然的联系,研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。

搜索引擎的主要工作原理包括:

页面抓取:就是搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程,为搜索引擎开展各项工作提供了数据支持。

页面分析:主要是指对抓取回来的网页进行信息提取处理,包括提取页面的正文信息,并对正文信息进行分词等,为后续建立关键字索引及关键字倒排索引提供基础数据。

页面排序:搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排序列表。

关键字查询:搜索引擎接收来自用户的查询请求,并对查询信息进行切词及匹配,在向用户返回相应的页面排序列表。

非原创,转载相关书籍,学习分享

相关资讯: