第2章 互联网基础应用

2.1.2 搜索引擎介绍
在Internet这个信息宝库中查找信息的最快捷、最方便的方法就是使用搜索引擎(Search Engine),它以一定的方式在Internet上搜索和发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。用户可以简单地将其理解为一个信息地图,它将Internet上原本毫无秩序的信息一目了然地呈现在用户的面前,供用户随时查阅。
1、搜索引擎的分类
按照搜索引擎的工作方式可以将其分为3种:全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search IndexIDirectory )和元搜索引擎(Meta Search Engine)。
(1)全文搜索引擎
全文搜索引擎首先提取各个网站的信息并将其存放到自己的数据库中,然后从数据库中检索与用户查询条件匹配的相关记录,再按照一定的排列顺序将结果返回给用户。国外具有代表性的全文搜索引擎包括Google, Teoma, WiseNut等,国内最为著名的是百度。
从搜索结果来源的角度又可以将全文搜索引擎分为两种:一种拥有自己的检索程序,也称为“蜘蛛”程序,它自建有网页数据库,搜索结果直接从自身的数据库中调用,另一种则是租用其他引擎的数据库,并按自定义的格式排列搜索结果,如Lycos引擎。
(2)目录索引类搜索引擎
目录索引类搜索引擎虽然有搜索功能,但在严格意义上说算不上是真正的搜索引擎,而仅仅是按 照目录分类的网站链接列表而已。用户在进行搜索时,完全可以不用进行关键词查询,而是通过分类 目录来查找需要的信息。目录索引类搜索引擎中,国外最具代表性的是Yahoo,国内的搜狐、新浪、 网易等也属于这一类。
(3)元搜索引擎
元搜索引擎在接收到用户的查询请求后,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace,Dogpile,Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的元搜索引擎直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合。
2、搜索引擎的工作原理
了解搜索引擎的工作原理对用户日常的搜索应用以及网站的提交推广都会有很大帮助,下面分别介绍全文搜索引擎的工作原理和目录索引搜索引擎的工作原理。
(1)全文搜索引擎的工作原理
全文搜索引擎搜集信息的方式分为两种:一种是定期搜索,即每隔一段时间(如Google一般是28天)搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的网站进行检索,一旦发现新的网站,它就会自动把提取的网站信息和网址加入自己的数据库:另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内向网站派出 “蜘蛛”程序,扫描用户网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不能保证网站能够进入搜索引擎数据库,因此最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到并自动将网站收录。
在全文搜索引擎中搜索信息时,用户通常采用"关键词"搜索方式,即用户只需要用逻辑组合的方式输入各种关键词,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法(通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等)计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
(2)目录索引搜索引擎的工作原理
目录索引搜索引擎就是将网站分门别类地存放在相应的目录中,用户在查询信息时,可以选择关键词搜索,也可以按分类目录逐层查找。如果以关键词搜索,返回的结果与全文搜索引擎一样,也是根据信息关联程度排列网站,只是其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是根据标题字母的先后顺序决定。
目录索引搜索引擎与全文搜索引擎的工作原理有许多不同之处,具体表现如下:
①全文搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览网站,然后根据一套自定的评判标准来决定是否接纳网站。
②全文搜索引擎在收录网站时,只要网站本身没有违反相关的规则,通常都能够登录成功。而目录索引对网站的要求则非常高,有时即使登录多次也不一定成功。
③在登录全文搜索引擎时,用户一般不需要考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录中。
④全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,用户本身会拥有更多的自主权:而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。如果工作人员认为提交网站的目录、网站信息不合适,可以随时对其进行调整。
目前,全文搜索引擎与目录索引搜索引擎有相互融合渗透的趋势。一些纯粹的全文搜索引擎现在也提供有目录搜索,如Google就借用Open Directory目录来提供分类查询。而Yahoo则通过与Google 等搜索引擎合作扩大搜索范围。
3、检索资源的方式
搜索引擎在Internet上检索网络资源的方式可以分为两种:关键词检索和分类目录式检索。下面分别介绍这两种检索方式的使用。
(1)关键词检索
谓“关键词”就是指能表达将要查找信息的主题的单词或短语。用户以一定逻辑组合方式输入各种关键词,搜索引擎根据这些关键词寻找用户所需资源的地址,再以一定的规则将包含这些关键字的网页链接提供给用户。
下面以新浪搜索引擎为例,来说明关键词检索方式的使用。如我们想要了解有关“金字塔”的相关知识,就可以进行如下操作。
①打开IE浏览器。
②在地址栏文本框中输入新浪网址www.sin.com,按回车键后进入新浪网的首页,如图2.1-5所示。
③在新浪首页中找到其搜索栏,并在其关键词文本框中输入"金字塔",如图2.1-6所示。


图 2.1-5 新浪网的首页 图2.1-6 输入关键词


④单击【搜索】按钮,弹出搜索结果页面。在该页面中列出了诸多关于金字塔的网站或网页的超级链接,如图2.1-7所示。
⑤单击其中任意一个超级链接,即可进入相应的网页中进行查看,如图2.1-8所示。


图 2.1-7 查找到的网页链接 2.1-8 打开网页链接


(3)分类目录式检索
当使用关键词查找与某个话题相关的信息时,搜索站点通常会给好多网页链接。其中一些网页能满足要求,还有某些网页与关键词符合,但是却不是想要的。如对“Plant”的搜索不仅会找到有关植物学和植物的网页,而且还会发现其他关于发电厂以及欧州的金活雀花王朝的网页。而分类目录式检索却可以索却可以将搜索内容限制在合理的范围内。
分类目录中的所有内容就是超级链接。通过单击一个大的分类目录标题可以显示一个相关子目录组成的列表。单击子目录标题,就会显示这个子目录的子分类目录。按照这种方式继续,就可以向下逐步深入目录,直到最后到达与某个主题相关的网页链接表。
下面就以查找金庸的小说《碧血剑》为例,来介绍分类目录式检索的使用。其具体操作步骤如下:
①首先打开E浏览器。
②在其地址栏文本框中输入搜狐的网址www.sohu.com,按回车键后进入搜狐网的首页,如图2.1-9所示。
③移动其滚动条,找到搜狐网的搜索栏,单击其后面的【Sogou】按钮,进入sogou引擎, 如图2.1-10所示。


图 2.1-9搜狐网首页 图      2.1-10 Sogou搜索引擎页面


④单击【更多】按钮,进入如图2.1-11所示的“更多功能”页面。
⑤拖动滚动条,在该页面中找到“分类目录”超级链接,如图2.1-12所示。


图 2.1-11 “更多功能”页面 图    2.1-12“分类目录”超级链接


⑥单击该超级链接,进入分类目录,如图2.1-13所示。


图 2.1-13 分类目录


⑦单击“文学”超级链接下面的“小说”,超级链接,进入小说分类目录,如图2.1-14所示。
⑧单击“武侠小说”超级链接,进入武侠小说的分类目录,该页面中列出了许多著名的武侠小说作家,如图2.1-15所示。


图 2.1-14小说分类目录 图      2.1-15 武侠小说分类目录


⑨单击“金庸”链接,进入如图2.1-16所示的页面,其中列出了金庸所写的所有武侠小说的名称。
⑩单击“碧血剖”链接,进入《碧血剑》目录页面,如图2.1-17所示。


图 2.1-16 “金庸”小说页面     图 2.1-17 《碧血剑》目录


最后,单击其中想要阅读的章节后即可进行阅读,如图2.1-18所示。


图 2.1-18开始阅读