百科名片
各个搜索引擎的网站图标
搜索引擎(search engine) 是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索 服务的系统。
1 、全文索引
全文搜索引擎是名副其实的搜索引擎,国外代表有Google ,国内则有著名的百度搜索 。它们 从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索引、检索系统 (Indexer ),有独立的“ 蜘蛛” (Spider )程序、或爬虫(Crawler )、或“机器人 ” (Robot )程序(这三种称法意义相 同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google 和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的 格式排列搜索结果,如Lycos 搜索引擎。
2 、目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表 而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词 (Keywords )进行查询。目录索引中 最具代表性的莫过于大名鼎鼎的Yahoo 、新浪分类目录搜索。
3 、元搜索引擎
元搜索引擎(META Search Engine )接受用户查询请求 后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace 、Dogpile 、Vivisimo 等,中文元搜索引擎中具代 表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile ;有的则按自定的规则将结果重新排列组合,如 Vivisimo 。
4 、垂直搜索引擎
垂直搜索引擎为2006 年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注 于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数 千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
其他非主流搜索引擎形式:
1 、集合 式搜索 引擎:该搜索引擎类似元搜索引擎, 区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot 在2002 年底推出的搜索引擎。
2 、门户搜索引擎:AOL Search 、MSN Search 等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
3 、免费链接列表(Free For All Links 简称FFA ):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo !等目录索引小很多。
1 、 抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider )。Spider 顺着网页中的超链 接,连续地抓取网页。被抓取的网页被称之为网页快照 。由于互联网中超链接 的应用很普 遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2 、处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键 词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/ 丰富度等。
3 、提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断, 除了网页标题 和URL 外,还会 提供一段来自网页的摘要以及其他信息。
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的 自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google 一般是28 天),搜索引擎主动派出“ 蜘 蛛” 程序,对一定IP 地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提
蜘 蛛搜索引擎
取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2 天到数月不 等)定向向你的网站派出“ 蜘蛛” 程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不 保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接 ,让搜索引擎有更多机会找到你并自动 将你的网站收录 。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网 站,便采用特殊的算法—— 通常根据网页中关键词的匹配程度,出现的位置/ 频次,链接质量等—— 计算出各网页的相关度 及排名等级,然后根据关联度高低,按顺 序将这些网页链接返回给用户。
这种引擎它的特点是搜全率比较高。
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人 员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对 网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo 这样的超级索引,登录更是困难。
此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在 一个最合适的目录(Directory )。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更 多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以 随时对其进行调整,当然事先是不会和你商量的。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关 键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层 目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜 索,如Google 就借用Open Directory 目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google 等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国 内搜狐 、新 浪、网易 等; 而另外一些则默认的是网页搜索,如Yahoo 。
这种引擎的特点是找的准确率比较高。
互联网 发展早期,以雅虎 为代表的网站 分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自 己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
1990 年,加拿大麦吉尔大学(University of McGill )计算机学院的师生开发出Archie 。当时,万维网 (World Wide Web )还没有出现,人们通过FTP 来共享交流资源。Archie 能定期搜集并分析FTP 服务器上的文件名信息,提供查找分别在各个FTP 主机中的文件。 用户必须输入精确的文件名进行搜索,Archie 告诉用户哪个FTP 服务器能下载该文件。虽然Archie 搜集的信息资源不是网页(HTML 文件),但 和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie 被公认为现代搜索引擎的鼻祖。
搜索引擎的起源:
所有搜索引擎的祖先,是1990 年由Montreal 的McGill University 三名学生(Alan Emtage 、Peter Deutsch 、Bill Wheelan )发明的Archie (Archie FAQ )。Alan Emtage 等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie 。Archie 是第一个自动索引互联网上匿名FTP 网站文件的程序,但 它还不是真正的搜索引擎。Archie 是一个可搜索的FTP 文件名列表,用户必须输入精确的文件名搜索,然后Archie 会告诉用户哪一个FTP 地址可以 下载该文件。 由于Archie 深受欢迎,受其启发,Nevada System Computing Services 大学于1993 年开发了一个Gopher (Gopher FAQ )搜索工具Veronica (Veronica FAQ )。Jughead 是后来另一个Gopher 搜索工具。
发 展(1 ):
世界上第一个Spider 程序,是MIT Matthew Gray 的World wide Web Wanderer ,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL ) 。
搜索引擎一般由以下三部分组成:
爬行器 (机 器人、蜘蛛)
索引生成器
查询检索器
发 展(2 ):
Excite 的历史可以上溯到1993 年2 月,6 个Stanford University (斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993 年中,这已是一个完全投资项目,他们 还发布了一个供webmasters 在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers 。
注:Excite 后来曾以概念搜索闻名,2002 年5 月,被Infospace 收购的 Excite 停止自己的搜索引擎,改用元搜索引擎 Dogpile
发 展(3 ):
1994 年4 月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo 共同创办了Yahoo !。随着访问量和收录链接数的增长,Yahoo 目录开始支持简单的数据库搜索。因为Yahoo! 的数据是手工输入的,所以不 能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo! 中收录的网站,因为都附有简介信息,所以搜索效率明显提高。
注:Yahoo 以后陆续有 Altavista 、Inktomi 、Google 提供搜索引擎服务
Yahoo! --几乎成为20 世纪90 年代的因特网 的代名词。
发 展(4 ):
1995 年,一种新的搜索引擎形式出现了—— 元搜索引擎(Meta Search Engine )。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集 中起来处理后再返回给用户。
第一个元搜索引擎,是Washington 大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler 。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
发 展(5 ):
智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者 说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索 效果。
例:
(1 )查询“计 算机 ” ,与“电 脑 ” 相关的信息 也能检索出来;
(2 )可以进一步缩小查询范围至“ 微机” 、“ 服务器” 或扩大查询至“ 信息技术” 或查询相关的 “ 电子技术” 、“ 软件” 、“ 计算机应用” 等范畴;
(3 )还包括歧义信息和检索处理,如“苹果 ” ,究竟是指水果还是电脑品牌,“ 华人” 与“ 中 华人民共和国” 的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。
发 展(6 ):
个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化 产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。自2004 年 10 月yahoo 推出myweb 测试版,到11 月a9 推出个性化功能,到2005 年Googlesearchhistory 基本上都沿着一条路子走,分析 特定用户的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的,Google 个性化搜索引 擎,或者yahooMindSet ,或者我们都知道的前台聚类的vivisimo 。但是无论其中的哪一种实现方式,即Google 的主动选择搜索范围,还 是yahoo (http://my.yahoo.com ),vivisimo 的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主 流的搜索引擎应用产品。
发 展(7 ):
网格技术(great global grid) :由于没有统一的信息组织标准对网络信息资源进行加工处理,难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用,形成信息孤 岛。网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。
美国全球信息网格(Global Information Grid)
Robot (机器人)一词对编程者有特殊的意义。Computer Robot 是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot 程序像蜘蛛(spider) 一样在网络间爬 来爬去,因此,搜索引擎的Robot 程序被称为spider 程序。
1993 年Matthew Gray 开发了 World Wide Web Wanderer ,这是第一个利用HTML 网页之间的链接关系来检测万维网规模的“ 机器人(Robot )” 程序。开始,它仅仅用来统计互联网上的服务器数 量,后来也能够捕获网址(URL )。
1994 年4 月,斯坦福大学(Stanford University )的两名博士生,美籍华人Jerry Yang (杨致远 )和David Filo 共同创办了Yahoo 。随着访问量和收录链接数的增长,Yahoo 目录开始支持简单的数据库搜索。因为Yahoo !的数据是手工输入的,所以不能 真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002 年12 月23 日收购inktomi ,2003 年7 月14 日收购包括Fast 和 Altavista 在内的Overture ,2003 年11 月,Yahoo 全资收购3721 公司。
1994 年初,华盛顿大学(University of Washington )的学生Brian Pinkerton 开始了他的小项目WebCrawler 。1994 年4 月20 日,WebCrawler 正式亮相时仅包含来自6000 个服务器的内容。 WebCrawler 是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL 和摘要搜索,摘要一般来自人工评论或程序自动取 正文的前100 个字。
1994 年7 月,卡内基· 梅隆大学(Carnegie Mellon University ) 的Michael Mauldin 将John Leavitt 的spider 程序接入到其索引程序中,创建了Lycos 。除了相关性排序 外,Lycos 还提供了前缀匹配和字符相近限制,Lycos 第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994 年底,Infoseek 正式亮相。其友善的界面,大量的附加功能,使之和Lycos 一 样成为搜索引擎的重要代表。
1995 年,一种新的搜索引擎形式出现了—— 元搜索引擎(A Meta Search Engine Roundup )。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果, 集中起来处理后再返回给用户。第一个元搜索引擎,是Washington 大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler 。
1995 年12 月,DEC 的正式发布AltaVista 。AltaVista 是第一个支持自然 语言搜索的搜索引擎,第一个实现高级搜索 语法的搜索引擎(如AND 、 OR 、 NOT 等) 。用户可以用AltaVista 搜索新闻组(Newsgroups )的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索 Titles 、搜索Java applets 、搜索ActiveX objects 。AltaVista 也声称是第一个支持用户自己向网页索引库提交或删除URL 的搜索引擎,并能在24 小时内上线。AltaVista 最有 趣的新功能之一,是搜索有链接指向某个URL 的所有网站。在面向用户的界面上,AltaVista 也作了大量革新。它在搜索框区域下放了“tips” 以帮 助用户更好的表达搜索式,这些小tip 经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引 擎广泛采用。1997 年,AltaVista 发布了一个图形演示系统LiveTopics ,帮助用户从成千上万的搜索结果中找到想要的。
1995 年9 月26 日,加州伯克利分校助教Eric Brewer 、博士生Paul Gauthier 创立了Inktomi ,1996 年5 月20 日,Inktomi 公司成立,强大的HotBot 出现在世人面前。声称每天能抓取索引1 千万页 以上,所以有远超过其它搜索引擎的新内容。HotBot 也大量运用cookie 储存用户的个人搜索喜好设置。
1997 年8 月,Northernlight 搜索引擎正式现身。它曾是拥有最大数据库的搜索引 擎之一,它没有Stop Words ,它有出色的Current News 、7100 多出版物组成的Special Collection 、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998 年10 月之前,Google 只是斯坦福大学(Stanford University )的一个小项目BackRub 。1995 年博士生Larry Page 开始学习搜索引擎设计,于1997 年9 月15 日注册了google.com 的域名,1997 年底,在Sergey Brin 和Scott Hassan 、Alan Steremberg 的共同参与下,BachRub 开始提供Demo 。1999 年2 月,Google 完成了从Alpha 版到Beta 版的蜕变。 Google 公司则把1998 年9 月27 日认作自己的生日。Google 以网页级别(Pagerank )为基础,判断网页的重要性,使得搜索结果的相关性 大大增强。Google 公司的奇客(Geek )文化氛围、不作恶(Don’t be evil )的理念,为Google 赢得了极高的口碑和品牌美誉。2006 年4 月,Google 宣布其中文名称“谷歌 ” ,这是Google 第一个在非英语国家起的名 字。
Fast (Alltheweb )公司创立于1997 年,是挪威科技大学(NTNU) 学术研究的 副产品。1999 年5 月,发布了自己的搜索引擎AllTheWeb 。Fast 创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。 Fast (Alltheweb )的网页搜索可利用ODP 自动分类,支持Flash 和pdf 搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、 MP3 、和FTP 搜索,拥有极其强大的高级搜索功能。(2003 年2 月25 日,Fast 的互联网搜索部门被Overture 收购)。
1996 年8 月,sohu 公司成立,制作中文网站分类目录,曾有“ 出门找地图,上网找搜狐” 的 美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu 于2004 年8 月独立域名的搜索网站“搜狗 ” ,自称“第三代搜索 引 擎” 。
Openfind 创立于1998 年1 月,其技术源自台湾中正大学吴升教授所领导的GAIS 实验室。Openfind 起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新 浪、奇摩、雅虎提供中文搜索引擎,但2000 年后市场逐渐被Baidu 和Google 瓜分。2002 年6 月,Openfind 重新发布基于GAIS30 Project 的Openfind 搜索引擎Beta 版,推出多元排序(PolyRankTM ),宣布累计抓取网页35 亿,开始进入英文搜索领域。
2000 年1 月,两位北大校友,超链分析 专利发明人、前Infoseek 资深工 程师李彦宏 与 好友徐勇 (加 州伯克利分校博士后)在北京中关村创立了百度(Baidu )公司。2001 年8 月发布Baidu.com 搜索引擎Beta 版(此前Baidu 只为其它门户网站 搜狐新 浪Tom 等提供搜索引擎),2001 年10 月22 日正式发布Baidu 搜索引擎,专注于中文搜索。Baidu 搜索引擎的其它特色包括 :百度 快照、网页预览/ 预览全部网页、相关搜索词、错别字纠正提示、mp3 搜索、Flash 搜索。2002 年3 月闪电计划(Blitzen Project )开始后,技术升级明显加快。后推出贴吧 、知道、地图、国学、百科 、文档、视 频、博客等一系列产品,深受网民欢迎。2005 年8 月5 日在纳斯达克上市,发行价为USD 27.00 ,代号为BIDU 。开盘价USD 66.00 ,以USD 122.54 收盘,涨幅353.85% ,创下了5 年以来美国股市上市新股当日涨幅最高纪录。
2003 年12 月23 日,原慧聪 搜索正式独立运做,成立了中国搜索 。 2004 年2 月,中国搜索发布桌面搜索引擎 网络猪 1.0 ,2006 年3 月中搜将网络猪更名为IG (Internet Gateway ) 。
2005 年6 月,新浪正式推出自主研发的搜索引擎“ 爱问” 。2007 年起,新浪爱问 使用 google 搜索引擎。
2007 年7 月1 日 全面采用网易自主研发的有道 搜索技术,并且合并了原来的综合搜索和网页 搜索。有道网页搜索、图片搜索 和博客搜索 为网 易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博 客搜索相比同类产品具有抓取全面、更新及时的优势,提供“ 文章预览” ,“ 博客档案” 等创新功能。
一、搜索引擎给网吧行业带来 的影响
走进网吧,不难发现各个网吧内的电脑浏览器首页或工具条上都会有google 或百度的标志。百 度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。现在我们常用的搜索引擎无非就是百度和google 两种。从百度方面来看,百度联盟 可以 算是目前唯一一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而google 方面也不甘示弱,谷歌已经注意到了网吧市场,网吧 已经成为了谷歌的新型合作伙伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。谷歌对网吧市场的关注,表明谷歌注意到网吧作为中国互 联网市场的特色之一。由于我国PC 拥有量远落后于美国等西方国家,网吧作为网民主要上网地点的比例逐年在上升,我国网民在网吧上网的比例偏高。据 CNNIC 第20 次中国互联网络发展状况统计报告显示,超过1/3 (37.2 %)的网民表示经常去网吧上网,比2006 年12 月的32.3 %高了5 个百分点,第一次 超过网民在工作单位上网的比例而成为第二大上网场所。
二、搜索引擎对网站的影响
一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量 ,一 类就是通过搜索引擎而来的流量。如果搜索引擎能够能多能有效的抓取网站内容,那么对于网站的好处是不言而喻的。所以,SEO 也应运而生了。
在百度和谷歌两大搜索引擎的工作中,百度的工作周期相对来说短一些,百度大约在10 天左右重新 访问网站一次,Google 大约在15 天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信 息,也是加快蜘蛛收录网站内容的重要环节。
搜索引擎是网站建设 中针对“ 用户使用网站的便利性” 所提供的必 要功能,同时也是“ 研究网站用户行为的
一个有效工具” 。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/ 服 务的销售,
而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略 具 有重要价值。
1 、从网络营销的环境看,搜索引擎营销 的环境发展为网络营销的推动起到举 足轻重的作用
2 、从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销
3 、就完整型电子 商务 概念组成部分来看,网络营销是其中最重要的组 成部分,是向终端客户传递信息的重要环节
在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随 着2001 年互联网泡沫的破灭,大多转向为竞价排名 方式。
现在搜索引擎的主流商务模式(百度的竞价排名、Google 的AdWords )都是在搜索结果 页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔· 格罗斯(Bill Gross )提出的。他于1998 年6 月创立GoTo 公司(后于2001 年9 月更名为Overture ),实施这种模式,取得了很大的成功,并且申请了专 利。这种模式有两个特点,一是点击付费(Pay Per Click ),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001 年10 月,Google 推出AdWords ,也采用点击付费和竞价的方式。2002 年,Overture 起诉Google 侵犯了其专利。2004 年8 月,和Yahoo !(Yahoo !于2003 年7 月收购Overture )达成和解,向后者支付了270 万普通股(合3 亿美元不到)作为和解费。
AdSense 是Google 于2003 年推出的一种新的广告方式。AdSense 使各种规模 的的第三方网页发布者进入Google 庞大的广告商网络。Google 在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能 获得收入。AdSense 在blogger 中很受欢迎。同时,Google 武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推 出。雅虎的广告方式是YPN (Yahoo Publisher Network ),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter 。百度也推出主题推广。
搜索引擎一般由搜索器、索引器、检索器和用户 接口四个部分组成:
① 搜索器 :其功能是在互联网中漫游,发现和搜集信息;
② 索引器 :其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表;
③ 检索器 :其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对 将要输出的结果排序,并能按用户的查询需求合理反馈信息;
④ 用户接口 :其作用是接纳用户查询、显示查询结果、提供个性化查询项。
2010 年4 月12 日,艾瑞咨询今日发布的中国搜索引擎市场份额报告显示,2009 年全球搜索引擎市场规模达339.0 亿美元。中国搜索引擎市场规模达69.6 亿元(约合10.2 亿美元),相比2008 年的50.3 亿元年同比增长 38.5% 。预计2010 年中国搜索引擎市场规模将呈现45% 左右的增幅。
2009 年中国网页搜索请求量规模为2033.8 亿次,年同比增长35.7% 。自2007 年中 国列于全球搜索请求量首位以来,其在全球市场的领先优势持续强化:2007 年至2009 年,中国搜索请求量规模在全球请求量规模中占比分别为15.6% 、 19.7% 和20.6% 。
双寡头特征依旧,建议运营商外延竞争边界
2009 年中国搜索引擎市场双寡头特征加剧,营收方面,百度、谷歌二者营收份额之和为 96.2% ;流量方面,百度谷歌网页搜索请求量份额之和达94.9% ,基本垄断中国搜索引擎市场。艾瑞建议领先通用搜索引擎运营商,在维持通用搜索市场的 既得优势的同时,重视来自广义搜索市场的潜在竞争。
1 、Google http://www.google.com
2 、Yahoo http://www.yahoo.com
3 、Live http://www.live.com
4 、SearchMash http://www.searchmash.com/
5 、ASK http://www.ask.com
6 、Search http://www.search.com
7 、Ask Jeeves http://www.askjeeves.com
8 、AllTheWeb.com http://www.alltheweb.com
9 、GuTon Search http://www.guton.com
10 、HotBot http://www.hotbot.com
11 、MSN Search http://search.msn.com
12 、Teoma http://www.teoma.com
13 、AltaVista http://www.altavista.com
14 、Gigablast http://www.gigablast.com
15 、LookSmart http://www.looksmart.com
16 、Lycos http://www.lycos.com
17 、Open Directory http://dmoz.org/
18 、Netscape Search http://search.netscape.com
主要新闻搜索引擎
1 、Google News http://news.google.com/
2 、Yahoo News http://news.yahoo.com/
3 、AllTheWeb News http://www.alltheweb.com/?cat=news
4 、AltaVista News http://news.altavista.com/
5 、Daypop http://www.daypop.com/
其它新闻搜索引擎
1 、Ananova
http://www.ananova.com/
2 、Columbia Newsblaster
http://www1.cs.columbia.edu/nlp/newsblaster/
3 、Net2one
http://www.net2one.com/
4 、Newsknife.com
http://www.newsknife.com
5 、NewsNow
http://www.newsnow.co.uk/
6 、NewsTrawler
http://www.newstrawler.com/
7 、NewsTrove.com
http://www.newstrove.com/
8 、Rocketinfo
http://www.rocketnews.com
9 、World News Network
http://www.wn.com/
10 、DailyEarth.com
http://dailyearth.com/
11 、HeadlineSpot
http://www.headlinespot.com/
12 、Kiosken
http://www.esperanto.se/kiosk/engindex.html
Blog 搜索引擎
1 、Blogdex
http://blogdex.media.mit.edu/
2 、Blogdigger
http://www.blogdigger.com/
3 、Blogging Headline News
http://blogging-news.info
4 、BlogStreet
http://www.blogstreet.com/
5 、CRAYON (CReAte Your Own Newspaper)
http://www.crayon.net/
6 、Fagan Finder: Weblogs, Journals, & RSS
http://www.faganfinder.com/blogs/
7 、Feedster
http://www.feedster.com/
8 、NewsIsFree
http://www.newsisfree.com
9 、Syndic8.com
http://www.syndic8.com/
10 、Technorati
http://www.technorati.com/
杂志、期刊搜索引擎
1 、eLibrary
http://ask.elibrary.com/
2 、FindArticles.com
http://www.findarticles.com/
3 、MagPortal
http://www.magportal.com/
主要购物搜索引擎
1 、BizRate
http://www.bizrate.com
2 、DealTime
http://www.dealtime.com
3 、Froogle
http://www.froogle.com
4 、Kelkoo
http://www.kelkoo.co.uk/
5 、MSN Shopping
http://shopping.msn.com/
6 、mySimon
http://www.mysimon.com/
7 、NexTag
http://www.nextag.com/
8 、PriceGrabber.com
http://www.pricegrabber.com/
9 、Yahoo Shopping
http://shopping.yahoo.com/
其它购物搜索引擎
1 、Buyer’s Index
http://www.buyersindex.com/
2 、Dulance
http://www.dulance.com/
3 、ePublicEye.com
http://www.epubliceye.com
4 、PriceScan
http://www.pricescan.com/
专业搜索 引 擎
1 、AddAll
http://www.addall.com/
2 、CatalogCity.com
http://www.catalogcity.com/
3 、Google Catalogs
http://catalogs.google.com/
4 、Images/Audio/Video
5 、AllTheWeb
http://www.alltheweb.com/
6 、AltaVista
http://www.altavista.com/
7 、Ditto(images only)
http://www.ditto.com/
8 、Google Images (images only)
http://images.google.com
9 、Kazaa Media Desktop (MP3 only)
http://www.kazaa.com/
10 、Lycos Pictures and Sounds
http://multimedia.lycos.com/
11 、MIDI Explorer (MIDI sound files only)
http://www.musicrobot.com/
12 、The Music Finder (artists & songs, not files)
http://www.music-finder.net/
13 、Picsearch (images only)
http://www.picsearch.com/
14 、Singingfish (audio/video only)
http://www.singingfish.com/
Radio & TV Programs
15 、SpeechBot
http://speechbot.research.compaq.com/
16 、PublicRadioFan.Com
http://www.publicradiofan.com/
17 、Radio-Locator
http://www.radio-locator.com/
18 、TheFeedRoom
http://www.feedroom.com/
儿童搜索引擎
Ask Jeeves For Kids
http://www.ajkids.com/
Ask Jeeves For Kids
http://www.ajkids.com/
KidsClick!
http://www.kidsclick.org/
Yahooligans
http://www.yahooligans.com/
其它儿童搜索引擎及目录
1 、Awesome Library
http://www.awesomelibrary.org/
2 、Diddabdoo
http://www.dibdabdoo.com/
3 、Education World
http://www.education-world.com/
4 、Fact Monster
http://www.factmonster.com/
5 、Family Source
http://www.family-source.com/
6 、Kids Search Tools
http://www.rcls.org/ksearch.htm
7 、SearchEdu.com
http://www.searchedu.com/
8 、Teach-nology.com
http://www.teach-nology.com/
9 、TekMom’s Search Tools for Students
http://www.tekmom.com/search/
主要搜索工 具栏
Ask Jeeves For Kids
http://www.ajkids.com/
Ask Jeeves For Kids
http://www.ajkids.com/
KidsClick!
http://www.kidsclick.org/
Yahooligans
http://www.yahooligans.com/
其它儿童搜索引擎及目录
Awesome Library
http://www.awesomelibrary.org/
Diddabdoo
http://www.dibdabdoo.com/
Education World
http://www.education-world.com/
Fact Monster
http://www.factmonster.com/
Family Source
http://www.family-source.com/
Kids Search Tools
http://www.rcls.org/ksearch.htm
在类别中搜索
许多搜索引擎(如Yahoo )都显示类别,如计算机和Internet 、商业和经济。如果您单 击其中一个类别,然后再使用搜索引擎,您将可以选择搜索整个Internet 还是搜索当前类别。显然,在一个特定类别下进行搜索所耗费的时间较少,而且能 够避免大量无关的Web 站点。
当然,您或许还想搜索整个Internet ,以搜索特定类别之外的信息。
使用具体的关 键字
如果想要搜索以鸟为主题的Web 站点,您可以在搜索引擎中输入关键字“bird” 。但是,搜索 引擎会因此返回大量无关信息,如谈论高尔夫的“ 小鸟球(birdie )” 或烹饪game birds 不同方法的Web 站点。为了避免这种问题的出现,请使用更为具体的关键字,如“ornithology” (鸟类学,动物学的一个分支)。您所提 供的关键字越具体,搜索引擎返回无关Web 站点的可能性就越小。
使用多个关键字
您还可以通过使用多个关键字来缩小搜索范围。例如,如果想要搜索有关佛罗里达州迈阿密市的信 息,则输入两个关键字“Miami” 和“Florida” 。如果只输入其中一个关键字,搜索引擎就会返回诸如Miami Dolphins 足球队或Florida Marlins 棒球队的无关信息。一般而言,您提供的关键字越多,搜索引擎返回的结果越精确。
使用布尔运算符
许多搜索引擎都允许在搜索中使用两个不同的布尔运算符:AND 和OR 。
如果您想搜索所有同时包含单词“hot” 和“dog” 的Web 站点,只需要在搜索引擎中输入如 下关键字:
hot AND dog
搜索将返回以热狗(hot dog) 为主题的Web 站点,但还会返回一些奇怪的结果,如谈论如何在一个热天(hot day) 让一只狗(dog) 凉快下来的Web 站点。
如果想要搜索所有包含单词“hot” 或单词“dog” 的Web 站点,您只需要输入下面的关键 字:
hot OR dog
搜索会返回与这两个单词有关的Web 站点,这些Web 站点的主题可能是热狗(hot dog) 、狗,也可能是不同的空调在热天(hot day) 使您凉爽、辣酱(hot chilli sauces) 或狗粮等。
留意搜索引擎返回的结果
搜索引擎返回的Web 站点顺序可能会影响人们的访问,所以,为了增加Web 站点的点击率,一些 Web 站点会付费给搜索引擎,以在相关Web 站点列表中显示在靠前的位置。好的搜索引擎会鉴别Web 站点的内容,并据此安排它们的顺序,但其他搜索引擎大 概不会这么做。
此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web 站点在自己的网页中隐藏了 同一关键字的多个副本。这使得搜索引擎不再去查找Internet ,以返回与关键字有关的更多信息。
正如读报纸、听收音机或看电视新闻一样,请留意您所获得的信息的来源。搜索引擎能够帮您找到信 息,但无法验证信息的可靠性。因为任何人都可以在网上发布信息。
人们喜欢以他们所知道的语言列出 的搜索结果,这对搜索营销 人员是十分重要的。当一个搜索者 输入上 面图中的搜索请求时,只有用中文写的网页将被显示在搜索结果里面。
在有些国家,例如日本和中国,大部分搜索者想要结果限制在母语上。但是在其他地方例如瑞典,搜 索可以采用瑞典语和英语来进行。不同国家的搜索者有不同的语言偏好。
对搜索营销人员而言,重要的是搜索引擎知道网页所使用的语言,如果网页没能被正确地识别,可能 就会从本应发现它的搜索者面前消失,从而降低你的引荐访问。
那么搜索引擎是怎样判断网页所使用的语言呢?这里有很多不同的方法:
1 、 语言meta 标签
很多网页通过一个HTML 标签来表明网页使用的语言,例如<META http-equiv=”content-language” content="ja"> 表示使用的是日语,看起来简单,搜索蜘蛛程序 读取 标签,于是搜索引擎知道是什么语言了。但是相对多的语言meta 标签是完全错误的,没有标签,句法错误,以及语言编码错误等等。搜索引擎确实查看这些标 签,但是它们很少只从这些标签来判定网页的语言。
2 、字符编码
计算机文件(包括HTML 网页)需要“ 对译本(Key )” 正确翻译文件中的字符(字母,数字等 等)。这种对译本被称为字符编码。由网页中meta 标签里声明,例如<META http-equiv=content-type content="text/html; charset=GBK"> 。
网站浏览器和搜索蜘蛛程序假定网页按照西方语言编码,因此使用这些语言写的网页不需要这个标 签。为了浏览器显示正确,亚洲、阿拉伯和古代斯拉夫语的文本确实需要这个标签。因此,当搜索引擎看到针对这些语言的表情,它对正确显示网页的语言有了很高 的保证。
3 、内容分析
搜索引擎通过研究内容中的字符模式来最终判定网页的语言,哪怕是短到只有两句话的网页,内容分 析的精确度也非常高。Meta 标签只有在内容分析后还不确定的情况下才被使用。
多数情况下,搜索引擎会自行正确地判断网页的内容,对于只有很少几个词的网页,要保证网页被正 确识别,正确的编码语言和meta 语言标签很重要。
搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了 很大的发展。搜
未 来搜索引擎
索引擎的最新技术发展包括以下几个方面:
一、提高搜索引擎对用户检索提问的理解
为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和 目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of computer?” 。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在 于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus” 这个词来检索,结 果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?” ,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。
二、对检索结果进行处理
1 、基于链接评价的搜索引擎
基于链接评价的搜索引擎的优秀代表是 Google (http://www.google.com ),它独创的“ 链接评价体系” 是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的 数量,特别是一些已经被认定是“ 重要” 的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来 的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。
2 、基于访问大众性的搜索引擎
基于访问大众性的搜索引擎的代表是direct hit ,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的 时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着 同样的缺点。
3 、去掉检索结果中附加的多余信息
有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户 定制、内容过滤等检索技术。
三、确定搜索引擎信息搜集范围,提高搜索引擎的针对性
1 、垂直主题搜索引擎
网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即 使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和 专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有 着极大的发展空间。
2 、非www 信息的搜索
提供FTP 等类信息的检索
3 、多媒体搜索引擎
多媒体检索主要包括声音、图像、视频的检索。关于图片搜索引擎的原理,《浅谈图片搜索引擎的实 现》http://blog.minidx.com/2007/12/19/265.html 中提出了具有跨时代意义设计思路。
四、将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果
1 、纯净搜索引擎
这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和 机制等。
2 、元搜索引擎
现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个 搜索引擎的用法。每个搜索引擎平均只能涉及到整个www 资源的30-50% (search engine watch 数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34% ,而每一个搜索引擎的查准率不到45% 。
元搜索引擎(metasearch enging )是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎 之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索 引擎有metacrawler 、dopile 、ixquick 、搜客 等。
3 、集成搜 索引擎
集成搜索引擎( All -in -One Search Page ),亦称为“ 多引擎同步检索系统 ” (如百度http://www.baidu.com )是在一个WWW 页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引 擎同时搜索,用起来相当方便。
集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎 制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH 、MP3 等)搜索引擎集成链接,深受特定用户群欢 迎。
4 、垂直搜索引擎
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务 模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“ 专、精、深” ,且具有行业色彩,相比较通用搜索 引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
五、搜索引擎的分类
网页 音乐(翻唱 MP3 )影视(电影 电视) 视频 播客 软件 BT 下载 硬件 图片 壁纸 相册 小说 文学 文档(论文 述职报告 思想汇报 演讲稿 入党申请书 作文 个人简历 毕业论文 法律论文 经济论文 教育论文 会计论文 计算机论文 毕业论文集 情书 调查报告 求职信 商业计划书 实习报告 就职演说 自荐信 企划方案 企业管理 年终总结) 新闻(资讯) 百科(知识 经验) 教育 人物 学校 专业 论坛 社区 博客 词典 翻译 地图 动漫 Flash 游戏 娱乐 笑话 汽车 家电 手机 广告 购物 商业 黄页 房产 招聘 财经 股票 基金 法律 国学 图书 政府 目录 学术 代码 公交 实用查询等几十个分类。
六、搜索引擎的最后一步
10 年前我们要查阅资料,请教问题,更多想到的是请教专家,图书管查阅等传统方式。常常为了一 个简单的问题而到处寻师,在图书馆翻着类似我的电脑桌抽屉里的检索卡片,苦苦寻找。曾几何时,互联网的普及与兴起,搜索引擎的出现,逐渐改变着我们的生活 习惯和思维方式。很多问题“baidu 一下,你就知道。” 就像这里用的“ 曾几何时” 这一词,中文不好的我只有模糊的理解,还以为有“ 曾经” 的意思,想用为第一句。于是百度知道 搜索了一下,出自宋" 王安石《祭盛侍郎文》: “ 补官扬州,公得谢归。曾几何时,讣者来门。” 才知是才过了不久的意思。
搜索引擎(search engine) 是一个系统,能从大量信息中找到所需的信息,提供给用户。互联网出现到现今,信息量可以说成密指数的增长,大量信息就像Google 的原本 含义一样“1 的后面跟着100 个0” ,这个数比宇宙所有的基本粒子的数量总和还要大。在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一 只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。
事物的发展往往遵循着合久必分,分久必合的规律,每一次的合与分都是代表着更高级更先进。同样 搜索引擎从最初的Archie 可以用文件名查找整个互联网中FTP 文件的系统,发展到Yahoo 早期一种手工录入的分行业的目录检索。随着搜索技术的发 展,元标记搜索、全文搜索重新又把整个互连网的信息整合起来提供给用户,目前的Baidu 、Google 提供的就是一种整个互联网的全文搜索,这种整合信 息的搜索也称为水平搜索。这种水平全文搜索固然可以把网络中的所有相关信息提供给用,但这种“ 所有” 不代表着是用户所需的“ 所有” ,往往夹杂着许多垃圾信 息。问题出现就伴随着去解决,如果平常使用搜索引擎比较全面,你会发现Baidu 、Goolge 都有了“ 更多” 的选项,其中出现了大学搜索、新闻搜索、图 书搜索、图片搜索等等这些专业化,行业化的搜索,也称为垂直搜索。当前垂直搜索正在逐渐走向丰富化、专业化、行业化,将越来越满足人们的搜索需求。比如很 多人在搜索问题时会到百度知道里搜索,因为那里更有针对性;搜索天气会到天气搜索中等等。
那么搜索引擎的下一步发展是什么呢?让我们回想一下搜索引擎的定义:一个系统,能从大量信息中 找到所需的信息,提供给用户。根据技术的不断发展和事物规律畅想一下,垂直搜索发展到一定程度会出现信息的单一专业化太强,整体信息综合化不好,而人们需 要的不但要有专业信息,同样也要有整体联想信息。随着人工智能、神经网络、网格计算等搜索技术的发展,我们又将有一个能整合互联网信息,智能的提供用户确 实所“ 需” 的信息,而不简单只是所“ 要” 的信息,因为很多时候搜索时,自己都不知道要什么。
再回的现在的搜索引擎,它就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。这个引擎 提供给用户的最后一步是什么?是一条清晰的检索路径。好的,注意这是一条检索路径,在这条路径的上的检索和信息提取是什么呢,是我们的阅读和大脑的判断。 也就是做搜索引擎的最后一步是我们的大脑。得到的这条路径清晰但也并不简短,需要我们进行快速的浏览,呵呵,绕来绕去,得出一个结论,快速阅读也是搜索引 擎中的一部分。
随着搜索市场竞争的白热化,搜索引擎不仅开始深挖自己的战壕,还开始打起了口水战,而山寨 搜索引擎 在高举着“ 整合” 的大旗,开始大摇大摆地进入这个本来只有巨头垄断的市场。国人充分发挥着其无比的想象力,准备让国内的互联网“ 步入搜索新时代” 。
下面就让我们看看什么是山寨搜索引擎
“ 百google 度”- baigoogledu.com
最早的山寨搜索引擎,曾经名噪一时。最早确定了山寨搜索引擎的模式,而且访问量很高,但功能简 单,而且让用户需要不停的两边拖拉才能看到完整的结果。
“ 百谷虎”- baigoohoo.com
由于某家新闻媒体的报道,最近声名大振,高举着“ 山寨” 大旗,让国人开始了解什么是山寨搜索引 擎,名字极富创意。可惜由于搜索结果被并排挤在一起,似乎没有什么实际使用价值。
“ 山寨文化” 在每个人的心目中可能都有着不同的感觉,但随着这股风越刮越烈,可见草根对“ 山 寨” 的内涵还是有相当的认同,百度和谷歌的嘴仗打的不亦热乎,都指责对方结果不公正,山寨搜索却硬要把这两个冤家放在一起。也许很多人对“ 山寨搜索” 嗤之 以鼻,但是对于普通网民来说,是谁的搜索并不重要,是我们需要的结果才是最重要的么。如果是你,你会选择谁呢?
搜索引擎优化 (Search Engine Optimization ,简称SEO ) 搜索引擎优化即Search Engine Optimization ,用英文描述是to use some technics to make your website in the top places in Search Engine when somebody is using Search Engine to find something ,翻译成中文就是“ 搜索引擎优化” ,一般可简称为搜索优化 。 与之相关的搜索知识还有Search Engine Marketing( 搜索引擎营销) ,Search Engine Positioning (搜索引擎定位)、Search Engine Ranking (搜索引擎排名 )等。
随着互联网的发展,网上可 以搜寻的网页变得愈来愈 多,而网页内容的质素亦变得良莠不 齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜寻者提供更准确及适用的资料。目前,网上的百科全书如雨后春笋般发展起 来;另一方面,近年来亦有不少公司尝试在搜寻方面改进,务求更符合用户的要求。当中诸如Copernic Agent 之类的搜寻代理就是其中之一。
在台湾,威知资讯(WebGenie) 是利用文字探勘(Text Mining) 技术发展搜寻引擎产品的公司,利用人工智能算法,可达成目前搜寻引擎所缺乏的简易人机互动模式,诸如关联字提示、动态分类字提示等[1] , 算是较另类的搜寻引擎产品。
搜索引擎的使用方法
搜索关键词提炼
选择搜索关键词的原则是,首先确定你所要达到的目标,在脑子里要形成一个比较清晰概念,即我要 找的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他同类信息的特性,最后从这些方向性的概念中提炼 出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速的定位你要找的东西,而且多数时候你根本不需要用到其他更复杂的搜索技巧。
细化搜索条件
你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。
比方说你想查找有关电脑冒险游戏方面的资料,输入game 是无济于事的。computer game 范围就小一些,当然最好是敲入computer adventure game ,返回的结果会精确得多。
此外一些功能词汇和太常用的名词,如对英文中的“and” 、“how” 、“what” 、 “web” 、“homepage” 和中文中的“ 的” 、“ 地” 、“ 和” 等等搜索引擎是不支持的。这些词被称为停用词(Stop Words )或过滤词(Filter Words ),在搜索时这些词都将被搜索引擎忽略。
用好搜索逻辑命令
搜索引擎基本上都支持附加逻辑命令查询,常用的是“ +” 号和“ -” 号,或与之相对应的布尔 (Boolean )逻辑命令AND 、OR 和NOT 。用好这些命令符号可以大幅提高我们的搜索精度。
精确匹配搜索
除利用前面提到的逻辑命令来缩小查询范围外,还可使用"" 引号(注意为英文字符。虽然现在一些 搜索引擎已支持中文标点符号,但顾及到其他引擎,最好养成使用英文字符的习惯)来进行精确匹配查询(也称短语搜索)。
特殊搜索命令
标题搜索
多数搜索引擎都支持针对网页标题的搜索,命令是“title:” ,在进行标题搜索时,前面提到 的逻辑符号和精确匹配原则同样适用。
网站搜索
此外我们还可以针对网站进行搜索,命令是“site:” (Google )、“host:” (AltaVista )、“url:” (Infoseek )或“domain:” (HotBot )。
链接搜索
在Google 和AltaVista 中,用户均可通过“link:” 命令来查找某网站的外部导入链接 (inbound links )。其他一些引擎也有同样的功能,只不过命令格式稍有区别。你可以用这个命令来查看是谁以及有多少网站与你做了链接。
SEO ,中 文意思是搜索引擎优化。指通过了解各类搜索引擎如何抓取互联网页面,如何进行索引以及 如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名。
扩展阅读:
1.http://ccn.mofcom.gov.cn/spbg/show.php?id=10390
开放分类:
转自百度百科,网址:http://baike.baidu.com/view/1154.htm?fr=ala0_1_1#2
转载自原文链接, 如需删除请联系管理员。
原文链接:搜索引擎(转自百度百科),转载请注明来源!