当前位置:首页 > WEB搜索引擎分析设计与实现毕业论文
第1章 绪论
1.1 课题背景
在信息大爆炸时代下,全球信息量每隔20个月就增加一倍,而这个增长速度还会进一步增加,信息增长呈现速度惊人,来源广泛,种类繁多,数量巨大的状态。2006年制造、复制出的数字信息量共计1610亿GB,开启了前所未有的信息增长时期。这些数字信息大约是现有书籍所含信息的300万倍,如果将书籍排列起来,总长度为地球到太阳距离(约1.5亿公里)的12倍。据IDC报告显示,至2010年,这个数字将猛增到6倍,达9880亿GB,年复合增长率为57%[1]。面对极度膨胀的信息量,人们受到“信息爆炸”、“混沌信息空间(Information Chaotic Space)”和“数据过剩(Data Gult)”[2]的巨大压力。这种爆发性增长将改变机构和IT专业人员的工作方式以及消费者使用信息的方式,因此,如何从海量的信息得到有用的信息是大家关注的焦点。
从上世纪90年代互联网开始兴起,人们在方便的获得网上信息的同时,也越来越难搜索到对自己有价值的信息。显然,通过浏览一个又一个的网页寻找所需要的信息已经不太现实,于是大多数人依赖搜索引擎来帮助自己来获得有用的信息,因此搜索引擎成为继电子邮件之后最典型的WEB应用。
早在WEB出现以前,互联网上就已经存在很多旨在让人们共享的信息资源了。那些资源当时主要存在于各种允许匿名访问的FTP站点(anonymous ftp),内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本。为了便于人们在分散的FTP资源中找到所需的东西,1990年出现了一个软件Archie,它可以说是所有搜索引擎的始祖。
1.2 国内外关于该论题的研究现状和发展趋势
WWW中文搜索引擎带有的数据库容量小,尚未形成大型的检索系统,大型、综合、?集成的元搜索引擎还没有开发出来,专业性和专题性中文搜索引擎亟需
研究开发。
因特网搜索引擎既是一门技术,又是一项服务,因此搜索引擎的发展应该包括搜索引擎产品技术的研发及其服务方式的改进与发展。但是,不管搜索引擎技术如何发展,服务方式如何改进,都不应偏离用户快速、准确、方便查找信息的主导方向。提供经过甄别、筛选、评价和专家推荐的网站信息无疑是高质量搜索引擎永恒不懈的追求,是搜索引擎智能化与专家系统交汇融合的结果。基于问题的搜索技术可能将成为未来搜索引擎发展的新趋势,同时方便使用与查全率、查准率的协调发展也是不可忽视的方面。
[3]
1.3 本文内容安排
本文章节安排如下:第2章介绍了搜索引擎的定义,搜索引擎起源及发展和搜索引擎的分类;第3章介绍了搜索引擎的原理,其中着重介绍了网络蜘蛛“Spider”,索引和搜索;第4章从分析并设计“SoEdu” 搜索引擎,先介绍heritrix和Lucene的基本原理从而分析将要实现的搜索引擎;第5章将深入设计“SoEdu”并实现“SoEdu”搜索引擎,伴以代码及贴图;第6章总结本系统的开发过程中遇到的问题,并对搜索引擎发展趋势进行讨论。
第2章 搜索引擎概述
2.1 搜索引擎定义
到目前为止还没有比较确切的搜索引擎的定义,在本文中搜索引擎指的是一中在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询系统[4]。
2.2 搜索引擎起源及发展
如前面所说搜索引擎的起源点,是1990年由Montreal的McGill
University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
1994年初,华盛顿大学(University of Washington)的学生Brian Pinkerton开始了他的小项目WebCrawler。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。 1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要。
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐、新浪、Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。
[5]
2.3 搜索引擎分类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)[6]。
共分享92篇相关文档