当前位置:首页 > 基于本体的科学数据库语义集成若干关键技术研究
中国科学院研究生院硕士学位论文 第一章 绪论
科学数据库的语义集成是一项长期而艰巨的工作,本人在前人的研究基础上,主要做了以下几个方面的工作:
? 深入分析和研究了目前利用本体进行异构数据语义集成的最新研究成
果;
? 提出一个科学数据库语义集成的框架,并对框架的整个数据流程以及
各个部分进行了讨论;
? 对科学数据库语义集成框架涉及的若干关键技术进行了分析和讨论,
并提出了解决方案;
? 在前面的分析和研究基础上,实现了一个基于本体的科学数据库语义
集成原型系统,并对原型系统进行了分析和评价,同时对其中一些尚存的问题提出了改进思路;
? 本文在科学数据语义集成中所提出的理论和方法,对如何将深层Web
中的关系数据资源提升为语义万维网的内容也具有重要意义。
1.4 本文的章节安排
全文共有六章组成,具体内容按如下顺序依次阐述:
第二章,首先介绍语义万维网和本体相关技术,然后重点分析和讨论了现有利用本体进行异构数据语义集成的研究成果;
第三章,提出了一个利用本体进行科学数据库语义集成的框架,并对框架的数据流程以及各个部分进行了讨论;
第四章,分析和研究了科学数据库语义集成框架所涉及的若干关键技术,并提出了解决方案;
第五章,介绍了科学数据库语义集成原型系统相关情况,包括系统需求、系统结构以及功能展示等;
第六章,对全文进行了总结,并分析现有工作尚待完善的地方,对将来的工作进行了展望。
5
中国科学院研究生院硕士学位论文 第二章 语义万维网和数据库语义集成
第二章 语义万维网和数据语义集成
2.1 引言
由于传统异构数据库集成技术和元数据技术的固有局限,人们对异构数据库的集成和互操作的关注已经从系统、语法、结构层次转移到语义层次[4]。而这些问题跟人们在Internet上碰到的窘境本质上是一致的。由于万维网Internet上的“信息过量”,在万维网上获取信息的查准率和查全率等问题一直困扰着人们,这也是当前Internet发展的一个难题。万维网创始人Tim Beners-Lee提出了语义万维网(Semantic Web),希望从根本上解决这个难题。受到这一思想的启发,人们希望利用语义万维网技术本体实现异构数据库的语义层次集成和互操作。因此,这一章首先介绍语义万维网相关技术,然后详细的分析了目前利用本体实现异构数据语义集成的相关研究成果。 2.2 语义万维网(Semantic Web)
Internet 和万维网的快速发展,给人类带来了极大的信息繁荣。但至今为止,万维网上的大部分信息都是服务于‘人’这一智能体的,很难直接由计算机自动处理。然而随着万维网上信息量的迅猛增长,Web信息处理的主体‘人’已逐渐难以适应时代的变化和发展,因此对当前网页信息组织结构进行规范化处理,将其扩展成能为计算机理解和自动处理的文档,以便于把人类从纷繁复杂的信息查询、处理和推理等劳动中解脱出来,这就成了当前Web发展急需解决的难题。 2.2.1 语义万维网的提出
为了改善当代万维网信息不利于计算机自动处理的现状,万维网的创始人 Tim Berners-Lee 于 1998 年 提 出 了 有 关 下 一 代 万 维 网 的 构 想――语 义 万 维 网[7](Semantic Web)。语义万维网是一个梦想:期望 Web 上的数据通过另一种不同于现在的方式描述和链接, 使这些数据不仅能以各种灵活的方式展现出来, 也能被不同的应用程序所自动处理。在语义万维网中, 网页中所蕴含的语义信息能使计算机完成大部分的自动化处理工作, 例如软件代理程序通过网页中的语义可以为用户完成复杂的旅行计划制定等任务, 即从当前“可阅读”的万维网扩展为“机器可理解”的语义万维网。Tim Berners-Lee 并没有给出语义万维网的严格数学定义,只是在和当代万维网的对比中,给出
7
中国科学院研究生院硕士学位论文 第二章 语义万维网和数据库语义集成
了如下的描述:语义万维网并不是一个从无到有、孤立发展的万维网,而是对当前万维网的延伸和扩展,语义万维网上的信息具有定义良好的含义,计算机能根据概念的定义声明和逻辑推理规则发现资源对象的含义,使得机-机之间以及人-机之间都能够更有效地合作处理;在语义万维网中定义和链接的数据能被各种不同的应用以更为有效的方式查询、集成和重用。语义万维网不仅要能反映资源之间的超链接关系,而且还应能描述资源对象之间的丰富而又复杂的关联关系(如图 2-1 中的居住、作者、类型等关系),对这种复杂关联关系的描述正是语义万维网的优势所在。
图2-1 有关 Eric Miller 的语义网片断
简单的说,语义Web就是要给Web加上注释,为了让计算机能够理解,这种注释必须用一种形式化的语言进行描述,并且支持推理。为了多个系统之间能够交流,这种注释还应该遵循统一明确的词汇表。 2.2.2 语义万维网的体系结构
在Tim的构想中,语义Web表现为图2-2[8]所示的层次结构。自底向上来看,第一层规定了文档中字符的编码方式和资源的统一标识,即UNICODE和URI,此层位于语义万维网中的最底层,是整个语义万维网的基石,它成功地解决了万维网上资源的定位、跨地区字符和文件编码格式的问题。第二层为XML、命名空间和XML Schema,XML作为整个语义万维网底层的数据交换格式,避免了HMTL文档显示格式和显示内容不分离、以及其结构性差和缺乏条理性等问题。命名空间和XML Schema使我们可以自定义标签来描述各种各样的资源。但是这一层只是解决了文档内容的次序、结构等语法上的问题,并没有解决文档内容的语义、联系等问题。第三层为RDF+RDF Schema,
8
共分享92篇相关文档