当前位置:首页 > 基于本体的科学数据库语义集成若干关键技术研究
中国科学院研究生院硕士学位论文 第二章 语义万维网和数据库语义集成
RDF(Resource Description Framework)规定了相关资源的语义描述框架,属于语义万维网中的元数据层。在 RDF资源描述框架中主要涉及到以下三个概念[9]:资源(Resource,泛指可通过 URI 标识的任何事物,包括网络可达资源和网络不可达资源),特性(Property,指描述某个资源的性质、特征、属性或关系)、陈述(Statement,指有关具体资源对象特性的具体描述)。其中陈述通常可用形如三元组来描述,任何复杂的系统都可以通过合理的分解操作,简化成一组三元组(或陈述)集。RDF 描述模型只是提供了一种与领域无关的通用数据描述方式,而RDF Schema 规范定义了与具体应用领域相关的建模原语,能为特定目标的应用提供一个共同的基础。但是RDF Schema 显得过于简单,它的语义表达能力还不够,因此,还需要语义万维网的上层对其语义解释能力作进一步的扩展。第四层为Ontology vocabulary,要让计算机相互理解对方的内容,需要有一套共同的标准的概念体系(词汇),这就是本体(Ontology),本体提供了形式化、规范化描述和表示知识(概念)的能力。本体是语义交换的基础和桥梁,能够在不同的智能体之间达成有关概念(词汇)的共识,而对概念共享和理解恰恰是构建语义万维网的关键,因此,本体层在语义万维网体系结构中,处于核心支配地位,为其它各层提供基础服务。XML+RDF(S)+Ontology构成了计算机相互理解的基础。在本体层之上进一步要做一些逻辑推理的工作,接下来就是保证信息是可信赖的,这是最上面三层Logic、Proof、Trust的主要任务。
图2-2 语义万维网层次结构
9
中国科学院研究生院硕士学位论文 第二章 语义万维网和数据库语义集成
2.2.3 语义万维网的应用
语义万维网绘制的是一幅美好蓝图,最终得到一个可信任的Web,每个人都可以在上面获取知识、寻求帮助,就像询问值得信赖的好朋友一样,但是语义Web的实现还是一个长期过程。从目前的情况来看,语义万维网中间三层的研究已经开展较长时间,研究成果相对较多,并推出了一系列标准。语义万维网技术也逐渐引起人们关注,基于语义万维网技术的应用研究也越来越多,尤其是在企业间信息集成以及知识管理、智能信息检索、Web 服务等方面。
企业信息集成一直是基于万维网的电子商务和 ERP系统要着重解决的问题。企业信息集成主要有三大挑战[10]:第一是需要管理形式各样的数据资源,包括结构化的数据和无结构化的数据,而且信息资源的格式和类型可能会不段增加;第二是很多企业已经针对各个不同的业务开发了特定的解决方案系统,这些离散的子系统导致了企业信息和数据的异构和分布;第三是只有企业信息集成围绕企业业务过程(流程),其商业智能价值才能够最终体现。传统的企业信息集成是利用元数据解决这些问题,但是这些元数据主要是描述数据的外部信息(或Syntactic Metadata),该领域的一些研究者受到语义万维网的启发,提出利用语义元数据来解决传统方法的瓶颈,其被称为企业信息语义集成。其基本思想是利用本体对企业数据进行语义标注,这跟语义万维网的核心思想是一致的。Ontoweb[11]就是这样的一个项目,它的目标在于激励和支持语义万维网技术从学术界向工业界的转化,同时也向工业界证实本体在知识管理、电子商务以及企业信息集成方面所具有的潜在价值。 2.2.4 本体(Ontology)综述
由上面叙述可知,本体(Ontology)在语义万维网中处于核心地位,在异构数据的语义集成中,本体也发挥了关键作用,本节主要对本体进行扼要阐述。
本体的概念起源于哲学领域,即“对世界上客观存在物的系统地描述
[12]
”。在人工智能界,最早给出本体定义的是Neches等人,他们将本体定义为
“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定与这些词汇外延的规则的定义[13]”。后来在信息系统、知识管理等领域,越来越多的人研究本体,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念模型的明确的规范说明[14]”。Fensel对这个定义进行分析后认为本体的概念主要包括四个方面[15]: ? 概念化:客观世界中现象的抽象模型;
10
中国科学院研究生院硕士学位论文 第二章 语义万维网和数据库语义集成
? 明确:概念及它们之间联系都被精确定义; ? 形式化:精确的数学描述;
? 共享:本体中反映的知识是其使用者共同认可的。
虽然不同研究者对本体有不同的描述,但是从内涵上来看,他们对本体的认识是一致的,都是把本体当作某个领域内(可以是特定领域的,也可以是更广的范围)不同主体(人、代理、机器等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作为使用者之间达成的共识。因此,本体的用途包括交流、共享、互操作、重用等等。
目前,本体已经被广泛应用于知识工程、异构数据集成、数字图书馆、信息检索和Web异构信息的处理、软件复用、面向对象技术和语义Web等领域。 2.3 基于本体的数据语义集成 2.3.1 概述
异构数据语义层次集成的目的是使异构、自治的数据以语义一致性的方式实现数据共享和数据交换。基于本体的数据语义集成通过利用本体对数据进行语义标注,从而使得数据内容能够被计算机理解并自动处理,达到语义集成的目的。总的说来,本体在数据语义集成的作用主要体现在以下四个方面:
? 语义标注:本体被用来明确描述数据源的语义,只有语义标注过的数
据,计算机才能准确理解数据的内涵。
? 统一的语义视图:利用本体可以赋予某个具体领域知识的统一语义视
图,为用户提供一个可统一理解的、规范化的知识组织和表现形式。 ? 统一的访问模型:统一的访问模型使用户可以透明的访问各个异构的
数据源,不必关注具体数据源的结构和内容。
? 数据合法性或者一致性验证:在本体中可能显式定义或者暗含了该领
域必须遵循的公理或者约束。因此,在数据集成过程中,可以从该领域的全局角度,验证或者发现源数据是否违背这些公理或者约束。 基于本体的数据集成大致分为两个阶段。两个阶段的侧重点有所不一样,第一阶段关注的重点是怎样集成各个异构数据源,它们用来集成的本体往往是根据现有数据库模式而构造的,这样可较好的保证各个异构数据库中的数据都能够被语义标注。
第一阶段的数据语义集成应用本体通常有三种不同的方式[16]:
11
中国科学院研究生院硕士学位论文 第二章 语义万维网和数据库语义集成
? 单一本体方式:使用一个全局本体为语义规范,提供一个共享词库,
所有异构数据源关联到这个全局本体(如图2-3(a));
? 多本体方式:每一个数据源由它自己的本体来描述(见图2-3(b)); ? 混合本体方式:每个数据源的语义信息由它自己的本体来描述,同时
为了使资源本体之间可以比较,建立了一个全局共享词库(如图2-3(c))。
图2-3 应用本体的三种方式
在这一阶段比较著名的成果有SIMS[17]、OBSERVER[18]、BUSTER [19]。这个阶段的一个明显缺陷是其本体构造过于依赖异构数据源模式。虽然数据库的构造也是对该领域知识的一次抽象和“规范化”,但是这种抽象和规范化完全是建立在数据建库者对知识的理解和把握,因此这种抽象实质是不规范的(这也是造成同一领域异构数据库存在的根本原因)。因此,按照此方法构建的本体并不真正是该领域内知识的规范化描述。
在第二阶段,首先需要构建该领域的本体,然后关注的重点是现有的数据库是否与该本体具有语义联系,以及怎样表达这些语义联系。这与第一阶段有明显的两个不同:第一,本体的构建可以参考但完全不依赖于现有的异构数据源,其关注的重点是怎样规范化、形式化该领域的知识概念体系;第二,基于本体的数据语义集成不再是“求全”(即将所有的异构数据源都通过本体进行集成和互操作),而是“求真”(即将那些确切与本体中概念有语义关联的数据通
12
共分享92篇相关文档