当前位置:首页 > 基于本体的科学数据库语义集成若干关键技术研究
中国科学院研究生院硕士学位论文 第五章 原型系统设计与实现
第五章 原型系统设计与实现
5.1 原型系统概述
前面两章分析和讨论了基于本体的科学数据库语义集成框架,以及框架涉及到的若干关键技术。在这些研究基础之上,我们利用现有相关技术实现了一个基于本体的科学数据库语义集成原型系统。设计和开发原型系统的主要目的有:a)验证所提出的科学数据库语义集成原型框架以及某些关键技术解决方案的可行性;b)从感性上认识科学数据库语义集成相对于传统语义集成具有哪些优势;c)在原型系统的实现过程中,积累一些经验为以后进一步的研究和开发打下良好基础。 5.2 原型系统设计 5.2.1 需求分析
从用户的角度出发,在对比传统数据集成系统之后,基于本体的科学数据库语义集成的基本需求和设计目标为:
? 用户能够浏览整个本体的概念体系以及概念之间的语义关系,同时也能
方便了解本体中具体概念和属性的详细信息;
? 用户能够同时对本体中的概念和数据实例进行检索,检索的方式可以是
“关键词”检索,也可以是“导航式”检索。除了提供图形界面检索外,还应支持应用程序的SPARQL检索;
? 检索的时候能够进行恰当的语义扩展,以提到查准率和查全率; ? 检索结果呈现的方式是友好的,能够反应数据之间的语义联系; ? 用户能够向系统提交自己的资源,包括数据源、本体和语义映射关系,
系统通过解析用户提交的资源,可以帮助用户集成自己的数据源。
5.2.2 系统设计
根据用户需求,系统主要分为三个功能模块:本体浏览、语义查询和资源上传。本体浏览主要负责本体的图形化显示;语义查询主要负责本体概念和数据实例的语义检索,数据实例的语义检索是通过搜索引擎实现;资源上传主要负责资源上传,以及资源验证,包括对本体文件合法性验证、数据资源是否可达,以及语义映射关系是否有冲突等。如果能够通过系统验证,用户就可以图形化浏览自己的本体,以及对自己的数据资源进行语义查询。为了使系统具有很好的扩展性和易用性,我们选择B/S结构模式,整个系统结构如图5-1。
37
中国科学院研究生院硕士学位论文 第五章 原型系统设计与实现
用户本体浏览语义查询资源上传图形显示工具搜索引擎资源验证 ...数据源本体... 语义映射关系 图5-1 原型系统结构图
5.2.3 开发工具介绍
1) Protégé 3.1
原型系统选用Protégé3.1作为本体建模工具,其是由斯坦福大学的Stanford
Medical Informatics开发的一个开放源码的本体编辑器,支持多种本体描述语言存储。在Protégé编辑器中,本体结构以树型的层次目录结构显示,用户可以通过点击相应项来编辑或增加类、子类、属性等本体元素,用户也不必考虑具体的本体描述语言,而在概念层次上设计领域本体模型。
2) Jena 2.4 API
在本体构建好之后,需要在应用程序中对其进行解析和应用。在本体文件
解析、语义推理和语义查询检索时,原型系统主要采用了惠普实验室开发的语义万维网开发工具包Jena 2.4 API。
Jena是一个用来构建语义万维网应用的框架,它提供了有关操作RDF/RDFS和OWL本体的方法接口,以及基于规则的推理引擎编程环境,其主要有以下几个功能:
? 提供RDF应用编程接口;
? 提供读写各种语法形式的RDF文件,包括RDF/XML、N3格式; ? 提供OWL本体应用编程接口; ? 提供基于内存和持久化存储两种方式;
? 支持RDF/OWL数据的查询语言RDQL和SPARQL; 3) D2RQ 0.4 API
D2RQ本质上是一个动态适配器,原型系统主要利用其将科学数据动态转化为RDF/OWL语义数据以便语义查询。D2RQ是由德国卡尔斯鲁厄大学在Jena API基础上开发的支持关系数据向RDF/OWL语义数据的工具包,其主要包
38
中国科学院研究生院硕士学位论文 第五章 原型系统设计与实现
括:
? 一个描述关系数据库和本体语义映射的语言; ? 支持语义处理的引擎; 5.3 原型系统介绍 5.3.1 数据源
我们在生物学领域选取了“中国植物物种数据库”、“中国植物图像数据库”、“中国蜜源植物数据库”、“中国油脂植物数据库”四个库作为原型系统语义集成的数据源(数据源的具体模式参见附录)。中国植物物种数据库是“中国植物分类与代码”的国家标准,包括中国植物425科,3909属,28851种。中国植物图像数据库存储了中国现有高等植物(包括栽培品种)的个体、群体以及有关生态景观、器官解剖和经济利用等原植物的彩色图像。中国蜜源植物数据库共收录了935种重要的蜜源植物,包括蜜源植物的花期、蜜量、粉量及分布等。中国油脂植物数据库是按植物分科的系统排列,重点记录了我国108科397属814种油脂植物的产地、果成熟期、种子或果实的含油量、油脂理化性质及脂肪酸组成等信息。四个科学数据库之间的关系为:
1) 中国植物物种数据库作为我国的植物学领域“科、属、种”的国家标准,其他三个库必须参照此库,也就是说其他三个库中出现的“科、属、种”必须是国家标准中所有的,此外,其他三个库中一般都是直接以“物种”为描述对象的,所以利用“中国植物物种数据库”可以获得该“种”在植物学领域的体系结构,以及有关此物种的其他生态信息。
2) 中国植物图像数据库则为物种提供感性信息,它包含了不同物种的多个图片信息,为人们理解其他库的数据信息提供了很大帮助。
3) 中国蜜源数据库和中国油脂数据库是关于植物物种作为不同用途的两个侧面,有些物种具有这两方面功能,而有些物种只具有一个方面功能,语义集成之后我们可以看到它们之间的关联。
综上,对这四个库进行语义集成后,我们可以得到植物学领域内统一的语义视图,在这个视图中,我们以统一的方式获得植物学的分类标准、图像、以及蜜源和油脂植物的信息,而不必关注各个数据库之间的模式异构和语义异构。
5.3.2 语义集成本体
由于集成的数据库结构比较简单,我们选择自己构建本体,这就是所谓的“应用型本体”。此本体共有6个概念,近30个属性,概念之间的语义关系如图5-2。
39
中国科学院研究生院硕士学位论文 第五章 原型系统设计与实现
belongsToFamilyFamilyhasSpecieshasGenusGenusbelongsToFamilyhasSepciesbelongsToGenusdescSpecieshasPlantPictureSpeciesasOilPlantdescSpeciesPlantPicturedescSpeciesasHoneyPlantOilPlantHoneyPlant 图5-2 植物本体概念之间的关系
下面是植物物种概念的定义片断(本体定义的完整代码参见附录):
5.3.3 功能展示 1)浏览本体
原型系统可以对符合W3C OWL规范的本体进行结构化、图形化显示。本体是一个领域知识的规范化描述,这是被领域专家所广泛认同的标准化描述。用户通过此功能,容易了解本体所描述领域的知识概念体系结构和具体细节内容――本体中的概念和属性,以及概念之间的关系等等。用户可以从自己熟悉的知识概念入手,通过系统获得与该概念相关联的其他概念或者属性,从而扩展至整个本体的知识概念体系。因此,概念语义服务的意义在于帮助用户在宏观上把握该领域的知识概念体系结构,和从微观上准确理解某一具体知识概念以及此概念在本体中的语义地位,这对规模庞大的本体尤为重要。图5-3是对植物本体图形化显示界面,左侧是整个本体的概念体系,右侧是具体概念物种“Species‖的详细信息。
40
共分享92篇相关文档