当前位置:首页 > 科技资源中心门户网站建设方案
该系统应提供完整的外部程序整合机制。所有组件均提供SDK完整开发接口,方便应用整合和应用扩展。
1) 信息整合
提供非结构性数据信息源建立自动化数据汇入功能。根据政府内部的实际需求,可以选择导入包含Text、Microsoft Office、XML、RTF、PDF、HTML、MHT及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、图片的文件名或摘要、及文字)自动化建立索引数据,建立索引数据所处理之文字包括繁体中文、简体中文等;
同时可以选择导入数据库数据,如Oracle、 Informix、Sybase、MS SQL等。系统应提供可挂载的数据适配器(Data Adapter),将异质的数据来源与数据结构进行汇整与粹取,亦扮演将非结构的信息结构化,可以很容易地分析特殊档案格式和管理复杂的数据源结构(如递归、巢状等)的多功能设计,以方便信息检索与管理。
2) 信息萃取和服务
对数据提取的内容所包含的信息进行数据处理分析,包含: a) 分类模式建立自动分类功能。
b) 对非结构性数据建立词库,词库须包含同音词库、同义词库、专业词库。 c) 自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处理
准确度。
d) 可针对不同使用层级、项目进行非结构性数据权限控管。依照不同等级
提供不同权限的查询功能接口。
应用该系统一系列内容分析与索引核心组件群,将汇整的内容进行断词、索引、分类、文件特征等运算与处理,以便满足信息检索与信息管理的应用,提供多功能全面性的数据分析能力,可针对不同情境应用加以整合,快速达到使用者需求。
可利用该系统的搜索引擎处理提供的强大的搜索功能,如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等,快速、准确、完整、及时、有效地搜索到符合搜索条件的信息。
3) 应用整合
完整外部程序整合机制——所有组件均应提供SDK完整开发接口,方便外部整合。另外大量提供XML的方法来进行信息源更新时的同步以及权限的导入与检查工作。
1.1.1.4.3 系统功能
1、 基本检索功能支持
支持跨数据源索引与整合搜索。将分散在File Server上的文件、远程网站中的网页、群组软件中的资料,以及数据库中的文字与非文字纪录,在一次搜寻条件下,整合搜寻出来。可以对近线数据、在线数据和离线数据分别建立索引库,到时可以通过索引库的选择来控制对哪些性质的数据进行搜索;
支持「万用字符(*、?)查询」。可查询部分关键字及*(代表多于一个字)或?(代表一个字)的组合。
搜寻条件具有完整的布尔逻辑运算AND、OR、NOT能力,支持复合式布尔逻辑运算查询,并且可以配合多组左括号\与右括号\作关键词查询优先级的设定,方便输入布尔组合之查询条件;
内建「智能型快速响应模式」(Smart cache)机制,可以提供同一种查询条件之重复使用率,提高系统资源的效益。Cache储存目录记录了Cache档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果;
支持/多字段 / 多条件检索,提高搜索精确度;单一字段内,支持AND/ OR/ NOT逻辑条件,且支持括号方式来提供条件优先权。多字段条件间,支持AND/OR/NOT逻辑条件;
2、 词索引与查询功能
提供传统的字索引,但是为提高查询检索的准确度,应具有自然语言断词机制和灵活的词索引开关,可根据需要选择词索引或字索引。具体功能需求如下: ? 中文句子将透过智能型自动断词技术以达到词索引的效果,自动分析与
断词,并建立词索引;
? 词索引功能通过开关灵活设置;
? 检索字串首先通过自动断词,将其断词结果进行组合检索;
? 提供「词库」编辑器,针对断词用的「词库」进行维护和调整;使中文
切分词更符合使用者的行业特点,提高查询的速度和准确度。 3、 多国语系数据索引与查询 ? 应基于Unicode设计。
? 可支持多国语系(英文、繁简体中文、日文、韩文、Unicode等)混合的
文件的建置与查询。
? 可支持多种编码格式的索引,包含Big5、GB2312、Unicode、UTF-8、 EUC-JP、
Shift-JIS,并支持以Unicode同时输入多国语系条件进行搜寻。 ? 同个数据表或一条数据库记录中可以支持多国语言混排内容; ? 一个索引数据库可以存在多国语言的不同数据;
? 可以输入多国语言的检索条件,并使用AND、OR、NOT逻辑关系; ? 检索结果中可以同时显示多国语言记录;
? 搭配多国语言同义词库,可以通过单一语言条件,得到多国语言检索结
果;
4、 中英文模糊搜索查询功能
内建「中英文容错」查询功能。应基于文字特性,很多专有名词及词汇依情况不同,可以衍生出通用的简称,或是文字次序对调。也有可能因为模糊不明确的意象,只需要输入一 个关键词,就能一并查询性质类似或相关之信息。
5、 近似概念词库辅助查询功能 可针对不同的索引库设定同义词组。
内建18万以上多组中英文同义词组,具有中英文近似概念与同义词检索,并可提供词库管理工具,可自行修改词库内容。
6、 其他检索功能
? 中文同音辅助查询功能; ? 英文字根辅助查询功能; ? 英文错误字提示功能; ? 简繁对译组件功能; 7、 搜索结果显示
? 以Web网页形式呈现查询结果,可指定所欲察看的特定笔数或分页浏览。
支持二次搜索功能。
? 提供「属性字段权重排序机制」,可自订查询结果的排序规则,让搜寻结
果按搜索者的意图显示。
? 提供「树形分类目录」,提供查询结果分类,可以进一步选取下一层目录,
以缩小查询范围。
? 具有标示原文关键词功能,可以直接将原文中输入得关键词全数标示出
来,同时可以自行设定关键词标示的颜色、大小、字型?.等属性。 ? 查询结果可同时显示文件抬头及重要摘要段落或者仅仅显示文件抬头以
加快使用者的查询速度。
? 开发搜索接口,可根据开发的SDK自己开发特定形式和显示风格的搜索
结果页面。 8、 自然语言应用组件
利用自然语言的形似相关词功能,可对数据撷取内容进行新词学习,语意分析等,可自动建立新词,提升数据处理准确度。基于自然语言应用组件,可实现相关文章查询功能、重复文章查询功能、自动摘要功能、语意查询功能、形似相关词建议功能等。从而能够通过关联组织的方式,把不同档案库中的相似、相关内容一次性的搜索出来。
9、 自动分类应用组件
搭配自动分类组件,可对撷取数据进行分类,并可辅以导览式分类组件与搜寻组件进行整合,即可逐一依类别筛检过滤资料,并显示类别内符合资料。
10、
高效数据同步功能(增量索引)
提供渐进式索引技术,即通过增量索引机制可以逐步地分别为数据库建立索引,对于异动的数据或索引,进行实时的更新。
1.1.1.5 统一用户管理系统 1.1.1.5.1 系统结构
统一用户管理系统是用于整合应用系统用户信息管理的应用级安全产品。实现了各种应用系统间跨域的单点登录/退出和统一的用户信息管理功能。
统一用户管理系统通过构建一个统一的、标准的用户数据信息;实现不同用
共分享92篇相关文档