当前位置:首页 > 维度建模
3) 针对业务活动中的重要分析和跟踪对象,统计在整个企业不同业务活动中的发生情况。
比如会员,可以执行或参与多个特定的行为活动。这种事实表是以上两种事实表的一个总结和归纳。它主要用于针对我们业务中的活动对象进行跟踪和考察。
3 数据仓库总线结构
业务与IT机构一般都对不同业务处理过程的集成很感兴趣。低级别业务分析师在这方面的愿望可能并不是很急迫,但那些处于较高管理阶层的人员非常清楚,在跨业务的范围内进行数据的查看对于提高评估性能是很必要的。众多的数据仓库项目将注意力放在从终端到终端的视角,更好地理解顾客关系的管理需求方面了。如图所示,在某大型国有银行中,在业务价值链的产品运营中,包含许多相关的业务处理,如营销支持、产品运营、风险管控、财务绩效等诸多业务处理。
如果针对这些业务处理分别进行维度建模、建立独立数据集市,数据集市之间没有共享公共的维度,那么就会出现问题,数据集市就会变成孤立的集市,不能组合成数据仓库,而一致
第9页, 共14页
性维度的提出正式为了解决这个问题。图给出了这种维度共享情形的逻辑表示形式.
共享公共的维度对于设计可以进行集成的数据集市来说,具有绝对的决定性作用。这样做使得来自不同处理的性能度量值可以被组合到单个报表中去。具体的实现过程是,使用多通路的SQL单独查询各个集市,然后基于共同的维度属性对查询结果施加外连接。这个通常称作交叉探查(Drill Across)的连接,在维度表属性具有同一性的情况下是很直接的。
将一组分布在各处的相关业务处理成一个综合的数据仓库来说,总线结构是最基本的要素。
3.1 数据仓库总线结构
很显然,想一个步骤就建成企业数据仓库太令人望而生畏了,然而,将它分成孤立的片段进行建造又会挫败一致性这个压倒一切的目标。要使数据仓库能够长期地成功运转,很需要有一种在体系结构上可以按增量方式建造企业数据仓库的方法。这里提倡使用的一种方法就是数据仓库总线结构。
通过为数据仓库环境定义标准的总线接口,独立的数据集市就可以由不同的小组在不同的时间进行实现。只要遵循这个标准,独立的数据集市就可以插入到一起并有效地共存。所有业务处理将创建一个维度模型系列,这些模型共享一组综合的具有一致性的共用维度。
第10页, 共14页
数据仓库总线结构提供了一种可用于分解企业数据仓库规划任务的合理方法。在体系结构确立阶段的较短时间内,开发团队设计出一整套在企业范围内具有统一解释的标准化维度与事实。这样,数据体系结构的框架就建立起来了。然后,开发团队可以全力以赴去实现严格依照体系结构进行迭代开发的独立数据集市。随着独立数据集市的投入使用,它们像积木块一样搭在了一起。在某种意义上讲,需要存在足够的数据集市才可能为集成的企业数据仓库带来美好的前景。
总线结构使数据仓库管理人员获取两个方面的优势。一方面,他们有了指导总体设计的体系框架,并且将问题分成了可以根据具体时限加以实施的以字节计量的数据集市块。另一方面,各数据集市开发团队遵照体系指南,可以相对独立地异步地开展工作。
3.2 一致性维度
在理解了总线结构的重要性以后,现在可以进一步开发发挥数据仓库总线奠基石作用的一致性标准维度了。一致性维度要么是同一的,要么是具有最佳粒度性与细节性的维度在严格数学意义上的子集。例如,如果建立月维度话,月维度的各种描述必须与日期维度中的完全一致,最常用的做法就是在日期维度上建立视图生成月维度。这样月维度就可以是日期维度的子集,在后续钻取等操作时可以保持一致。
一致的维度具有一致的维度关键字、一致的属性列名字、一致的属性定义以及一致的属性
第11页, 共14页
值(将转化成一致的报表标签与分组标识)。如果属性标签的标记不同或者包含不同的值,维度表就不是一致的(不被处理成一致的)。如果客户或者产品维度是按非一致的方式进行配置的,那么,要么分散的数据集市不能在一起使用,要么更为严重的是,试图将它们用在一起将产生无效的结果。
一致的维度以几种不同的样式出现。在最基本的层次上,一致的维度意味着与同它们相连接的每种可能的事实表具有完全相同的内容。连接到产品服务签约事实上的日期维度表与连接到产品服务账户余额事实上的日期维度表是同一的。实际上,一致的维度在数据库范围内可能就是相同的物理表。不过,基于对配有多种数据库平台的数据仓库技术环境的典型复杂性的考虑,维度更有可能同时在每个数据集市都存在拷贝。在其中任何一种情况下,两个数据集市的日期维度都将具有相同数目的行、相同的关键字值、相同的属性标签、相同的属性定义与相同的属性值等。同样,也存在一致的数据内容、数据解释与用户展示。
3.3 一致性事实
到现在为止,我们已经讨论了建立一致性维度以将数据集市维系在一起的中心任务。这涵盖了数据仓库迁移开发所要付出的大量工作努力,余下的努力要投入到建立一致性事实定义上。 通常,像利润、经济资本、产品覆盖度、客户满意度以及其他关键性指标(KPI)需要在企业级共享的度量指标,都是必须保持一致性的事实。一般地说,事实表数据并不在各个数据集市之间明确地进行拷贝。不过,如果事实确实存在于多个位置,那么支撑这些事实的定义与方程(公式)都必须是相同的,假如将它们当作同种事物看待的话,如果这些事实具有相同的标记,那么需要在相同维度环境下对它们进行定义,同时使其在各个数据集市之间具有相同的度量单位。必须在数据命名实践中接受规范的约束,如果不可能做到使事实完全一致,那么应该对不同的解释给出不同的名称。这样可以减少计算中使用不兼容的事实的可能性。
第12页, 共14页
共分享92篇相关文档