云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 可视化数据挖掘技术研究 - 耿学华

可视化数据挖掘技术研究 - 耿学华

  • 62 次阅读
  • 3 次下载
  • 2025/6/1 20:53:03

可视化数据挖掘技术研究

耿学华 傅德胜

(南京气象学院计算机科学与技术系 江苏南京210044)

86 计算机应用与软件2006年 2.1 传统的可视化方法

传统的可视化方法多用于低维数据,包括条形统计图、柱状

图、折线图、饼图、锯齿图、分位数图、q-q图、散点图、局部回归 图2 数据 立方体

曲线图、等高线图、时序图、核曲线、盒图、颜色 编码、数据立方体。数据立方体是将数据按多 个维度组织形成的一种多维结构,如图2所示。 用户通过采取切片、切块、旋转、钻取等各种分 析动作,可以灵活地多角度、多侧面地观察数据 库中的数据,从而深入了解包含在数据中的信 息、内涵。但是,数据立方体在表现上缺乏直观

性,尤其当维度超出三维后,数据的采集和表示都比较困难。 可视化数据挖掘研究的重点集中在多维数据,故本文对传 统的可视化方法不作具体介绍。 2.2 新兴的可视化技术

2. 2. 1 基于几何投影技术的可视化方法[1,3,4]

基于几何投影技术的可视化方法的目标是发现多维数据集 的令人感兴趣的投影,从而将对多维数据的分析转化为仅对感 兴趣的少量维度数据的分析。包括散点矩阵技术,格架图,测量 图,安德鲁斯曲线技术,平行坐标可视化技术和放射性可视化技 术,探测性统计学,如主成分分析、因子分析、维度缩放。 散点矩阵即2D散点的栅格,它是把标准2D散点扩展到高

维的标准方式。通过散点矩阵可以观察到维度间所有可能的双 向交互作用和相关性。不足是只有两个维度之间的相关性容易 看到,而且对极大的维度数来说标准显示很快就显得不够了,有 效解释散点需要缩放和移动用户交互。格架图也是以多个二元 图为基础的。它固定针对一对要显示的特定变量,然后以其它 一个或多个变量为条件画出一系列子图。子图中可以用其它任 何类型的图形。测量图是在线图中扩展n维数据样本的一种简 单技术。样本的每维都在独立的轴上显示,轴上每个维度值都 是关于轴中心对称的线段。安德鲁斯曲线技术把每个n维样本 绘制成一条曲线。其优点是可以表示很多维,缺点是要花时间 计算。平行坐标可视化技术基本观点是用和一根显示轴平行的

k根等距轴把k维空间映射成两显示维度。轴对应于维度,并 且与相应维度的最大最小值成线性比例。每个数据项都用一条 折线来表示,折线和每根轴交点对应于尺度。圆坐标可视化技 术是平行坐标方法的一个简单变化,轴从圆心放射直到圆周上。 圆外部分的线段越长,表示数据值越大;反之,朝向圆心的内部 维度值就更凌乱。这种可视化实际上就是对重叠数据的星型图 和符号图可视化。由于低(内部)数据值和高数据值之间不对 称,用这种可视化方法容易发现某些模式。放射性可视化表示 的是对数据的非线性转化,数据维被当成点,以平均间隔分布在 圆周上,用一个弹簧模型来表示点。这种转换保持某些对称性。 该方法强调的是维度值之间的关系,而不是分开的、绝对值之间 的关系。梯度可视化(Gradviz)是放射性可视化的一个简单扩 展,不同之处在于它把维度锚放在一个矩形栅格中。Gradviz方 法的维度标注比较困难,但是和放射性图相比,它的可显示维数 大大增加了。Kohonen网络可以看作是一种非线性的数据投 影,它把数据投向二维空间,同时尽力保持n维样本间的原始距 离,该距离多数在初始时已给出。主分量分析是将数据向新的 变量转换,将多元数据投影到数据可以最大限度分布的平面上。 这使得可以在牺牲最少信息的条件下使分析数据可视化。但该 方法只对被测变量所跨越区域的二维线性子空间内的数据是有 效的。对由于弯曲或失真等造成的占用多维的“假象”,采用该 方法很可能无法找出潜在的结构,这时可以采用多维缩放。多 维缩放在尽可能的保留数据点与点间距离的同时,争取在更低 维的空间内来表示数据,如标距法、非标距多维缩放。多维缩放 是显示数据揭示其结构的一个强大工具。但如果数据点太多, 结构就会变得模糊不清。多维缩放对数据应用了非常复杂精密 的变换,所以可能会引入假象。

2. 2. 2 基于图像技术的可视化方法[1,3,4]

基于图像技术的可视化方法是把每个多维数据项映射为一

个图像,如线条图、图标、色彩图等。线条图把两个维度映射到 显示维度中,剩下的维度映射为线条图像的角度或分量长度。 这种技术限制了可进行可视化的维度的数目。图标是一些很小 的图,其不同特征的大小是由特定变量的值决定的。常用的如 针形图标、星形图标、Chernoff面容。在星形图标中,相对于原点 的不同方向对应不同的变量,投影在这些方向上的半径长度对 应于变量的幅度。在Chernoff面容图中,卡通画面部特征的尺 寸(鼻子的长度、笑的程度、眼睛的形状等)代表了各个变量的 值。这种方法所依据的原则是,人类的眼睛擅长识别和区分面 容。该方法有趣但很少用于严肃的数据分析。通常,图标显示 只适用于少数实例的情况,因为需要用眼睛分别浏览每一个实 例。彩色方法用不同的颜色代表多个维度。 2. 2. 3 面向像素的可视化方法

面向像素的可视化方法把每个数据值映射到有色像素中,

并在分开的窗口中表示属于每个属性的数据值。其优点是一次

性可以描述大量信息并且不会产生重叠,不仅能有效地保留用 户感兴趣的小部分区域,还能纵览全局数据。如果一个像素点 代表一个数据值,这种技术可以对目前所陈列的最大量的数据 (达到1,000,000个数据值)进行可视化。主要的问题就是怎样 在屏幕上排列这些像素。这类技术针对不同的图使用不同的排 列。

属于此类技术的可视化方法有递归模式技术、圆形分割技 术、螺旋技术、Z-order技术[5]。 2. 2. 4 分层技术的可视化方法

分层技术对k维空间进行再分,并以分层的方式来表示子空间。 维度层积[1]就是一种分层技术可视化方法。每个维都离

散化为少量的箱,陈列区域分裂成一个个子图像栅格。子图像 的数目要依据与用户指定的两个“外部”维度相关联的箱的数 目。子图像根据两个更多维度的箱数被进一步分解。分解过程 递归持续,直到所有的维都被指定完毕。此外,基于分层技术的 可视化方法还有:Robertson、Mackinlay和Card等提出的一种利 用三维图形技术对层次结构进行可视化的方法Cone Tree[2,7], Shneiderman等提出的一种可以充分利用屏幕空间的层次信息 表示模型Tree-map[2,7],Lamping和Rao等提出的一种基于双曲 线几何的可视化和操纵大型层次结构的Focus+Context技术 Hyperbolic tree[2]以及T2. 5D[6]和Worlds-within-Worlds[7]。 2.3 可视化技术的新进展

2. 3. 1 多种可视化技术的组合应用

近年来,在可视化数据挖掘应用中涌现出一批新的可视化 技术,它们综合了多种可视化方法作为高级可视化工具的一部 分,如Parabox、数据星座、数据表单、时刻表、多景观等。 Parabox合成了盒子、平行坐标和起泡图的处理能力,既能 处理连续数据,也能处理分类数据。盒图适用于显示分布概括, 平行坐标主要用于显示高维度异常点和带有异常值的样本。起 收稿日期:2004 -05 -31。耿学华,硕士,主研领域:图像处理与模 式识别。

摘 要 总结了目前数据挖掘领域中可视化方法的研究状况。结合国外先进的数据挖掘工具,分析了当前可视化数据挖掘技术

的应用现状。基于可视化数据挖掘的任务和目标,阐述了可视化数据挖掘技术的发展趋势。 关键词 可视化数据挖掘 数据挖掘

RESEARCH ON VISUAL DATA M INING TECHNIQUE GengXuehua Fu Desheng (DepartmentofScience and Technology,Nanjing Institute ofMeteorology,Nanjing Jiangsu210044,China)

Abstract This paper summarizes current visualization methods applied in DataMining. Current applications aboutVisual DataMining

technique are analyzed combiningwith some national advanced DataMining tools.Trends are clarified based on the task and objectofVisual DataMining.

Keywords Visual datamining Datamining

1 引 言

数字信息时代,网络和各种现代化的电子通信设备的飞速

发展造成数据流呈指数倍数增长。这些激增的数据背后隐藏了 大量潜在有用的知识。数据的走向有两种:数据→数据垃圾,数 据→信息→知识。决定数据最终出口的关键在于有效的信息抽 取方法和知识发现手段。

数据挖掘就是从大量的历史数据中抽取出潜在的、有价值 的知识的过程。从数据分析的角度,数据挖掘可以分两类:描述 式数据挖掘和预测式数据挖掘。前者以简洁的方式描述数据, 并提供数据的有趣的一般性质。后者分析数据,建立一个或一 组模型,并试图预测新数据集的行为。可视化就是把数据、信息 和知识转化为可视的表示形式的过程。它为人类与计算机这两 个信息处理系统之间提供了一个接口。使用有效的可视化界 面,可以快速高效地与大量数据打交道,以发现其中隐藏的特

征、关系、模式和趋势等,可以引导出新的预见和更高效的决策。 可视化数据挖掘技术是建立在可视化和分析过程的基础

上,它以刻画结构和显示数据的功能性,以及人类感知模式、例 外、倾向和关系的能力为基础,用可视化来加强数据挖掘处理。 一些数据挖掘技术和算法让决策者难以理解和使用。可视化可 以使数据和挖掘结果更容易理解,允许对结果进行比较和检验。也 用于指导数据挖掘算法,使用户参与到决策分析的过程中[1]。 2 可视化技术

可视化技术的目标是帮助人们增强认知能力。基于计算机 的可视化技术不仅仅把计算机作为信息集成处理的工具,用计 算机图形和其他技术来考虑更多的样本、变量和联系,更多的是 作为跟用户之间的一种交流媒介。可视化在认知激励和用户认 知之间建立起一个反馈环,运用人类认知的知识,同时要避免观 察出不正确模式,以免错误地决策和行动。数据挖掘中的可视 化技术是典型交互式的。根据是否包括物理数据,可视化技术 粗略地分为两类:科学计算可视化和信息可视化。科学计算可 视化显示的对象涉及标量、矢量和张量等不同类别的空间数据, 研究的重点放在如何真实、快速地显示三维数据场。信息可视 化则侧重于多维的标量数据,研究的重点放在设计和选择合适 的显示方式表示庞大的多维数据及其相互之间的关系,以便于 用户了解。数据挖掘技术主要定位于信息可视化。信息可视化 图1 信息可视化参考模型 可以看作是从数据 信息到可视化形式 再到人的感知系统的 可调节的映射。Card 等提出的信息可视化

简单参考模型[2]如图1示。

数据变换把原始数据映射为数据表(数据的相关性描述);

搜索更多关于: 可视化数据挖掘技术研究 - 耿学华 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

可视化数据挖掘技术研究 耿学华 傅德胜 (南京气象学院计算机科学与技术系 江苏南京210044) 86 计算机应用与软件2006年 2.1 传统的可视化方法 传统的可视化方法多用于低维数据,包括条形统计图、柱状 图、折线图、饼图、锯齿图、分位数图、q-q图、散点图、局部回归 图2 数据 立方体 曲线图、等高线图、时序图、核曲线、盒图、颜色 编码、数据立方体。数据立方体是将数据按多 个维度组织形成的一种多维结构,如图2所示。 用户通过采取切片、切块、旋转、钻取等各种分 析动作,可以灵活地多角度、多侧面地观察数据 库中的数据,从而深入了解包含在数据中的信 息、内涵。但是,数据立方体在表现上缺乏直观 性,尤其当维度超出三维后,数据的采集和表示都比较困难。 可视化数据

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com