当前位置:首页 > 实用多元统计分析 - ynh
中 国 地 质 大 学 研究生课程论文封面
课程名称 实用多元统计分析 教师姓名 研究生姓名 研究生学号 研究生专业 石油与天然气工程 所在院系 资源学院 类 别 硕士 日 期 2013 年12月19日
一.聚类分析
聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。随着现代科学的发展,尤其是计算机的普及,利用数学方法研究分类问题不仅非常必要,也成为可能。因此,聚类分析作为多元分析的一个重要的分支,发展十分迅速。下面简单的介绍一下聚类分析在油藏分类方面的应用。
1.数据来源
根据导师油田项目中油层孔隙结构数据,整理一份excel表格。具体数据如下表1所示
表1:不同层位储层性质
相对 井号 层位 分选 系数 1 2 3 3 4 5 6 7 8 Ek1 Es3 Ek2 Ek2 ME Ek3 ES1 MZ K-J 0.92 1.35 1.33 0.90 1.07 1.24 0.94 1.26 0.25 汞孔 隙度 10.74 15.04 6.62 10.97 7.99 10.71 15.60 9.57 15.15 饱和度 中值 压力 5.01 4.31 9.24 1.40 10.33 2.37 0.27 6.16 10.92 平均 孔隙半径 7.16 7.95 8.91 9.46 7.98 8.39 17.70 6.90 4.81 结构 系数 1045.50 198.41 988.10 257.39 179.61 1304.80 16.64 392.55 356.23 最大 排驱 压力 0.12 0.16 0.27 0.23 4.21 0.17 0.01 0.22 0.06 孔隙度 15.00 23.05 10.26 14.73 12.02 15.86 19.42 14.53 23.66 最大 汞饱 和度 71.61 65.25 64.53 74.65 66.51 67.52 80.34 65.90 64.03 2.聚类分析方法
按照聚类过程以及所使用的算法,可以将聚类分析分为快速聚类和系统聚类法(分层聚类)。快速聚类主要是大规模的样品进行有效的聚类。分层聚类既可以对样品进行聚类,又可以对指标进行聚类。本次作业分别利用两种方法来对表1所示的数据(变量)进行聚类。
- 1 -
3.1快速聚类法
基本思想:在待聚类的样品比较多时,先给出一个大致的初始分类,然后用某种原理进行修改,直到分类结果比较合理为止。
3.1.1快速聚类结果
表2:初始类中心 表3:聚类结果表 Initial Cluster Centers Cluster 12 1.26.94 9.5715.606.16.27 6.9017.70 392.5516.64 .22.01 14.5319.4265.9080.34Cluster MembershipCase Number123456789Cluster323123211Distance67.43967.386124.88078.50849.349192.044115.64357.34022.94531.2410.712.378.391304.80.1715.8667.52 相对分选系数汞孔隙度汞孔隙度平均孔隙半径结构系数最大排驱压力孔隙度最大汞饱和度表4:迭代过程中凝聚点(聚类中心)变化值结果表 表5:最终凝聚点(聚类中心)
aIteration History Change in Cluster Centers123 Iteration157.340115.643192.044 2.000.000.000 a. Convergence achieved due to no or small change in cluster centers. The maximumabsolute coordinate change for any center is .000. The current iteration is 2. The minimum distance between initial centers is 376.469.
Final Cluster CentersCluster21.1212.884.9711.21131.551.4618.1670.701相对分选系数汞孔隙度汞孔隙度平均孔隙半径结构系数最大排驱压力孔隙度最大汞饱和度.8011.906.167.06335.39.1717.6468.1931.169.365.548.151112.80.1913.7167.89表6:最终聚类中心距离 表8:各类所含的样品数
Distances between Final Cluster Centers ::: Cluster123203.905777.425 123203.905777.425981.273981.273 - 2 -
Number of Cases in each ClusterCluster1233.0003.0003.0009.000.000ValidMissing表7:各聚类变量的方差分析结果
ANOVAClusterMean Square.1169.9011.06313.898804380.3581.64317.8037.146ErrorMean Square.11710.67820.09812.60714452.2141.89722.62838.289df22222222df66666666F.987.927.0531.10255.658.866.787.187相对分选系数汞孔隙度汞孔隙度平均孔隙半径结构系数最大排驱压力孔隙度最大汞饱和度Sig..426.446.949.391.000.467.497.834The F tests should be used only for descriptive purposes because the clusters have been chosen tomaximize the differences among cases in different clusters. The observed significance levels are notcorrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means areequal.
3.1.2快速聚类方法过程及分析
由输出结果可以得到以下结论:
1.确定凝聚点:因为凝聚点的选择采用了系统默认的方式,所以系统将枣74、张海2-2和王26-1三口井作为这三类的凝聚点,结果如表2所示;
2.计算聚类结束标准:按照欧式距离法,
d12??1.26?0.94?2??9.57?15.6?2??6.16?0.27?2??6.9?17.7?2??392.55?16.4?2222??0.22?0.01???14.53?19.42???65.9?80.34??376.71 类似可得第二类和第三类之间的距离。则挑选一个较小距离,然后乘以0.01则得收敛标准(具体计算过程略)。
3.如表3所示,对样本的聚类结果将4.、8、9分为一类;将2、5、7分为一类;将1、3、6分为一类;
4.如表4所示,每次聚类都要计算凝聚点的变化,这组数据凝聚点变化值为:57.34、115.643、192.044;最终凝聚点则如表5所示。
5.表6为最终聚类中心距离,第一类与第二类的中心距离为203.905;第一类与第三类的中心距离为777.425;第二类与第三类的中心距离为981.273;
6.表8所示为每类样品所包含的样品数。
- 3 -
共分享92篇相关文档