当前位置:首页 > 数学建模思想方法大全及方法适用范围
第一篇:方法适用范围3 ?' m& m) _0 n* p. Q5 l
一、统计学方法* t( u* Q0 B4 R
1.1 多元回归 1、方法概述:
在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描 h7 W5述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。3 j8 N6 J- ?( T 2、分类7 F# C; q% k9 N( t4 M8 |; M
分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转% @( ^- 化为线性回归,比如:y=lnx 可以转化为y=u u=lnx 来解决;所以这里主要说明多元线性( M1 L'回归应该注意的问题。 3、注意事项
在做回归的时候,一定要注意两件事:
(1) 回归方程的显著性检验(可以通过sas 和spss 来解决)
(2) 回归系数的显著性检验(可以通过sas 和spss 来解决)3 u4 F: i. d T7 a0 ]9 E* f( U, @2 j0 w 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完 整论文的体现,所以这点大家一定要注意。$ b- ~. l) p# F+ o' \\) f u 4、使用步骤:. i: L! U6 W! v8 w5 g
(1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数;
(4)回归方程显著性检验及回归系数显著性检验7 n/ C+ u# y- q (5)进行后继研究(如:预测等)4 M7 j2 W% T' \\$ a9 a 1.2 聚类分析
1、方法概述: F' e5 r% V5 S, S0 T! s
该方法说的通俗一点就是,将n 个样本,通过适当的方法(选取方法很多,大家可以自 行查找,可以在数据挖掘类的书籍中查找到,这里不再阐述)选取m 聚类中心,通过研究- 各样本和各个聚类中心的距离Xij,选择适当的聚类标准,通常利用最小距离法(一个样本归于一个类也就意味着,该样本距离该类对应的中心距离最近)来聚类,从而可以得到聚类. 结果,如果利用sas 软件或者spss 软件来做聚类分析,就可以得到相应的动态聚类图。 这种模型的的特点是直观,容易理解。$ u% \\+ f0 F' x& u9 R+ x) s% T 2、分类! n* i. a; ?! T; y3 B 聚类有两种类型:
(1) Q 型聚类:即对样本聚类;/ q/ e\ (2) R 型聚类:即对变量聚类;' U) w+ Q0 D* J6 N& y' H 通常聚类中衡量标准的选取有两种:9 W9 |8 m0 q$ Y (1) 相似系数法- e( p f' ^! f0 B; |) ~ (2) 距离法
聚类方法:* D) v* s- e: V& m
(1) 最短距离法1 l( R! Z! H9 _* y (2) 最长距离法
(3) 中间距离法& i* T8 z X) b. e9 p (4) 重心法7 T( `2 D J! B) p& ? (5) 类平均法
(6) 可变类平均法7 T$ S- X: G( r/ v' m (7) 可变法\ (8) 利差平均和法
在具体做题中,适当选区方法; 3、注意事项+ V% T; ?! _) U3 R: X0 h
在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和相关( G的其他方法辅助处理。 4、方法步骤
(1)首先把每个样本自成一类;
(2)选取适当的衡量标准,得到衡量矩阵,比如说:距离矩阵或相似性矩阵,找到矩/ G! A. ]\i! ?' G. p\阵中最小的元素,将该元素对应的两个类归为一类,9 T! K. F- v\ (3)重新计算类间距离,得到衡量矩阵 (4)重复第2 步,直到只剩下一个类;
补充:聚类分析是一种无监督的分类,下面将介绍有监督的分类。 1.3 数据分类. K5 C z& m2 F* V\ 1、方法概述
数据分类是一种典型的有监督的机器学习方法,其目的是从一组已知类别的数据中发现0 r3 v,分类模型,以预测新数据的未知类别。这里需要说明的是:预测和分类是有区别的,预测是 对数据的预测,而分类是类别的预测。 2、分类
方法:& {3 ]# k0 C7 y' G: L0 |. L& H8 { (1)神经网路7 V) z3 L2 [$ l: G7 t. r5 {
(2)决策树(这里不再阐述,有兴趣的同学,可以参考数据挖掘和数据仓库相关书籍) 3、注意事项
神经网路适用于下列情况的分类:
(1) 数据量比较小,缺少足够的样本建立数学模型;1 g9 }+ o3 \\! E+ `# a (2) 数据的结构难以用传统的统计方法来描述 (3) 分类模型难以表示为传统的统计模型 神经网路的优点: 分类准确度高,并行分布处理能力强,对噪声数据有较强的鲁棒性和容错能力,能# s$ h- s$ s. d+ U& |# Q, Z
够充分逼近复杂的非线性关系,具备联想记忆的功能等。 神经网路缺点: 需要大量的参数,不能观察中间学习过程,输出结果较难解释,会影响到结果的可' E' L\Y5 H0 K$ G( }信度,需要较长的学习时间,当数据量较大的时候,学习速度会制约其应用。 4、步骤
(1)初始化全系数
(2)输入训练样本; W# u9 C# X+ `1 ]- V( k+ w (3)计算实际输出值
(4)计算实际输出值和期望输出值之间的误差) i2 I0 r1 ?! {# G3 S (5)用误差去修改权系数3 r+ U6 G3 M% X$ K k( b3 l. {7 L
(6)判断是否满足终止条件,如果满足终止,否则进入第二步' j3 \\* F! Q* K5 f5 X! O$ U1 y# q 1.4 判别分析
1、概述1 {' p* N1 L# O6 H9 T7 [7 ? 其是基于已知类别的训练样本,对未知类别的样本判别的一种统计方法,也是一种有监0 d1 v3 N6 P7 X督的学习方法,是分类的一个子方法!
具体是:在研究已经过分类的样本基础上,根据某些判别分析方法建立判别式,然后对未知分类的样本进行分类! 2、分类* D! o: G( N6 o, \\3 `5 m
根据判别分析方法的不同,可分为下面几类:$ D0 I* E$ j/ H% [ (1) 距离判别法 (2) Fisher 判别法
(3) Bayes 判别法, U( m) P3 e$ M. X. S+ b\ (4) 逐步判别法
关于这几类的方法的介绍,大家可以参考《多元统计学》,其中比较常用的是bayes 判2 R$ R/别法和逐步判别法 3、注意事项:
判别分析主要针对的是有监督学习的分类问题。共有四种方法,这里重点注意其优缺点:0 `7 (1) 距离判别方法简单容易理解,但是它将总体等概率看待,没有差异性;2 H- A; V/ }& K# g (2) Bayes 判别法有效地解决了距离判别法的不足,即:其考虑了先验概率— —所以通常这种方法在实际中应用比较多!
(3) 在进行判别分析之前,应首先检验各类均值是不是有差异(因为判别分析 要求给定的样本数据必须有明显的差异),如果检验后某两个总体的差异不 明显,应将这两个总体合为一个总体,再由剩下的互不相同的总体重现建 立判别分析函数。
(4) 这里说明下Fisher 判别法和bayes 判别法的使用要求:两者对总体的数据 的分布要求不同,具体的,Fishe 要求对数据分布没有特殊要求,而bayes 则要求数据分布是多元正态分布,但实际中却没有这么严格! (5) 可以利用spss,sas 等软件来轻松实现 4、方法步骤
这里以bayes 判别法为例讲述 (1) 计算各类中变量的均值xj 及均值向量xh,各变量的总均值xi 及均值向量x( H: ^: o\)()2) 计算类内协方差及其逆矩阵
(3) 计算bayes 判别函数中,各个变量的系数及常数项并写出判别函数# ?9 g- ]( b$ o- r6 l1 U# g3 V(4) 计算类内协方差矩阵及各总协方差矩阵做多个变量的全体判别效果的检验% s0 k. y5 r1 b! _: k& g5) 做各个变量的判别能力检验7 B( [8 _& v9 e: c# e/ X (6) 判别样本应属于的类别) |- L6 S7 P o. q4 i1 ^ ^ 1.5 主成分分析
1、概述& T6 X. S2 l; U$ b! {; o: Z, o
主成分分析是一种降维数的数学方法,具体就是,通过降维技术奖多个变量化为少数几 个主成分的统计分析方法。在建模中,主要用于降维,系统评估,回归分析,加权分析等等。\
2、分类(无)
3、注意事项5 i/ R$ s! b- b& d
在应用主成分分析时候,应该注意:8 V3 d: U% R. _ J, |. }7 ^
(1) 综合指标彼此独立或者不想关
(2) 每个综合指标所反映的各个样本的总信息量等于对应特征向量的特征值。 通常要选取的综合指标的特征值贡献率之和应为80%以上
(3) 其在应用上侧重于信息贡献影响力的综合评价6 h [2 ^3 L& c
(4) 当主成分因子负荷的符号有正也有负的时候,综合评价的函数意义就不明 确!
4、方法步骤- y; L0 b+ @& Y4 l
大家可以参考《多元统计学》这本书籍,在这里就不做阐述/ `: {$ O7 l y5 c0 T7 Z% L$ t 1.6 因子分析* u3 W3 P. b( j0 L3 t8 ~ 1、概述% U* M' ? Y7 p7 r: i& q
其是也是将变量总和为数量较少的几个因子,是降维的一种数学技术!它和主成分分析, `) u& 的最大区别是:其是一种探索性分析方法,即:通过用最少个数的几个不可观察的变量来说( v! k( I1 ]; O( D6 t, F
明出现在可观察变量中的相关模型(有点类似于前面讲述的分类和聚类的区别)9 j3 m' q2 L7 q3 ]\提供了一种有效的利用数学模型来解释事物之间的关系,体现出数据挖掘的一点精 神!他可以用来解决降维,系统评估,加权分析等方法。 2、分类
因子分析是R 型,即对变量研究\ 3、注意事项( c9 r9 J; f\
(1)其不是对研究总体的变量的降维,而是根据原始变量信息构造新的变量,作为共\e& F9 a
同因子) y\
(2)它通过旋转可以使得因子变量具有可解释性& R/ i+ t4 K, `5 v9 Y, w8 l' I3 I (3)因子分析和主成分分析的区别和联系
<1>两者都是降维数学技术,前者是后者的推广和发展& O1 U2 `% @9 Z, \\5 o6 ~4 S
<2>主成分分析只是一般的变量替换,其始终是基于原始变量研究数据的模型' a! Y+ e$ V+ R# h, I 规律;而因子分析则是通过挖掘出新的少数变量,来研究的一种方法,有点像 数据挖掘中的关联关则发现!6 j$ O4 n1 [' w- @* q 4、方法步骤
(略)大家可以去论坛上下载相关电子资源,也可以参考《多元统计学》( j2 u' ^8 l) `, [ 1.7 残差分析4 ^0 X/ Z3 n8 f# { F2 u9 L5 ]; b 1、概述
在实际问题中,由于观察人员的粗心或偶然因素的干扰。常会使我们所得到的数据不完\全可靠, 即出现异常数据。有时即使通过相关系数或F 检验证实回归方程可靠,也不能排除
数据存在上述问题。残差分析的目的就在于解决这一问题。所谓残差是指实际观察值与回归 估计值的差。 2、分类 无
3、应用
(1)通过残差分析来排除异常数据
(2)通过残差分析来检验模型的可靠性5 a$ R& F9 [- }# c7 K i
还有很多应用,大家在使用过程中据情况选取,灵活应用!& f$ m\ 1.8 典型相关分析
共分享92篇相关文档