当前位置:首页 > 回归分析
5、逐步回归
实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效选择重要变量的方法。以下只讨论线性回归的情况。 原理:若候选的自变量集合为S={x1,x2,..,xm},从中选出一个子集S1,假设包含k个自变量,由S1和因变量y构造的回归模型的误差平方和为Q,则模型的剩余平方和s2=Q/(n-l-1),n为数据样本容量。所选子集S1应使s尽量小。通常模型包含的自变量越多,Q越小,但若模型中包含有对y影响很小的量,那么Q不会由于包含这些变量在内而减少,反而可能因k的增大而增大,因此可将s2最小作为衡量变量选择的一个数量标准。
步骤:先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对 有影响最大的,再对原来子集中的变量进行检验,从变得不显著得变量中剔除一个影响最小的,直到不能引入和剔除为止。
注意事项:一要适当地选定引入变量的显著性水平ain和剔除变量的显著性水平aout,显然,ain越大,引入的额变量越多,aout越大,剔除的变量越少;二在最初选择变量时应尽量选择相互独立性强的那些变量。
MATLAB实现:命令stepwise(x,y,inmodel,alpha)
x是自变量数据(n行m列);y是因变量数据(n行1列);inmodel是矩阵x的列数的指标,给出初始模型中包括的子集,缺省时设定为全部自变量;alpha为显著性水平。 例4 儿童的体重与身高和年龄
调查了12名6至12岁正常儿童的体重、身高和年龄,建立回归模型用于从身高和年龄预测儿童的体重。 序号
体重(kg) 身高(m) 年龄(岁) 9
1 2 3 4 5 6 7 8 9 10 11 12 27.1 30.2 24 33.4 24.9 24.3 30.9 27.8 29.4 24.8 36.5 29.1 1.34 1.49 1.14 1.57 1.19 1.17 1.39 1.21 1.26 1.06 1.64 1.44 8 10 6 11 8 7 10 9 10 6 12 9
儿童的体重与身高的散点图
儿童的体重与年龄的散点图
从两个散点图可以看出,它们之间可能存在着二次函数关系。
将x1,x2及x3=x1^2,x4=x2^2,x5=x1*x2确定为候选变量集合,选取初始子集为x1,x2。
10
逐步回归的MATLAB实现: x=[…]; y=[…]
stepwise(x,y,[1,2])
第一步:将最显著的x4加入S1。
第二步:将x4加入S1(可以看出剩余标准差RMSE在减小)
第三步:利用regress()求逐步回归后的回归方程: X1=[ones(12,3),x1,x2,x4] [b,bint,r,rint,s]=regress(y,X1)
11
b = 25.8287 5.3289 -2.6849 0.2380
即 y= 25.8287 + 5.3289 x1 -2.6849 x2 +0.2380 x4
y= 25.8287 + 5.3289 x1 -2.6849 x2 +0.2380 x22
6、非线性回归
? 非线性回归命令:
nlinfit()、nlparci()、nlpredci()、nlintool()等参看MATLAB帮助。
? 非线性回归转化为线性回归: 如:
y=aebx → z = ln a + b x = a* + b x . y = a xb → z = ln y = lna+b ln x = a*+ b u y = 1/(a+bx) → z = 1/y = a + bx .
y = x/(b+ax) → z = 1/y = a + b/x = a + b u y = (1+ax)/(1+bx) → ?,y=cxe-dx → ?, y=L/(1+ceax) → ?,
? 例4.3 赛跑的成绩与赛跑距离
表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录. 距离 x(m) 100 200 400 800 1000 1500 时间 t (s) 9.95 19.72 43.86 102.4 133.9 212.1
试用这些数据建模分析赛跑的成绩与赛跑距离的关系 (1)散点图
用线性模型误差比较大
250200150100500050010001500
(2) 模型
假设:t = a xb, 令 z = ln t, u = ln x , 则有: z = ln t = ln a+b ln x = a* + bu (3) 利用数据估计模型的参数
可以算出:a* = –3.0341, b = 1.1453,a=ea*=0.0481
12
R2= 0.9987 ,P= 0 模型:y = 0.0481 * x1.1453 (4)拟合精度
拟合值:9.395 20.782 45.968 101.679 131.288 208.88
原值: 9.95 19.72 43.86 102.4 133.9 212.1 Q = 23.5746
13
共分享92篇相关文档