云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 回归分析

回归分析

  • 62 次阅读
  • 3 次下载
  • 2025/12/9 6:25:57

5、逐步回归

实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效选择重要变量的方法。以下只讨论线性回归的情况。 原理:若候选的自变量集合为S={x1,x2,..,xm},从中选出一个子集S1,假设包含k个自变量,由S1和因变量y构造的回归模型的误差平方和为Q,则模型的剩余平方和s2=Q/(n-l-1),n为数据样本容量。所选子集S1应使s尽量小。通常模型包含的自变量越多,Q越小,但若模型中包含有对y影响很小的量,那么Q不会由于包含这些变量在内而减少,反而可能因k的增大而增大,因此可将s2最小作为衡量变量选择的一个数量标准。

步骤:先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对 有影响最大的,再对原来子集中的变量进行检验,从变得不显著得变量中剔除一个影响最小的,直到不能引入和剔除为止。

注意事项:一要适当地选定引入变量的显著性水平ain和剔除变量的显著性水平aout,显然,ain越大,引入的额变量越多,aout越大,剔除的变量越少;二在最初选择变量时应尽量选择相互独立性强的那些变量。

MATLAB实现:命令stepwise(x,y,inmodel,alpha)

x是自变量数据(n行m列);y是因变量数据(n行1列);inmodel是矩阵x的列数的指标,给出初始模型中包括的子集,缺省时设定为全部自变量;alpha为显著性水平。 例4 儿童的体重与身高和年龄

调查了12名6至12岁正常儿童的体重、身高和年龄,建立回归模型用于从身高和年龄预测儿童的体重。 序号

体重(kg) 身高(m) 年龄(岁) 9

1 2 3 4 5 6 7 8 9 10 11 12 27.1 30.2 24 33.4 24.9 24.3 30.9 27.8 29.4 24.8 36.5 29.1 1.34 1.49 1.14 1.57 1.19 1.17 1.39 1.21 1.26 1.06 1.64 1.44 8 10 6 11 8 7 10 9 10 6 12 9

儿童的体重与身高的散点图

儿童的体重与年龄的散点图

从两个散点图可以看出,它们之间可能存在着二次函数关系。

将x1,x2及x3=x1^2,x4=x2^2,x5=x1*x2确定为候选变量集合,选取初始子集为x1,x2。

10

逐步回归的MATLAB实现: x=[…]; y=[…]

stepwise(x,y,[1,2])

第一步:将最显著的x4加入S1。

第二步:将x4加入S1(可以看出剩余标准差RMSE在减小)

第三步:利用regress()求逐步回归后的回归方程: X1=[ones(12,3),x1,x2,x4] [b,bint,r,rint,s]=regress(y,X1)

11

b = 25.8287 5.3289 -2.6849 0.2380

即 y= 25.8287 + 5.3289 x1 -2.6849 x2 +0.2380 x4

y= 25.8287 + 5.3289 x1 -2.6849 x2 +0.2380 x22

6、非线性回归

? 非线性回归命令:

nlinfit()、nlparci()、nlpredci()、nlintool()等参看MATLAB帮助。

? 非线性回归转化为线性回归: 如:

y=aebx → z = ln a + b x = a* + b x . y = a xb → z = ln y = lna+b ln x = a*+ b u y = 1/(a+bx) → z = 1/y = a + bx .

y = x/(b+ax) → z = 1/y = a + b/x = a + b u y = (1+ax)/(1+bx) → ?,y=cxe-dx → ?, y=L/(1+ceax) → ?,

? 例4.3 赛跑的成绩与赛跑距离

表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录. 距离 x(m) 100 200 400 800 1000 1500 时间 t (s) 9.95 19.72 43.86 102.4 133.9 212.1

试用这些数据建模分析赛跑的成绩与赛跑距离的关系 (1)散点图

用线性模型误差比较大

250200150100500050010001500

(2) 模型

假设:t = a xb, 令 z = ln t, u = ln x , 则有: z = ln t = ln a+b ln x = a* + bu (3) 利用数据估计模型的参数

可以算出:a* = –3.0341, b = 1.1453,a=ea*=0.0481

12

R2= 0.9987 ,P= 0 模型:y = 0.0481 * x1.1453 (4)拟合精度

拟合值:9.395 20.782 45.968 101.679 131.288 208.88

原值: 9.95 19.72 43.86 102.4 133.9 212.1 Q = 23.5746

13

搜索更多关于: 回归分析 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

5、逐步回归 实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效选择重要变量的方法。以下只讨论线性回归的情况。 原理:若候选的自变量集合为S={x1,x2,..,xm},从中选出一个子集S1,假设包含k个自变量,由S1和因变量y构造的回归模型的误差平方和为Q,则模型的剩余平方和s2=Q/(n-l-1),n为数据样本容量。所选子集S1应使s尽量小。通常模型包含的自变量越多,Q越小,但若模型中包含有对y影响很小的量,那么Q不会由于包含这些变量在内而减少,反而可能因k的增大而增大,因此可将s2最小作为衡量变量选择的一个数量标准。 步骤:先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对 有影响最大的,再对原来子集中的变量进行检验,从变

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com