当前位置:首页 > 2016-2017学年高中数学 第三章 统计案例 3.1 第2课时 残差分析及回归模型的选择学案 新
3.1 第二课时 残差分析及回归模型的选择
一、课前准备 1.课时目标
(1) 了解残差分析回归效果; (2) 了解相关指数R2分析回归效果;
(3) 了解常见的非线性回归转化为线性回归的方法. 2.基础预探
1.在线性回归模型y?bx?a?e中,a和b为模型的未知参数,e是y与y?bx?a之间的误差,通常e为随机变量,称为_______.它的均值E(e)=0,方差D(e)???0.
2?y?bx?a?e线性回归模型的完整表达形式为?.在此模型中,随机误差r的方2E(e)?0,D(e)???差?越小,通过回归直线y?bx?a预报真实值y的精度越高. 2.对于样本点(x1,y1),(x2,y2),2,(xn,yn)而言,相应于它们的随机误差为
ei?yi?y?yi?bxi?a(i?1,2,,n),其估计值为ei?yi?yi?yi?bxi?a(i?1,2,,n),
ei称为相应于点(xi,yi)的______.类比样本方差估计总体方差的思想,可以用
??21Q(a,b)(n>2)作为?2的估计量,其中a和b由公式给出,Q(a,b)称为残差平n?222方和.可以用?衡量回归直线方程的预报精度.通常?越小,预报精度越高.
3.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差e1,e2,en来判断模型拟合的效果,判断
n原始数据中是否存在可疑数据.这方面的分析工作称为_______.
24.用相关指数R来刻画回归的效果,其计算公式是:R?1?2?(y?y)i2?(y?y)ii?1i?1n.显然R取值
22越大,意味着残差平方和_______,也就是说模型的拟合效果________. 二、学习引领
1. 进行回归分析的步骤是什么?
(1)确定研究对象,明确是哪两个变量之间的相关关系.
(2)画出散点图,观察它们之间的关系是否存在线性关系,也可计算变量间的线性相关系数的值来精确判断它们之间是否存在相关关系.如果不存在线性相关关系,判断散点图是否存在非线性相关关系.
(3)若存在相关关系,则由经验确定回归方程的类型:如观察到数据呈线性关系,则选
?=bx+a;否则可选择指数模型、对数模型或二次函数模型等. 用线性回归方程y(4)利用残差图或者相关指数R2对回归效果进行判断
2.随机误差e的产生及估计的方法
(1)在实际中,随机变量y除了受随机变量x的影响之外,还受其它变量的影响;(2)由于前面相关关系公式中的a和b为截距和斜率的估计值,它们与真实值a和b之间也存在误差.(3)因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机变量的均值为0,因此可以用方差?来衡量随机误差的大小. 3.如何利用R判断回归效果
在线性回归模型中,R表示解释变量对于预报变量变化的贡献率. R越接近于1,表示回归的效果越好(因为R越接近于1,表示解释变量和预报变量的相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析.也可以通过比较几个R,选择其值大的模型.
4.常见的可线性化的回归模型
b
(1)幂函数曲线y=ax(如图所示), 作变换u=lny ,v=lnx,c=lna,得线性函数u=c+bv.
222222
(2)指数函数y=ae(如图所示) 作变换u=lny, c= lna,得线性函数u=c+bx.
bx
(3)倒指数曲线y=ae(如图所示).
bx 2
(4)对数曲线y=a+blnx(如图所示)
三、典例导析
题型一 相关系数的应用
例1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车辆数是否有线性相关关系? 机动车辆数 x/千台 交通事故数 y/千件 95 110 112 120 129 135 150 180 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13.0 思路点拨:先列表计算出相关系数所需数据,代入公式即可求出相关系数r,由此判断交通事故数y与机动车辆数x是否线性相关. 解析:将数据列成下表
由此可知x=128.875 y=8.95,进而求得 r=9611.7?8?128.875?8.95(137835?8?128.875)?(671?8?8.95)22?0.9927.
因为|r|接近1 ,所以可得交通事故数y和机动车辆数x有较强的线性相关关系.
规律总结:进行回归分析时, 通常先进行相关性检验, 若能确定两个变量具有线性相关关系, 再去求其线性回归方程, 否则所求的方程无意义.两个变量正(负)相关时, 它们就有
3
相同(反)的变化趋势,即当由小变大时,相应的有由小(大)变大(小)的趋势.
变式训练:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系?从这个工业部门内随机抽取了10个企业作样本,有如下资料.见下表. 产量x (千克) 生产费用y(千元) 40 150 42 48 55 170 65 150 79 162 88 185 100 165 120 190 140 185 140 160 完成下列要求:
(1)计算x与y的相关系数;
(2)对这两个变量之间是否线性相关进行相关性检验。
题型二 残差分析
某城区为研究城镇居民月家庭人均生活费支出和月人均收人的相关关系.随机抽取10户进行调查.其结果如下: 月人均收人 300 390 420 520 x(元) 月人均生活费 y 255 324 335 360 (元) 570 450 700 520 760 580 800 600 850 630 1080 750 试预测人均月收人为1100元和人均月收入为1200元的两个家庭的月人均生活费. 思路导析:列表计算出相关系数所需数据,代入公式即可求出相关系数r,初步判断两个变量之间是否具备相关性,然后做出残差图判断选用的模型是否合适.
解析:作出散点分布图,由图可知月人均生活费与人均收人之间具有线性相关关系.
由题意可知:x?639,y?480.4,
?xi?1102i?4610300,?y?2540526,?xiyi?3417560,
2ii?1i?11010计算相关系数可得 r=0.99316,
因为|r|接近1 ,所以可得两个变量有较强的线性相关关系.
代入公式可知b=
?xy?10xyiii?11010=0.6599 , a=y-bx=58.751.
?xi?12i?10x2?=0.6599x+58.751. 故回归直线方程为y作残差如图所示,由图可知,残差点比较均匀地分布在水平的带状区域中,说明选用的模型
4
共分享92篇相关文档