当前位置:首页 > 某高校在校生体测成绩的统计分析
天津科技大学2014届本科生毕业论文
对x,y作n次独立的观测,得到观测数据(xi,yi), i?1,2,?,n.根据(2-8)式可得
??yi?a?bxi??i , ?iid2???i~N(0,?) , i?1,2,?,n .其中iid表示独立同分布。令
Q(a,b)??????yi?(a?bxi)?,
2inn2i?1i?1?称为a,b的最小二乘估计,通过解下面方程组?,b二元函数Q?a,b?的最小值点a??求得
n??Q?na?nxb?ny ,??a??2??yi??a?bxi???0??i?1n (2-9) ??n2???n??Q??2?y??a?bx??x?0?nxa???xi?b??xiyi .?i?1?i?1?iii??i?1??b其中
1n1nx??xi , y??yi .
ni?1ni?1当方程组(2-9)的系数矩阵的行列式
nnxnn22nD??n(?xi?nx)?n?(xi?x)2?0, 2nx?xii?1i?1i?1可以解得
?, b??ll . (2-10) ??y?bxaxyxx其中
lxx??(xi?x)??x?nx, lxy??(xi?x)(yi?y)??xiyi?nx y .
22i2i?1i?1i?1i?1nnnn?代入理论回归方程可得y?,称之为y关于x的经验回归方程。由于 ?,b??a??bx将a??y?bx??bx??y?b?(x?x) , ??a??bxy?服从以下分?,b可知y关于x的经验回归直线一定过点(x,y). 可以证明估计量a布:
??1x2?2???2???~N?a, ?????, b~N?b, a ? . (2-11)??nllxx?xx??????分别是a,b的无偏估计。 ?,b从而可知a(3) 回归方程的显著性检验
对于变量y和x的任意n对观测值(xi,yi),只要x1,x2,?,xn不全相等,则无论变量y和x之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线
?. 显然,只有当变量y和x之间存在线性相关关系时,这样??a??bx性回归方程y的线性回归方程才是有意义的。为了使求得的线性回归方程真正有意义,就需要
9
天津科技大学2014届本科生毕业论文
检验变量y和x之间是否存在显著的线性相关关系。若y和x之间存在显著的线性相关关系,则回归模型(2-8)式中的b不应为0,因为若b?0,则?(x)?E(y|x)就不依赖于x了。因此需要检验假设
H0:b?0, H1:b?0. (2-12)
F检验
y(xi,yi)y?yy{}??}y?yii???a??bxy?i?yyox图 2-1离差分解示意图
x
如图2-1所示,每个观测点(xi,yi)处的yi与均值y的离差yi?y被分解为两部分,即
?i?y?i?y , yi?y?yi?y于是总离差平方和可作如下分解
?i?y?i?y)2 SST??(yi?y)??(yi?y2i?1i?1nn?i)??(y?i?y)?2?(yi?y?i)(y?i?y) . ??(yi?y22i?1i?1i?1nnn?i)(y?i?y)?0. 令 可以证明2?(yi?yi?1n?i), SSR??(y?i?y)2 , SSE??(yi?y2i?1i?1nn则有
SST?SSE?SSR . (2-13)
?i的离差平这里的SST为总离差平方和,它被分解为两部分。其中SSR是估计值y方和,反映了y的总变差中由于y与x之间的线性关系所引起的y的变差,称为回归平方和。SSE就是前文中的QE,称为残差平方和(或剩余平方和),它反映了y的总变差中不能由回归直线来解释的变差。由图2-6可以看出,若总离差平方和SST中主要是回归平方和SSR,残差平方和SSE所占比重非常小,则说明观测数据的散点基本集中在回归直线附近,进一步说明y和x之间存在显著的线性相关关系,因此可以根据SSR和SSE构造检验统计量,检验y和x之间的线性相关关系是否显著。
(4)多重线性回归分析原理
10
天津科技大学2014届本科生毕业论文
设随机变量y与p个可控变量x1,x2,?,xp之间存在线性相关关系,建立y与
x1,x2,?,xp的数学模型如下:
?y?b0?b1x1?b2x2???bpxp?? , (2-14) ?2?~N(0,?) .?其中未知参数b0,b1,?,bp和?2都不依赖于x1,x2,?,xp. 称(2-14)式为y关于
x1,x2,?,xp的p重线性回归模型,其中b1,b2,?,bp称为回归系数。类似于一元线性回归,称Y?E(y|x1,?,xp)?b0?b1x1?b2x2???bpxp为y关于x1,?,xp的理论回归方程。 2.4 判别分析
判别分析是对样本进行分类,但是和聚类分析不一样,判别分析的研究对象是已经有了分类,,根据抽取的样本建立判别公式和判别标准,然后用这些公式和标准判别未知的类别的样本的类别。
本文主要用距离判别,其中距离判别的基本思想是首先根据已知分类的数据,分别计算各类的重心,即分组均值,判别标准:对于任给一次观测值,若她与i类的重心距离最近,就认为她来自第i类。马氏距离原理设G是p维总体,它的分布的均值向量和协方差矩阵分别为
??11?12...?1p???1????????...?2?21222p? (2-15) ???,?????????????????p???p1?p2...?pp?设x??x1,x2,...,xp?',y??y1,y2,...,yp?'为取自总体G的两个样品,假定??0(?为正定矩阵),定义x,y间的平方马氏距离为
d2?x,y???x?y?'??1(x?y)
定义x到总体G的平方马氏距离为
d2?x,G???x???'??1(x??) (2-16)
两个总体的判别,设有两个p维总体G1和G2,分布的均值分别为?1和?2,协方差矩阵分别为?1?0,?2?0。从两总体中分别抽取容量为n1,n2的样本,记为
x11,x12,...,x1n1,x21,x22,...,x2n2。现有一未知类别的样品,记为x,试试判别x的归属,现有以下判别规则
当d2(x,G1)?d2(x,G2)时,判定x?G1;否则判定x?G2。若相等则待判。这是通常为马氏距离。在采用马氏距离的情况下,下面分情况进行讨论。
(1)?1=?2=?已知时
11
天津科技大学2014届本科生毕业论文
将两个距离相减可得
d2(x,G1)?d2(x,G2)?2[x?(?1??2)]'??1??1??2? (2-17) 2令
?=?1??22W(x)?(x??)'a?a'(x??),a???1??1??2??(a1,a2,...,ap)' (2-18)
则判别规则还可表示为
?x?G1,若W(x)?0? ?x?G2,若W(x)?0 (2-19)
?待判,若W(x)=0?称W(x)为两组距离判别的线性判别函数,a为判别系数。
(2)?1??2已知时 令
J(x)?d2(x,G1)?d2(x,G2) (2-20) 则J?x?为二次判别函数,判别规则为
?x?G1,若J(x)?0??x?G2,若J(x)?0 (2-21) ?待判,若J(x)=0?(3)?1??2未知时
在实际问题中,这种情况最为常见,此时有样本对?1,,?2?1,?2进行估计
?1=x1,?2=x2,?1?s1,?2?s2
于是可得平方马氏距离的估计和二次判别函数的估计
d2?x,Gi???x?xi?'Si?1?x?xi?,i?1,2J?x??d2?x,G1??d?x,G2?
2 (2-22)
将格式(2-21)中的J?x?换位J?x?,即可得此种情况的判别规则。
12
共分享92篇相关文档