当前位置:首页 > Logistic判定大学生申请者是否具有保研资格
Logistic回归分析申请者是否具有保研资格
(华北科技学院 计算## ## 指导教师:###)
摘要:保送研究生也就是推免生,现在越来越多的学校拥有保送研究生的资格,一般来说成绩排名比较靠前都能获得保研资格,但学生的管理才能也影响着学生的发展。本文就利用学生大学四年的平均分数和学生管理才能测试分数作为主要指标,建立Logistic回归模型,判定其是否具有保研资格。 关键词: 平均分数 管理才能测试分数 Logistic回归模型 保研资格
Abstract: Walks is born from graduate push, now more and more school have walked the graduate
student's qualification, generally speaking scores ranking is in front can obtain the qualification of research, but the management of students can also affect the development of students. This paper USES the student university four years of average scores and management of students as the main index to test scores, establish Logistic regression model, to determine his whether it has the qualification of the inquiry.
Keywords: Average scores 、 management to test scores 、 Logistic regression model 、
The inquiry qualification
一 前言
logistic回归的因变量可以是二分非线性差分方程类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。本文应用的就是二分类的logistic回归,分析申请者是否具有研究生报送资格与平均学分和学生管理才能测试分之间的关系。
二 Logistic回归的理论
Logistic回归主要分为:二分类和多分类两种。
非条件Logistic回归,适用于成组设计、且因变量为二分类变量的资料; 条件Logistic回归,适用于配对设计、且因变量为二分类变量的资料;
多分类Logistic回归,适用于因变量为多分类变量的资料,分为有序和无序多分类 设Y为2分类变量的反应变量,结果有两种:Y=1表示某事件发生;Y=0表示某事件不发生。
x为自变量可以是连续变量或分类变量。 根据大量观察,反应变量阳性结果的概率P与自变量X的关系通常不是直线关系,而是曲线关系。
p???exp(?0??1X1????mXm)1?exp(?0??1X1????mXm)11?exp[?(?0??1X1????mXm)]11?e?(?0??1X1????mXm)1、2、m
此形式为概率预测模型,给定自变量的取值时,可估计概率。其中,P为概率;β0为常数项;β为偏
回归系数。Exp为指数函数。(曲线关系)
三 数据来源与模型建立
因变量y=1表示申请者具有研究生保送资格,y=0表示申请者不具有研究生报送资格。自变量x1表示平均分,x2表示学生管理才能测试分。建立Logistic回归模型。
表1 30个申请者具体情况
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
四 Logistic回归分析
X1 2.96 3.14 2.54 3.22 3.29 2.43 2.20 2.36 3.69 2.57 2.35 3.46 2.51 2.51 3.19 3.63 3.59 2.36 3.30 3.40 2.36 2.66 2.68 3.50 2.48 2.46 3.78 3.44 2.63 3.48 X2 596 473 466 482 527 425 474 531 505 542 406 693 412 458 663 447 588 399 563 553 482 420 414 572 533 509 591 692 504 528 Y 1 1 0 1 1 0 1 0 1 1 0 1 0 0 1 1 1 0 1 1 0 0 0 1 0 1 1 1 0 1 使用spss软件进行Logistic回归分析,Save选项中选择预测值概率和组关系,在Residuals中用未标准化残差,标准化残差;在Option选项中选Hosmer-Lemeshow goodness-of-fit以及Casewise listing of residuals和classification plots和all case
表2 案件处理过程总结
Case Processing Summary Unweighted Cases Selected Cases Included in Analysis Missing Cases Total Unselected Cases Total aN 30 0 30 0 30 Percent 100.0 .0 100.0 .0 100.0 a. If weight is in effect, see classification table for the total number of cases.
表1得分析样本和样本缺失情况,此时表明缺失为零,样本都有效. 表3 因变量编码 Dependent Variable Encoding Original Value 0 1 Internal Value 0 1 表3说明对被解释变量(因变量)编码为内部值,二元因变量被编码为0和1,以方便计算 表4 综合的测试模型系数 Omnibus Tests of Model Coefficients Step 1 Step Block Model Chi-square 25.371 25.371 25.371 df 2 2 2 Sig. .000 .000 .000
表5 模型总结 Model Summary Cox & Snell R Step 1 -2 Log likelihood 15.010 aNagelkerke R Square .772 Square .571 a. Estimation terminated at iteration number 7 because parameter estimates changed by less than .001. 表4和表5是对整个模型的检验,表中结果表明模型非常显著.
共分享92篇相关文档