云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > 基于GPCM模型的按a分层法的CAT终止规则比较(第三稿)改

基于GPCM模型的按a分层法的CAT终止规则比较(第三稿)改

  • 62 次阅读
  • 3 次下载
  • 2025/7/1 8:55:18

计值并且不断重复这个阶段的过程,直到符合测验终止原则时,结束测验。 这其中必须考虑以下几个问题:第一,被试能力水平的估计如何进行;第二,项目选题策略如何设计;第三,测验的起始与终止采用什么规则。由于能力估计要进行一系列非手工可以完成的计算,选题策略的实施要根据被试的当前能力估计值和题库中项目的特征,测验可否终止要根据给定指标进行计算,所以自适应的整个过程不可能借助笔与纸来进行,必须借助计算机来完成。 2.4 能力估计 CAT中,估计能力的常用方法是极大似然(MLE)估计法和贝叶斯期望后验(EAP)估计法。在本文中采用贝叶斯期望后验估计法。 能力的贝叶斯期望后验估计根据贝叶斯定理 h(?i|Ui,?)?P(Ui|?i,?)g(?)P(Ui)[8] 被试i的反应模式为Ui=(ui1,ui2,...uim),根据局部独立性假设,基于双歧评分模型的概率为P(Ui|?i,?)??Pj(?i)jmuijQj(?i)1?uij。从具有能力分布为g(?)的被试总体中随机抽取一个被试,则上式中分母为??P(Ui)??P(Ui|?)g(?)d???。由上式,给定U=Ui,有 ??????????ig(?i)?Pj(?i)muij E(?i|Ui,?)?j?1Q(?i)1?uijd??g(?)?Pj(?i)j?1muijQ(?i)1?uij d?上式中含有积分,且积分的原函数不能用初等函数表示,故用高斯—厄米特积分公式。Bock和Mislevy(1982)[8]给出了上式的数值积分形式: 9

qE(?i|Ui,?)??i^?k?1q?XkL(Xk)A(Xk) k?1?L(Xk)A(Xk)式中Xk为数值积分结点,一般在区间[-3,+3]内取等距点q个,计算公式为: Xk??3?6q?1?(k?1),k=1,2...q。q个数的取值依项目数而定。A(Xk)为积分结点 权值,给定能力先验分布为g(?)为标准正态分布,则A(Xk)的计算公式为: Ak?82??e?Xk22q。L(Xk)为似然函数。 2.5 本文模拟采用的选题策略 所谓选题略,就是根据已得到的被试信息的情况下,从剩余题库是选择最合适的试题给被试作答的过程。当前常用的选题策略有最大信息量法和按a-分层方法。其中最大信息量方法是选取在当前的能力估计值附近有最大项目信息量的项目对考生施测。这样做的效果是可以增加测量精度,考生用题数减少,考试效率大幅提高。但这种方法存在一定的缺陷。理想状态下,题库中所有项目都应曝光率相似,使得考试安全且题库中各项目得到有效使用。而使用这种方法一方面会导致高区分度a的题目频繁被选出,有可能使这些题目过度曝光;另一方面,低区分度a的题目很少或者根本没有得到使用,造成这些题目曝光不足。这种题目曝光不均匀、不稳定极易降低考试的安全性。1994年,Kaplan教育中心数次派出雇员参加GRE测验,让他们记住项目并汇报总部。由于被Kaplan“窃取”的项目占题库相当大的比重,当时ETS被迫暂停了GRE机考。2002年8月,ETS中止了在中国内地、香港、台湾地区和韩国的CAT-GRE,恢复了传统笔试。原因就是此前一项调查表明,亚洲一些网站非法公布GRE真题。此外这种选题策略是

10

一种区分度递减的算法,增加了初始能力估计的不稳定性,会导致如考生一开始连续做对几道题最终得分会偏高,而考生一开始连续做错几道题最终得分会偏低的现象。解决这一问题的一个方法是降低高区分度项目的使用率而提高低区分度项目的使用率。 因此为的控制项目的曝光率,常采用的方法为按a分层方法,它是将题库根据项目参数分成几层,测试也相应分成几个阶段。开始阶段使用低a项目,到了后面估计能力相对准确时再使用高a项目。这样可能可使题库中项目平均使用。 按a-分层方法根据a参数升序严格分层。研究表明,使用按a-分层方法比使用SH曝光控制的最大Fisher信息量法要好,这是因为在保持测量精度的同时,增加了具有较低a值的题目的使用率。 具体方法是:题库按a参数值升序排列,然后根据预先设定好的层数将题库分成K层,并将已按a参数值排好序的题目顺次分割成K个子题库,以供测试各个阶段选出使用。 在按a分层法中,在每层选题时,会根据当前估计的能力选取该能力相匹配的项目给被试作答,但GPCM模型有多个难度等级,则选取与哪一个难度相匹配,这就是一个值得讨论的问题。刘珍[1]等对GPCM模型下给出了如下选题策略: 2.5.1 能力与步骤参数平均数匹配选题策略(以下简称平均难度) 分别计算剩余题库中各项目全部步骤参数的平均,然后从中调用各步骤平均难度与被试当前能力估计值最接近的项目,即从剩余题库中调用使下式值最小的项目j, ^|??bj1?bj2?..?bjmjm| j 2.5.2 能力与最大与最小步骤参数平均数匹配选题策略(以下简称两端平均难度) 分别计算剩余题库中各项目中最大步骤参数与最小步骤参数的平

11

均数,然后从中调用两端平均难度与被试当前估计能力值最接近的项目,即从剩余题库中调用使下式值最小项目j, ^|??bjmax?bjmin2| 2.5.3 能力与任意步骤参数匹配选题策略(以下简称任意难度) 从剩余题库中调用任意难度与被试当前估计能力值最接近的项目,即从剩余题库中调用使下式值最小项目j, |??bjk| k=1,2…mj, ^2.5.4 能力与去除最大步骤参数和最小步骤参数以外各步骤参数的平均数匹配选题策略(以下简称去两端平均难度) 分别计算剩余题库中各项目去除最大步骤参数与最小步骤参数以外各步骤难度的平均数,然后从中调用去两端平均难度与当前估计能力值最接近的项目,即从剩余题库中调用使下式值最小项目j, ^|??(bj1?bj2?..?bjmj)?(bjmax?bjmin)mj?2| 2.6比较的CAT测验终止规则 考试结束规则通常分为两种: (1)定长CAT测验。当采用不同被试测试的试题项目数都相同的考试规则,称为固定测验长度。采用该方法的好处是便于被人们接受,有利于系统的实现,符合传统的思想。缺点是当测试长度固定时,有一部分被试在已恰当估出能力后,还要额外增加作答;而另一部分被试在规定的测验长度内无法得到相应的能力估计精度。 (2)不定长CAT测验。当采用每位考生测试试题数不一样的考试规则,称为不固测验长度,通常这种规则以测验信息量为结束测验,如果被试所作答的项目信息量累加和达到规定的数值(常取25,表示估计标准误差为0.2)时,则考试结束。采用这种方式下的考试,只要考试精度达到要求,考生答题数量可以不一致。不定长的计算机自适应测验更能体现“因人施测”的特点,而且由于所用被试的测验精度

12

  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

计值并且不断重复这个阶段的过程,直到符合测验终止原则时,结束测验。 这其中必须考虑以下几个问题:第一,被试能力水平的估计如何进行;第二,项目选题策略如何设计;第三,测验的起始与终止采用什么规则。由于能力估计要进行一系列非手工可以完成的计算,选题策略的实施要根据被试的当前能力估计值和题库中项目的特征,测验可否终止要根据给定指标进行计算,所以自适应的整个过程不可能借助笔与纸来进行,必须借助计算机来完成。 2.4 能力估计 CAT中,估计能力的常用方法是极大似然(MLE)估计法和贝叶斯期望后验(EAP)估计法。在本文中采用贝叶斯期望后验估计法。 能力的贝叶斯期望后验估计根据贝叶斯定理 h(?i|Ui,?)?P(Ui|?i,?)g(?)P(Ui)[8] 被试i的反应模式为Ui=(ui1,ui2,...uim),根据局部独立性假设,基于双歧评分模型的概率为P(Ui|?i

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com