当前位置：首页 > 基于GPCM模型的按a分层法的CAT终止规则比较（第三稿）改

基于GPCM模型的按a分层法的CAT终止规则比较（第三稿）改

62 次阅读
3 次下载
2025/7/1 13:42:10

地测量被试的能力。事实也已证明，使用多级评分项目比使用0-1评分项目可以获取更多的被试信息。因此，为了实际测量的需要，也为了适应我国的考试现状，更为了提高考试质量，研究多级评分模型下的CAT，已成为当前一个比较重要而又紧迫的任务。目前，我国许多学者已开展了这方面的研究，在多级评分模型下的模型常见的有等级评分模型（Graded Response model, GRM）、拓广分部评分模型（Generalized Partial Credit model, GPCM）。本文将对GPCM模型下的按a分层法下的各层终止规则进行比较，以发现最佳的CAT考试方法，为计算机化自适应测验在我国的应用作一点贡献。

2．计算机自适化自适应测验介绍

2.1 项目反应理论简介

项目反应理论(Item Response Theory,简称IRT)主要是针对考试测验中的各种类型的试题而构造出来的项目特性函数，它用以揭示项目答对概率跟被试水平及特性间的定量关系。它是一种新兴的心理与教育测验理论，是在分析与克服经典测验理论的局限性的基础上发展起来的。它的建立与发展是一大批学者数十年共同努力的结果。

目前IRT最重要的应用主要在三个方面：一是指导测验编制；二是CAT的兴起；其三是IRT认知测量模型将测量导向与认知心理学相结合，应用测量模型直接探索人的认知结构。

项目反应理论给测验带来了许多优良性质，这优良性质给测验的发展带来了活力。项目反应理论的主要优良性质表现为：首先，它将被试的特质水平与被试在项目上的行为关联起来，并将其参数化、模型化，成为通过统计调整控制误差的最好方法；其次，项目反应模型项目参数的估计独立于被试样本。所以在求取项目特征曲线的各种参数时，由于回归线的形状、位置都不依赖于被试分布，所以它的参数（包括难度b、区分度a）都是不变的；第三，项目反应模型中能力参数与项目难度参数的配套性，即项目难度参数与能力参数是定义在同

一个量表上的。第四，项目反应模型可以精确地估计测量误差。

利用这些优良性质，我们可以建设一个大型的质量优良的题库，可以按测验精度目标编制各种测验试卷，可以实施测验等值，可以实现测验的计算机化和自适应化。

2.2拓广分部评分模型简介

拓广分部评分模型(Generalized Partial Credit Model, GPCM) 是Muraki在1992年在分部评分模型的基础上通过取消项目区分度的假设而推演出的一个更普遍性的模型，它用两参数Logistic模型及Masters所用的运算特征函数（Operating Characteristic Function，OCF）重新构造新的PCM模型，即考虑各项目的区分度不一定相同，因其基本原理还是PCM，故新模型称拓广分部评分模型。该模型由公式表示：

hmjjcjPjh(?)?exp(?Dav?1(??bjv))/(1??exp(?Dac?1v?1(??bjv))) …………..（2-1）

k=1,2,……,mj

莫雷卡称公式中的biv为项目类型界阈参数（简称步骤参数）;D为常量,常取值1.7或1，本文取1.7 ;aj为项目j的区分度；?为被试或考生的特征值，也称为能力值, Pjh(?)表示能力为?的被试在第j题恰得h分的概率。在GPCM模型中，每个项目都有多个步骤参数，步骤参数值并没有要求同一项目中难度参数单调递增。前一步骤未完成就无法进行下一步骤；后一步的步骤参数有可能要小于前一步的步骤参数。

CAT考试的主要目的，就是要根据被试在项目上作答情况，按照一定的计算方法，估计出被试潜在特质的真实水平。样本平均数的抽样理论（中心极限理论）指出随样本容量的增大，抽样分布标准误会缩小，统计推断置信区间半长会变短。因此，所施测项目功能的强弱，技术质量的高低，整个测验测量工作的准确性，就要取决于测验及其项目为我们了解被试特质提供了多少信息量。一般地，提供的信息量

多少与测验准确度成正比，与测验误差成反比。因此，某个试题的信息函数值的大小直接反映出该试题对被试能力水平的估计精度，信息函数值越大，这种估计就越精确。测验评价的准确性，要取决于测验方法及试题为我们了解被试能力提供的信息量。下面，我们来了解一下GPCM反应模型的信息函数：根据信息量（fisher information）定义： I(?i)??E?lnL??m2m2i??Ij?1Uijtj(?i) （2-2） Nfj其中L=?i?1??Pj?1t?0ijt，被试i的能力值为?i，项目j上有mj个步骤参数，mj+1个得分类级 Uijt?1=??0若被试i在项目j上恰得t分当被试i在项目j上得分不为t 将公式（2-1）代入（2-2）得： ?lnL??2i2mfj=?2j?0t?0?{Pmuijtijt?fj?Pijt??2i2?uijtPijt(?Pijt??i) 2则?E?lnL??i2=??1j?0t?0Pijt??i(?Pijt) 2那么项目j对被试i施测的信息量为： mIj(?i)?Da22jjmj?c?1(Tc??Tc?1cPjc(?i))Pjc(?i)2 (2-3) 其中，Tc为分值，表示项目j各类级上分值。本文中采用0-6分的7个类级，Tc取值取0,1,2,….6。再根据公式(2-2)，可计算出测验信息量，将所得的测验信息量代入公式（2-4）中，可计算出测验标准误。所以在CAT施测过程中,常根据给定的标准误，计算出相应的项目信息量，并以此作为不定长测验的终止规则。

2．3 CAT施测过程 CAT中被试能力水平的估计和选题策略的设计，都是基于IRT而进行的。首先，CAT选题策略根据项目难度与被试能力水平相匹配的原则，从题库中调用一个最适合被试能力水平作答的项目。这就意味着，项目难度与能力水平应表达在同一量表上，同时要求在测试过程中，不断地更新被试的能力估计值，那么这就需要借助IRT的理论与模型。其次，CAT要有大型题库提供大量的项目以备选择，而建设大型题库，就需要借助IRT项目参数不变性的特性。第三，CAT还运用了IRT项目信息量与测验信息量这两个概念。项目反应理论已经阐明，项目信息量的累加和就是测验信息函数值，而估计误差标准误等于测验信息量函数平方根的倒数。估计标准误记为SE(?)，就有： SE(?)?1I(?)?1?Ij(?) (2-4) 依据这一点，我们可以制定出不定长CAT的终止规则 CAT的施测过程大体分为两个阶段：一是试验性探查性阶段。测验开始时，一般被试并无真实水平信息，应设置一批探查性项目，初步估计被试能力水平值。可从题库中随机抽取项目施测，到被试既有答对又有答错时即可停止该阶段。当然，这时候的被试能力值只是一个很粗略的估计值。若用m表示被试在探查阶段答题总数，x表示答对题数，则这个初值一般可取为 ?0?lnxm?x 二是精确估计真值阶段。严格按“因人施测”思想施测，一般就是要适应被试水平，从题库中挑选出能提供最大信息量的项目施测或与能力水平相匹配的试题，然后根据被试作答情况更新被试的能力估 8

搜索更多关于：基于GPCM模型的按a分层法的CAT终止规则比较（第三稿）改的文档

版权认领

下载文档10.00 元 加入VIP免费下载

推荐下载

本文作者：...

共分享92篇相关文档

文档简介：

地测量被试的能力。事实也已证明，使用多级评分项目比使用0-1评分项目可以获取更多的被试信息。因此，为了实际测量的需要，也为了适应我国的考试现状，更为了提高考试质量，研究多级评分模型下的CAT，已成为当前一个比较重要而又紧迫的任务。目前，我国许多学者已开展了这方面的研究，在多级评分模型下的模型常见的有等级评分模型（Graded Response model, GRM）、拓广分部评分模型（Generalized Partial Credit model, GPCM）。本文将对GPCM模型下的按a分层法下的各层终止规则进行比较，以发现最佳的CAT考试方法，为计算机化自适应测验在我国的应用作一点贡献。 2．计算机自适化自适应测验介绍 2.1 项目反应理论简介项目反应理论(Item Response Theory,简称

基于GPCM模型的按a分层法的CAT终止规则比较（第三稿）改

相关文档

相关推荐