第二可修改答案的计算机化自适应测验设计与方法（第3页）

天才一秒记住【热天中文网】地址：https://www.rtzw.net

IP容量过小，被试对测验控制感不足；IP容量过大，由于在IP内的作答不影响IP外的选题，同样地也会降低CAT因人施测的有效性。

另外，IP方法的有效性也取决于测验时间，在时间有限的CAT中被试可能不会使用IP方法，因为被试知道没有足够的时间来修改答案。

（四）区块题目袋方法

在Stog设计中，被试在题目区块内（区块也就是文章中的题目单元）作答时不允许跳过题目，而且为了保证估计的精度，需要划分较多的区块使得被试受到更大的限制。

然而，IP法的缺陷是它的容量不易设置，但是IP法在一定程度上可以弥补Stog设计的不足。

基于此，林喆、陈平、辛涛（2015）提出了区块题目袋方法，该方法将Stog设计和IP法有效结合在一起，实现了方法之间的“双赢”

。

区块题目袋的主要思路是将测验分成几个大区块，为每个区块分配一个一定容量的IP，通过区块的设置来合理安排题目袋的容量。

在进入下一个区块前，被试需要作答完该区块IP内的题目，而进入下个区块后不允许修改前面的区块。

通过模拟研究表明：与IP法相比，区块题目袋方法可以提高能力估计的精度，尤其对低水平的被试，区块题目袋能够更精确地估计其能力值，并且随着区块数的增加估计精度有略微提升。

在对抗类似Wainer策略时（测验开始前将题目尽可能放入IP内来推迟作答，再返回全力作答），区块题目袋方法也要优于IP法。

区块题目袋将Stog设计和IP法结合起来，一来允许被试跳过题目作答，而且只需要设置较少的区块，二来巧妙地解决了IP容量不易设置的问题。

然而，区块题目袋将被试的修改行为限制在区块内，被试在作答下个区块前需要完成当前IP内的题目，这很可能不符合一部分被试的修改习惯。

在纸笔测验中，被试经常使用的一种修改习惯就是：先跳过较难的题目，等完成全部有把握的题目之后，再返回检查并修改答案，这种修改习惯类似于IP法的思路。

因此，虽然区块题目袋合理解决了IP容量不易设置的问题，却可能给被试的测验习惯带来一定的限制。

此外，相对IP法，区块题目袋在应用中更复杂，需要更多的技术支持。

（五）重新安排题目顺序的设计

与传统纸笔测验相比，CAT一个显著的优势就是计算机“因人而异”

地选择与被试能力最匹配的题目施测，从而快速有效地估计被试的能力水平。

然而，被试修改答案后会造成题目难度与被试真实能力水平不匹配，这成为RCAT的一个主要误差来源。

为此，Papanastasiou（2002）提出了在被试修改答案后重新安排题目顺序的设计方法。

即被试在修改某个题目之后，在能力估计阶段忽略该题之后可能与能力不匹配的题目。

被试在修改阶段可能有四种修改模式，分别对应四种重新安排题目顺序模式。

1.重新安排题目顺序设计的四种模式

模式一：被试将原来错误答案修改为另一个错误答案，例如，正确答案是A，被试把答案由B改为C。

这种修改方式并不会影响能力水平的估计，所以不需要重新安排题目顺序。

模式三：被试将第i题答案由正确改为错误，计算机自动选择第i+k题（1＜k＜4）作为下一题（第i+k题为第i题之后第一个答对的题目）。

如果被试在［i+1，i+k］区间内的题目都答错了，则将第i+4题作为最后参与能力估计的题目。

2.四种重新安排题目顺序设计的评价

Papanastasiou（2002）研究发现与正常修改相比重新安排题目顺序之后平均偏差下降了15.6%，效果显著，并且重新安排题目顺序之后的信度接近0.81。

虽然重新安排题目方法在能力估计偏差和信度上表现优异，但是这种结果只是模拟得到的，具体应用到实际中效果如何还需进一步研究。

另外，部分作答题目不参与最后的能力估计，不仅降低了题目的利用率，而且对于被试而言可能难以理解这种方法。

为了避免最后参与被试能力估计的题目数过少，Papanastasiou提出如果已有3个以上的题目被忽略，将不再执行重新安排题目顺序的方法。

因此对于部分考生而言，该方法可能只执行两次（第一次修改忽略了3个题目），还是不能有效地解决“人题”

不匹配的误差。

另外，遇到一些极端的情况该方法可能会导致更大的误差。

例如，被试只修改了2个题目，每次修改都保留了第i+4（假设修改了第i题），这样两次修改之后就会忽略6个题目，在定长CAT中能力估计的题目数过少将会产生更大的随机误差。

当然有学者认为可以在重新安排题目顺序后，再适当给被试增加测验题目，但是这样做在增加测验成本的同时，也可能给被试带来更大的压力。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第二 可修改答案的计算机化自适应测验设计与方法（第3页）