这个问题下查的森的回答[1]已经将当前可用的办法总结得很清楚了,其中JESP那篇文章[2]综述的检测被试不认真的十余种办法,我根据个人实际发问卷的体会做了简单的推荐指数,曾经在组会内部分享过,这里贴过来。
一句话概括:筛出不认真被试的办法建议是多种结合,使用顺序上可以自由搭配,作者推荐的一种是:先剔除Response time过短的被试、未通过陷阱题的被试,之后再分别利用Long-string analysis、Odd–even consistency等统计办法中的一种进行剔除。
P.S:作者特别指出,剔除不认真被试的使用方法和顺序必须是在剔除之前就计划好的,不要让剔除被试成了玩弄P值的手段
1.Response time,推荐指数 *
基本假设:答题速度太快的被试是不认真的
操作方案:针对答题时间做单尾检测,即只剔除答题时间过短的被试(比如答题时间小于1.5个标准差,但这样做之前需要先确认答题时间分布是否正态);Huang et al. (2012)推荐按照2s/item来估算所需答题时间。但不同问卷每个item答题时间差异可能很大,还得根据具体问卷情况来判断。
优点:指标客观,记录方便。网上问卷一般都自带。
缺点:剔除被试的时间节点非常不好把握,作者实验表明有些答题速度确实很快的被试会被误删,也就是一类错误率高;但如果时间节点用太短的去卡,又容易犯二类错误。这个trade off涉及到不同问卷差异太大,作者也没能给出一个较好的参考标准。关于作者的实验结果可见原文图1.
2. Long-string analysis,推荐指数 *
基本假设:有很多个连续的items选了同一个选项的被试是不认真的
操作方案:比如有一个10道题的五点量表,被试回答如下【3; 3; 4; 4; 4; 3; 5; 3; 3; 4】,那么这里被试选择的最长连续items是【4,4,4】这一段,记录为3。作者推荐如果这个数值大于等于量表总长度的一半(比如这里是5),即可判断为不认真被试。但这个标准作者也认为是太严格了,因此只能剔除很少一部分不认真的被试。更好的标准有待今后进一步的常模探索。
优点:假设简单直接。
缺点:一方面跟Response time一样,标准设置并不好界定;另一方面这个剔除办法没有RT那么直接,我们习惯的SPSS等现成工具似乎无法计算每个被试选了多少个连续的item。可能需要一定的代码编写。
3. Mahalanobis distance,推荐指数:*
基本假设:Outlier是不认真的被试,但这里的Outlier并非单纯的答题结果高于或低于一定标准差,而是有一个多维度的Mahalanobis distance指标。
操作方案:我们比较熟悉的剔除outlier办法是单维的,即通过一个item或者一个均值的分布来计算出偏离较大的outlier。这里的Mahalanobis distance则是多维的,即综合计算多条items偏离平均水平的程度来跳出outlier。具体公式邮件无法放上,可见原文。
优点:计算方案较为周全,除了应用于剔除不认真被试,也可以用于剔除其他情形的Outlier。
缺点:计算较为复杂,且剔除标准存在争议,作者也并未给出一个明确的Outlier标准。
4. Odd–even consistency and Resampled Individual Reliability (RIR),推荐指数:*
基本假设:每个人填的答案中,同一个量表中的items随机拆成两部分算相关系数,应该是显著正相关的,相关系数过低的被试可认为是不认真的
操作方案:将每个子量表中的items按照奇偶拆开(也可以在子量表中再继续随机拆出多个子量表,以增加算相关系数的case),先计算出每个子量表奇、偶items的平均数结果,然后将每个人各个子量表的奇偶结果做相关;作者提出这种按照奇偶的伪随机不够好。
升级版的办法是RIR:每个子量表中随机拆成两组进行配对算相关即可,并且这样随机拆还可以进行有放回的重复抽样:比如一个20道题的量表,我们如果以每5题按奇偶配对,那么最多配成2对做相关,但如果是有放回的抽样,那就可以有足够多的配对做相关。
优点:计算方案周全且不算复杂。
缺点:跟量表本身的结构效度息息相关,受量表本身影响大,且没有相关低到多少可以算不认真的标准(个人认为可以用p值显著来判断),这个方法较新,尚未得到足够多的使用验证,仍在探索阶段,建议谨慎使用(with due caution)
特别注意:计算Odd–even consistency之前记得将需要反向计分的选项recoding.
5.Individual consistency: semantic and psychometric antonyms/synonyms,推荐指数:**
基本假设:语义或心理测量意义相近的items,结果应该是正相关的;相反的items,结果应该是负相关的。否则是不认真的被试。
操作方案:量表里设置一些测量意义或者语义相近或者完全相反的items,比如“我现在很快乐”和“我现在很悲伤”;注意将items混杂在量表中不要让被试产生警惕,比如要将(x1, x2), (y1, y2), (z1, z2)三对items掺入量表,可这样:【Item 1; Item 2; y1; Item 4; y2; x1; z1; z2; Item 9; x2】
优点:操作简单,计算容易,标准客观。
缺点:需要提前在量表里设置好,且需要掺入较多的题目,可能会对原量表测量产生影响。
特别注意:作者建议的保守做法是只剔除与假设相关方向相反的被试,低相关被试建议保留以减少一类错误
6.Individual consistency: inter-item standard deviation,推荐指数:*
基本假设:每个被试填的回答结果离散趋势不应该过大,如果分布的标准差太大,可被视为不认真被试。
操作方案:计算出每个被试回答结果的标准差A,然后将所有被试的A计算出z分数,剔除那些z分数过高或过低的被试。
优点:操作简单
缺点:没有统一剔除标准,建议谨慎使用。
7.Polytomous Guttman Errors,推荐指数:**
基本假设:起源于测试里如果有几道难的题,几道容易的题,那么做对难题的数目比简单题还多的,是不认真被试。这里做对的难题数减去做对的简单题数的结果称为Polytomous Guttman Errors。
操作方案:这里的“难题”“简单题”延伸为每道item都已经通过其他途径得到有一个常模,比如“我是个好人”大多数会倾向选agree(4),“我是个坏人”大多数会倾向选disagree(2)[随便举的一个例,误当真]。那么相应常模分数配对的一些题目相减,然后再求和的结果就会趋近于0。最终剔除被试的标准是:其结果大于现有研究里半数可能的Polytomous Guttman Errors,则可以剔除相应被试。
优点:算法简单,可操作性强。
缺点:需要提前有一个可信服的常模,比较难获取。
8.Individual consistency: person total correlation,推荐指数:**
基本假设:每个人答题的pattern与其他人是类似的。
操作方案:假设我们问卷有50个items,那么将所有人答题结果汇总,得到每个item的平均分[item1,item2,...item50],相当于变量A;这时候,将被试B的50个items也作为一个变量B的50个cases。则可以算出变量A和变量B的相关系数,负相关的被试可以剔除。
优点:可操作性强。
缺点:基本假设“每个人答题的pattern与其他人是类似的”需要有明确的理论支撑。
9.Bogus/infrequency/attention check items/IMCs,推荐指数:****
基本假设:陷阱题没答对的被试是不认真的。
操作方案:在问卷里藏入“这道题请选3”,或者在前面的instruction设置与通常直接点下一步不一样的模式,需要被试仔细阅读Instruction才能察觉的说明。
优点:操作性强,效果得到反复验证成功。
缺点:对于“职业被试”,他们会已经有所防备,较难检测出,尤其是mturks的被试。
10.Self-report data,推荐指数:***
基本假设:有些被试尽管不认真,但在“诚实”这一点上还是会尽量遵守的。
操作方案:问卷最后放一个Meade and Craig (2012)开发的量表,大意是问被试你有没有认真做问卷。
优点:应用方便。
缺点:只能检测诚实的被试。