一致性检验的目的在于比较不同方法是否在结果上具有一致性[1,2]。常见的一致性检验的方法有:Kappa检验、ICC组内相关系数、Kendall W协调系数等。
Kappa检验是基于混淆矩阵的,适用于两次数据之间一致性比较,如比较两个医生对于同一病例做出病情判断上是否具有一致性,或者两个评委的打分一致性等。根据使用场景的不同,Kappa检验分为简单的Kappa校验和加权Kappa校验。
一个简单Kappa检验的计算实例和过程如下所示:
1、两位评委对共计117个人进行打分(1-5),行列代表两个医生,构建混淆矩阵如下:
1 | 2 | 3 | 4 | 5 | Total | |
1 | 8 | 2 | 1 | 0 | 0 | 11 |
2 | 3 | 11 | 5 | 0 | 0 | 19 |
3 | 0 | 7 | 55 | 11 | 0 | 73 |
4 | 0 | 0 | 1 | 11 | 0 | 12 |
5 | 0 | 0 | 0 | 0 | 2 | 2 |
Total | 11 | 20 | 62 | 22 | 2 | 117 |
2、计算实际一致性 :P0= (8 + 11 + 55 + 11 +2 ) / 117 = 0.743
3、计算理论一致性 :Pe = (11*11 + 19*20 + 62*73 + 12*22 + 2*2) / ( 117* 117) = 0.387
4、计算Kappa系数:
kappa计算结果为-1~1,但通常是落在 0~1 间,其中各自的代表的含义如下:
0.00~0.2 代表一致性较差 (slight)
0.21~0.4 代表一致性一般 (fair)
0.41~0.6 代表一致性中等 (moderate)
0.61~0.8 代表一致性较强 (substantial)
0.81~1.0 代表一致性强 (almost perfect)
参考文献
[1] https://en.wikipedia.org/wiki/Cohen%27s_kappa#cite_note-Mary2012-1
[2] McHugh M L. Interrater reliability: the kappa statistic[J]. Biochemia medica: Biochemia medica, 2012, 22(3): 276-282.