这是一个经典的贝叶斯案例,也是很反直觉的,很多解释认为这个反直觉是因为我们的日常错误的思维习惯,但我觉得可能恰恰相反,下面我们先回顾一下这个案例,然后再进一步讨论。
案例回顾
对所有人来说某种癌症的患病率为5%,医生使用某设备为你做了检查,此设备检查的准确率为80%,检查结果显示你患有此病(阳性)。请问你真实患有此病的概率是多少?
常见解答
首先我们要理解5%和80%这两个概率是什么意思。
患病率为5%,也就是说100个普通人里面有5个人生病,如图中红色。
设备的准确率为80%,也就是说有20%会搞错,95个真实无病的人来做检查,也会有95x0.2=19个人被查出病来,同样5个有病的也只查出4个来。
这么算的话,总共有4+19=23个人被查出有病,你是其中之一。而实际上真有病的可能是4/23大约是17%,所以你可以稍微放宽心一些,因为你真的患了这种癌症的可能性还不足五分之一,这就是常见解答给出的结论。
文字游戏
上面的解说看似科学完美,而且结果足够的乐观,但是不要高兴的太早。
你的乐观完全建立在对“检查准确率80%”这个说法的理解之上的,如果我把它解释成检查出100个有病,那么80个就真实有病,你还会乐观起来吗?
这简直就是纯粹文字游戏而已。
“检查准确率80%”到底怎么解?为100个人做检查,最终结果(无论真有病或真无病)有80%是正确的吗?真这么解释的话就不用买设备了,直接来问我吧,100个人来问我,我说100个人无病,那么我的准确率岂不是95%?(因为我对95个人的判断是正确的)。
在上面的常规解答中认为,80%的解释是:
100个真有病的来检查,此设备能查出80个有病,20个无病;
100个真无病的来检查,此设备能查出80个无病,20个有病。
对真有病和真无病的分辨能力可以控制在同一水平,是不是太巧合了?这就好像说如果100个男人中你可能错误认为其中20个是女人,那么你就一定也会把100个女人中的20个误认为是男人一样不靠谱。
一个反例
假设某种疾病,只要某个血液指标k超过500就可以断定患有这种病,真实患病者中一半的患者都k>500,而k<500的普通人中也有1/4的人可能患病,这批人占病患总数的另一半。
某设备就是根据k值进行检查的,只要k>500就判断有病,k<500就判断健康。
普通人中这种病的发病率是40%,那么100人来检查,20个被正确检查为有病,另外80人中的1/4也就是20个病患没有检测出来,60个没病的被正确判断,那么设备的“准确率”是80%。
如果这个设备也检查你并判断有病,那么你真实患病可能是多少?100%!和30%、80%完全无关。
所以,如果你已经被检查出有病,那么真实的患病可能性只和设备对于真实病患的识别能力有关,换句话说,它查出100个有病结果中实际多少人真的有病。
TP、FP、TN、FN
为了搞明白这个问题,我们要首先明确几个词语的定义,否则讨论是没有意义的。
对于设备检查病情这个事情,无外乎四种情况:
TP,实际有病且检查也说有病。也就是有病,而且被正确查出来了,报告上的阳性Positive是真的,即True Positive真阳性。虽然生病,但还有得治。
FP,实际没病但检查说有病。也就是没病,但被误诊为有病了,报告上的阳性Positive是错误的,即False Positive假阳性。这是倒霉,要浪费医药费了。
TN,实际没病且检查也说没病。也就是没病,检查结果也是正确的没病,报告上的阴性Negative是真的,及True Negative真阴性。皆大欢喜。
FN,实际有病但检查说没病。也就是有病,但被误诊为没病了,报告上的阳性Positive是错误的,即False Positive假阴性。最大悲剧,最后不知道怎么死的。
如下图所示,False开头的红色FP、FN都是误诊。
作者:zhyuzh3d
链接:https://www.jianshu.com/p/d5ae63505047