产品中心

贝叶斯公式应用中的认识误区你知道吗?

  假定有一组完备且互斥的事件A1,…,An , 它们发生的概率具有初始的假定值P(Ai),…,P(An), 称为先验概率。

  在正概率随机事件B发生(被观察到)的条件下(P(B)>

  0), 这些事件出现的条件概率P(Ai B),( i = 1,…,n ),称为验后概率。

  应用条件概率公式和全概率公式,我们得到下面的贝叶斯公式(或贝叶斯定理):

  验后概率P(A i B)被认为是获得新的信息(事件B)后,对先验概率P(A)的修正。

  准确地说,条件概率P(A i B)只是从事件B的角度去观察事件A1,…,An,打个比方,也可能是管窥蠡测,坐井观天。

  为了下面分析的简明,我们讨论两组完备且互斥的事件A与A‾,及B与B‾,有下面的条件概率公式和全概率公式:

  现在分析下面的应用背景。它蕴含着A是事件的原因,B是事件的结果,从结果来推测原因这样一种相互关系。

  假定某社区的全部人口为样本空间,社区出现某种疾病。从社区中随机抽取一人,得这种病为事件A,未得病为事件A‾,根据统计数据估计,得病的概率为p = P(A),未得病的概率为P(A‾)= 1 - p 记为q。

  经过对这种试剂多次检验发现,这种试剂对于已得病的人呈阳性的概率(即检测到得病的准确率)为P(BA)= α;对于未得病的人,呈阳性的概率(即误诊得病(假阳性)的概率为P(BA‾)= β。

  在上面的基本假定条件下,我们应用贝叶斯公式可以得出哪些合理的结论,又可能得出哪些似是而非、实则错误的结论呢?

  然而,就像在概率统计其他领域以及贝叶斯公式发展历史中,也出现由于混淆(误用)概念,导致不正确的结论。

  本文希望通过分析较广泛传播的具体例子(引自近年出版的专业著作,或科普文章),厘清重要的概念,并引起这个领域的学者及爱好者的重视或进一步讨论。

  第一个例子:“设从某个城市的人口中随机选取一个人作结核病皮肤试验(“简称为皮试”),而试验的结果是阳性,问给出皮试阳性结果(记为事件B)这个人正是结核病患者(记为事件A)的概率是多少?”

  结论是:这个皮试后呈阳性的人确是结核病患者的概率从0.01上升到0.165。

  第二个例子:“已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?”

  应用贝叶斯定理计算的结果是P(AB) = 0.019。结论是:这个检验结果为阳性的人得病的概率从0.001上升到0.019。

  在应用条件概率时容易出现比较隐蔽的错误,即随机事件A和随机事件B的界限以及它们之间的关系被混淆。

  如果我们的问题是:一个随机抽取的人在试剂检验呈阳性的条件下得病的概率是多少?

  那么,事件A是“在讨论的人群总体中随机抽取的一人得病”,事件B应该是“这个被随机抽取到的人试剂检验呈阳性”,在这样的语境下,文章中所得结果及解释方为正确。

  可是,文章提出的问题是:“现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?”,情况就完全不一样了。

  事件b是“某甲的检验结果为阳性”,这是一次检验结果的事件,由于检验结果带有随机性,所以事件b仍然是随机事件。

  事件a是“某甲得病”。如果这次阳性检验结果不正确(假阳性),某甲没有得病,按题设,这个概率为0.05;否则,阳性检验结果正确,某甲得病了,这个概率为1 - 0.05 = 0.95。也就是说,某甲确实得病的概率为0.95。

  另一个是“现有一个病人的检验结果为阴性,请问他确实得病的可能性有多大?”

  一种检测试剂如果对于发现疾病的准确性很高,有可能对于未病者的误诊率稍高,出现“假阳性”;一种检测试剂如果对于发现疾病的准确性略低,但对于未病者的误诊率很低,就会出现“假阴性”。

  它应用的前提是,对于样本空间中随机抽取的样本,以及这些随机样本属于事件B的条件(子范畴,子空间)下,其他随机事件A出现的条件概率。

  它只是对于局部的子空间整体成立的公式,并不意味着应用到一个具体的或特定的样本时,一定可以适用同一个公式。

  目前,在介绍贝叶斯公式应用的例子中常常出现的问题,恰恰是在已经获得有关个体呈现阳性时的误诊概率的信息后,仍然套用针对样本空间中随机样本成立的贝叶斯公式,得出不恰当的结论。

  在上面的例子中,如果我们记全体人员为W集合,得某种疾病的人员为A集合,检验呈阳性的人员为B集合。

  尽管对每一个被检验的人员,若他呈阳性(属于B集合),可以以相当大的概率(比如0.95)判断他得病(属于A集合)(即不得病的误判概率为0.05),但是,由于出现A的概率非常小(比如0.001),在全体不得病人员的集合W-A中,有百分之五的人被误判(即呈阳性但并未得病),其数量以较大比例超过只占全体人员千分之一的得病人员总数。

  这就是说,对全体人员而言,如果每个人都去检验,检验结果呈阳性的人员中,只有小部分的人真正得了病,换言之,从总体而言,呈阳性的人群真正得病的概率并不高,很多人虽然呈阳性而没有得病,属于“假阳性”!

  这种对抽样个体与对总体下的结论相左的情况似乎是一个悖论,然而,这的确是一个合理且经得起检验的结果。

  曾担任中国大百科全书《电子学与计算机》卷特约编辑与撰稿人,《今日电子》执行主编;

  “超级数学建模”(微信号supermodeling),每天学一点小知识,轻松了解各种思维,做个好玩的理性派。60万数学精英都在关注!

  超级现正式向粉丝们公开征稿!内容须原创首发,与数学、物理相关,一经采用,会奉上丰厚稿酬,详情请戳。

联系我们

CONTACT US

联系人:张先生

手机:13988889999

电话:020-66889888

邮箱:admin@591zhengyi.com

地址:广东省广州市番禺经济开发区58号