有趣的辛普森悖论:同一个数据集是如何证明两个完全相反的观点的?
2024/1/23 11:00:51 阅读:32 发布者:
以下文章来源于SPSS学堂 ,作者helloiamx
溯源
“横看成岭侧成峰,远近高低各不同”苏轼的这首诗形象的描写了庐山各个角度和距离的模样。
今天我们所讨论的辛普森悖论便和这“远近”有关。
我们在研究两组数据时,有时会陷入这样的一种困境。
当我们“远看”,即合并的看两组数据时,往往会得出一种貌似可靠的结论,但当我们“近看”,即分别讨论两组数据时,又发现结论正好相反,这种有趣的现象便是辛普森悖论。
20世纪初,就有人讨论这种现象,但辛普森悖论被正式阐述是在1951年,由E.H.辛普森以论文形式描述。这便是辛普森悖论的由来。
性别歧视?
以下辛普森悖论的一个典型事例:
某学校在统计录取率时,发现全校男生的录取率高于女生的录取率(见图1),貌似存在一定的性别歧视。
表1 分性别录取率
性别 | 报名人数(个) | 录取率(%) |
男 | 2691 | 45 |
女 | 1835 | 30 |
在这种情况下,该学校立即进行调查研究,却发现不同专业的分性别录取率呈现出相反的现象,如图2所示。
表2 不同专业的分性别录取率
专业 | 男 | 女 |
报名人数(个) | 录取率(%) | 报名人数(个) | 录取率(%) |
A | 825 | 62 | 108 | 82 |
B | 560 | 63 | 25 | 68 |
C | 325 | 37 | 593 | 34 |
D | 417 | 33 | 375 | 35 |
E | 191 | 28 | 393 | 24 |
F | 373 | 6 | 341 | 7 |
从图中我们可以看到,在各个专业中,男女的录取率相差不大,在专业A中,女生的录取率甚至高出男生20个百分点,之前的结论被颠覆了。
A or B?
再看一组例子:
某医院现有两种肾结石治疗方案,方案A包括所有开放式外科手术,方案B仅涉及小的穿刺,为了比较两种方案的成功率(成功率=成功案例数/治疗总案例数),从方案A和B现有治疗案例中分别抽取350个样本进行抽样调查,调查结果如表3所示。
表3 两方案成功率
方案 | 成功案例(个) | 成功率(%) |
A | 273 | 78 |
B | 289 | 83 |
从表3中可以看出,在两种治疗方案中方案B的成功率高于方案A,那这是否意味着方案B是最佳选项呢?
表4 不同结石大小的两方案成功率
结石大小 | 方案A | 方案B |
成功案例(个) | 治疗总案例(个) | 成功率(%) | 成功案例(个) | 治疗总案例(个) | 成功率(%) |
大结石 | 192 | 263 | 73 | 55 | 80 | 69 |
小结石 | 81 | 87 | 93 | 234 | 270 | 87 |
果不其然,反转又一次出现,当增加一层“结石大小”变量时,我们发现不论是大结石还是小结石,选用方案A时的治疗成功率都大于方案B,方案A似乎又成了最佳选择。
Android or IOS ?
再看最后一组事例:
据统计,某产品用户中有10000人使用Android设备,5000人使用IOS设备,现需研究使用两种设备的用户付费转化率(普通用户转化为付费用户的比例)大小,研究结果见表5。
表5 Android和IOS用户付费转化率
| 付费用户(人) | 付费转化率(%) |
Android | 550 | 5.5 |
IOS | 200 | 4.0 |
如表5所示,使用Android的用户付费转化率要高于IOS的,对于研发人员而言,这是否说明该产品的研发团队应该将研发方向转向Android呢?
表6 分设备端Android和IOS用户付费转化率
设备端 | Android | IOS |
付费用户(人) | 注册用户(人) | 付费转化率(%) | 付费用户(人) | 注册用户(人) | 付费转化率(%) |
手机 | 50 | 2000 | 2.5 | 100 | 3500 | 2.9 |
平板 | 500 | 8000 | 6.25 | 100 | 1500 | 6.67 |
但在表6中我们可以看到,当我们细化分析,增加“设备端”这一变量后,无论是在手机端还是平板端都是IOS的用户付费转化率较高,似乎研发方向又应该趋向IOS。
注:文中所有数据来自网络
尾语
通过以上三个事例,我们对辛普森悖论有了一个初步的了解,但其实辛普森悖论普遍存在我们的生活及谚语里,比如著名的田忌赛马就是辛普森悖论的绝妙应用,虽然田忌并不是知道这个悖论才去应用的,但道理相通。
辛普森悖论就像一个警钟后,当我们处理简单二元列联表时,都会在我们心中轻轻敲打一下,提醒我们去分析所得结论的正确性,督促我们去思考反转的可能。
那么,当我们进行描述性统计时,辛普森悖论究竟能带给我们什么样的启发和讯息呢?
且听下回分解!
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!