统计学的相关关系并不意味着因果关系
2023/6/25 8:59:03 阅读:50 发布者:
在统计学中,有一个非常著名的说法,即相关关系并不意味着因果关系。让我们通过下面的图表例子来理解这个说法。
这个图表有两个随机变量X和Y。
第一个随机变量X是人均巧克力消费量,这意味着在一个给定的国家,每人平均消费多少巧克力。
所以我们选取了一些国家,并将X计算为每人每年的巧克力消费量,单位为公斤。
Y轴是一定数量的诺贝尔奖获得者,诺贝尔奖获得者为1000万人口。
现在给定上述数据,如果我们计算Rank相关系数,你会得到一个0.791的数值,大约接近0.8(非常高)。
我还可以观察到,随着X的增加,Y也在增加。对。
但我能不能做一个声明,比如说X导致Y?
或者用简单的认为,随着巧克力消费的增加,你的国家可以产生更多的诺贝尔奖得主。
这是不正确的,对吗?
结论
仅仅因为这里的两个随机变量X和Y以非常高的等级相关系数0.8相关,这并不一定意味着X导致Y或者Y导致X。
这是绝对错误的结论。这是一个荒谬的结论。
要理解因果关系,在应用数学中有一个完整的领域,叫做因果模型,这是统计学和应用数学中一个非常高级的领域。但与相关性相比,那是一个完全不同的话题。请永远不要把相关性和因果关系混淆。在你做出这样的结论之前,应该始终牢记这个巧克力的例子。
参考资料:
https://stats.stackexchange.com/questions/36/examples-for-teaching-correlation-does-not-mean-causation
Vidhya分析是一个分析和数据的社区。
更多因果性不同于相关性的栗子!
丹麦的鹳鸟数量和出生率。
美国牧师的数量和酗酒。
在20世纪初,人们注意到 "收音机的数量 "和 "精神病院的人数 "之间有很强的相关性,还有海盗导致全球变暖。虽然很有趣,但它们显然是错误的。
有没有人有其他好的例子?
解释一下 "原因 "是一种不对称的关系(X导致Y与Y导致X不同),而 "与 "相关是一种对称的关系,可能是有用的。
例如,无家可归的人口和犯罪率可能是相关的,因为二者在同一地点都趋于高或低。说无家可归的人口与犯罪率相关,或者说犯罪率与无家可归的人口相关,都是同样有效的。
说犯罪导致无家可归,或无家可归人口导致犯罪是不同的说法。相关性并不意味着这两种说法都是真的。例如,根本原因可能是第三个变量,如药物滥用,或失业。
统计学的数学不善于识别根本原因,这需要其他形式的判断。
转自:“量化研究方法”微信公众号
如有侵权,请联系本站删除!