因果推断是研究如何更加科学地识别变量间的因果关系的方法。它涉及数理统计学、计量经济学、管理科学、心理学、生物统计与流行病学等诸多领域,是当前国际学术界最热门的研究领域之一。
因果推断的关键特征是通过引入潜在结果框架去清晰地定义因果关系,并利用随机化实验的思想作为有效识别因果关系的基础。它强调实验设计,以随机化实验为基础,对潜在结果进行建模,从而更好地识别因果关系,计算出因果效应。
因果推断不是方法本身,而是整套的统计框架,它可以跟各种模型进行衔接,比如跟经济学、心理学、统计学、机器学习的模型衔接。在工业界,因果推断相关技术在推荐系统、用户增长等领域也得到了广泛的应用。
你想了解因果推断的哪些方面呢?比如它的具体应用、研究方法或者相关理论等
因果推断模型有哪些:
因果推断模型是用于研究变量间因果关系的一种统计和数据分析方法。
这些模型帮助我们理解一个事件(因)如何导致另一个事件(果),并且强调时间上的先后顺序和合理的机制。因果推断模型的主要目的是区分相关关系和因果关系,从而更准确地理解数据中的变化。
以下是几种主要的因果推断模型:
结构因果模型(Structural Causal Model, SCM):
由Judea Pearl提出,该模型是描述数据产生机制和外部干预的形式化语言。通过构建关键要素的因果图,结合structural equations来描述变量之间的因果关系。
潜在结果框架(Potential Outcome Framework, POF):由Donald Rubin在1978年提出,也称为Rubin因果模型(Rubin Causal Model, RCM)。
这个框架通过比较处理组和对照组的结果来估计干预的因果效应。
Uplift模型:在互联网营销中应用广泛,用于预测干预(如广告投放)对个体或群体的额外收益提升。这种模型帮助商家计算人群营销敏感度,优化投放策略,以最大化营销推广的效率。
最大似然和最小二乘法:这些方法在高斯和Pearson的工作中得到了应用,用于估计变量的关系和预测未来的变化。最大似然法用于估计参数,而最小二乘法用于拟合数据。
这些模型各有特点,适用于不同的研究场景和数据类型。结构因果模型和潜在结果框架提供了理论上的基础,而Uplift模型则更侧重于实际应用中的效果评估。每种模型都有其独特的优势和应用场景,选择适合的模型取决于研究的目的和数据特性
因果推断的黄金准则是
随机控制实验
因果推断的黄金准则是随机控制实验。随机控制实验通过随机分配实验对象到实验组和对照组,观察两组之间的差异,从而推断自变量(干预)对因变量(结果)的影响。这种方法在统计学和数据科学中广泛应用,特别是在揭示变量之间的因果关系以及政策事件的真实效应方面具有重要意义。
除了随机控制实验,拟实验方法如工具变量法、双重差分法和断点回归法等也可以帮助揭示因果关系。这些方法在没有随机实验机会的情况下,通过分析和比较数据来探求变量之间的因果联系。
因果联系的逻辑方法
求同法:是通过考察被研究现象出现的若干场合确定在各个场合先行情况中是否只有另外一个情况是共同的,如果是,那么这个共同情况与被研究的现象之间有因果联系。
2.求异法:是通过考察被研究的现象出现和不出现的两个场合,确定在这两个场合中是否只有另外一个情况不同,如果是,那么这个不同情况与被研究现象之间有因果联系。
3.共变法:是通过考察被研究现象发生变化的若干场合中,确定是否只有一个情况发生相应变化,如果是,那么这个发生了相应变化的情况与被研究现象之间存在因果联系。
4.剩余法:对某复合结局事件(A,B,C),已知它的有关因素在特定的范围内(a,b,c),通过先前的归纳又知道b说明B,c说明C,那么剩余的a必定说明A
5.求同存异并用法:求同存异并用法又叫做求同、求异并用法。它的内容是:如果某被考究现象出现的各个场合(正事例组)只有一个共同的因素,而这个被考察现象不出现的各个场合(负事例组)都没有这个共同因素,那么,这个共同的因素就是某被考察现象的原因。该法的步骤是两次求同一次求异
因果分析中遇到的问题
1、spurious relationship - 伪关系
在公式中,x变化时,y也恰好变化,但可能他们没有逻辑关系
比如你的卧室很大时,你的体育成绩也变得很好(???睡觉大赛冠军
选择性偏差
1、遗漏变量偏差
夏天雪糕卖的很好,但穿拖鞋的人也很多;这里遗漏了一个重要变量——即夏天天气很热,会导致雪糕受大家的欢迎且喜欢穿拖鞋的同学变多
这个遗漏变量即为影响两个变量的混淆变量
2、幸存者偏差
飞机残骸问题/异地恋——重要的变量无法进行研究/重要样本无法获取
“二战”期间,为了加强对战机的防护,英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里,然而统计学家沃德力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机,很难有机会返航,而这部分数据被忽略了
3、反向因果
在哥谭市,我们发现警察人数越多的时候市区的犯罪率越高
方法小结:
1、简单的描述性统计
无法没有提供直接的因果关系
2、AB test
最有效——可以最大限度保证样本的随机性
弊端:无法大规模在现有产品上进行实验,实验时间少,需要考虑时间成本,人力成本,样本流量
实例:
低渗透率过低时怎么办——实验分流后,受策略影响的用户只占很少的比例,ab实验结果往往不显著
方法:
筛选使用功能的人,看一下他们的分布情况,如果依然符合正态分布或者近似正态分布,那么可以接着用ab实验的方法,即实验组筛选使用功能的人,两个base组做一下随机采样,按照前面提到的ab实验标准流程作分析即可
如果使用功能的人不符合正态分布,那么我们需要进行matching,通过匹配控制变量,从base组中找到与使用功能相似的人,然后进行did分析
转自蓝境数据微信公众号,仅作学习交流,如有侵权,请联系本站删除!