我一直认为大教堂向无神论者展示了一种隐含的论点。类似的东西:上帝必须存在,否则人们建造这个会很疯狂:
这就是我对统计数据“控制”概念的感受。你经常读到这样的东西:
X 与 Y 相关联,控制 Z。
这些分析无处不在,我们关心的是X是否导致Y 。每个人都知道相关性并不意味着因果关系。但是在这里我们控制了Z 。所以也许没关系?每个人似乎都表现得很好。如果这些分析不起作用,那么每个人都会疯掉。所以他们必须工作,对吧?
“控制”某事是什么意思?论文喜欢使用可怕的术语,例如Cox Proportional-Hazards Model和Linear Structural Causal Equations 。这些隐藏了一个令人尴尬的现实,即控制某事的全部意义在于将变量添加到回归中。
假设您想知道饮酒是否会使人变胖。所以你去找一些人,测量他们的体重和喝了多少。
重量(公斤) | 酒精(每天饮酒) |
---|---|
95 | 0 |
68 | 0.5 |
61 | 1.5 |
81 | 2 |
71 | 3 |
(当然,你不能仅仅从五个数据点得出任何结论——我只是想让事情变得简单。)
如果你眯着眼睛,趋势似乎是更重的饮酒者会更轻一些。您可以通过拟合回归来确认这一点:您寻找常数a和b使得
(重量) ≈ a + b × (酒精)。
您需要最佳近似值,即最小化平均平方误差的常数。如果您对上述数据集执行此操作,您将获得
(重量) ≈ 89.6 – 4.5 × (酒精)。
酒精前面的常数是负数。在统计术语中,您可以说:
体重与酒精呈负相关。
对此的幼稚解释是饮酒会使你变瘦。如果是真的,那将是非常奇怪的。
但是你有一个想法:可能是那些喝得少的人也倾向于吃得更多。所以你打电话给每个人,问他们一天吃多少:
重量(公斤) | 酒精(每天饮酒) | 卡路里(千) |
---|---|---|
95 | 0 | 3.0 |
68 | 0.5 | 2.0 |
61 | 1.5 | 1.8 |
81 | 2 | 2.7 |
71 | 3 | 1.9 |
如果你对这个数据集进行回归,你会得到
(重量) ≈ 20.1 + 0.3 × (酒精) + 24.0 × (卡路里)。
现在酒精前面的常数是正数。或者,用统计学术语来说:
体重与酒精呈正相关,控制卡路里。
而已。你“控制”了卡路里。在几乎所有情况下,这就是控制某事的含义。根据分析的不同,细节会有所不同,但最终只是将一个新变量粘贴到某个地方的线性近似中。
那么,这行得通吗?这是判断酒精是否让你更胖的好方法吗?
不是真的,不。
问题1:兄弟加油
首先,只需使用您的直觉。看起来你可以通过做一些小回归来发现因果关系吗?
想想以前的数据集。体重、酒精和卡路里之间有许多可能的关系。也许更重会让人们喝得更多。也许喝酒会使人吃得更多。也许酒精和食物直接不起作用,但它们与运动相关,这实际上是决定人多胖的因素。也许真正的关系是非线性的,所有变量在反馈回路中相互影响。这些关系中的任何一个都可以产生先前的数据。
人们似乎认为有一些秘密数学意味着你不需要担心这些东西。否则,每个人都在用这些分析做什么?
没有秘密的数学。人们在统计数据方面犯的最大错误是不相信自己的直觉。实际上,一旦你做了所有的数学运算,那些看起来像是问题的事情实际上都是问题。如果有的话,数学只会出现更多需要担心的事情。
但这怎么可能?毕竟,这些方法有仔细的正式理由。有证据!和Borel 空间!这些肯定没有错吗?
他们没有错。但是您必须了解这些证明是如何绕过难题的:粗略地说,它们假设问题不存在。
问题2:反向因果关系
以一群外星人为例,他们的饮酒量和肥胖程度不同。其他都不重要:他们不吃也不运动,他们都有相同的基因,等等。现在假设饮酒和体重呈正相关。有三种可能的解释:
首先,也许饮酒会使他们变得更重。 (也许是因为酒精含有卡路里。)我们可以把它画成
酒精→重量。
其次,也许更重会导致他们喝得更多。 (也许是因为体重较重的人的荷尔蒙变化使酒的味道更好。)我们可以把它画成
酒精 ← 重量。
第三,也许饮酒和体重处于某种复杂的反馈循环中。 (也许是因为上述两种情况都发生了。)我们可以把它画成
酒精 ↔ 重量。
您如何使用观察数据来确定哪种解释是正确的?
答案很简单:你没有。来自这些因果模型之一的任何数据也可能来自其他任何一个。差异是完全看不见的。唯一的判断方法是通过干预——让人们喝得更多,看看会发生什么。
要根据观察数据估计因果关系,首先要假设哪些变量会导致其他变量发生变化,然后使用数据来确定相互作用的强度。您假设箭头指向哪个方向,然后计算出箭头的大小。
我知道这看起来很奇怪——箭头的方向不是核心问题吗?你会认为这里有一些警告,但实际上并没有。人们假设 X 导致 Y,然后使用该假设来计算 X 导致 Y 的强度。如果该假设是错误的,分析会很高兴地给你一个错误的答案。
问题 3:依赖特征
如果你说“喝酒让人变胖”,那是什么意思?这里有两个选项:
- 如果人们喝得更多但不改变他们的饮食方式,他们会更胖。
- 如果人们喝得更多,并且由于喝得更多而改变了他们的饮食方式,那么他们会更胖。
这些不一样!
假设吃让你更胖,吃让你喝更多,但喝酒对体重没有直接影响:
酒精 ← 食物 → 体重
如果你进行了一项随机对照试验,并让人们喝不同的量,那么对体重没有影响。然而,酒精和体重是相关的,因为食物是一个混杂因素。你可以通过控制食物来解决这个问题,这会使酒精和体重无关。在这里,控制工作。
但也许因果模型不同。也许酒精对体重没有直接影响,但酒精会让你吃得更多,吃得更多会让你更胖:
酒精 → 食物 → 体重
现在,一项随机对照试验表明饮酒确实会使人变胖。但就像之前的因果模型一样,酒精和体重是相关的,但如果你控制食物,则不相关。
懂吗?这是一张小桌子:
因果模型 | 酒精 ← 食物 → 体重 | 酒精 → 食物 → 体重 |
酒精会导致 RCT 中的肥胖? | 不 | 是的 |
酒精与肥胖有关? | 是的 | 是的 |
酒精与肥胖有关,控制食物? | 不 | 不 |
在这两种情况下,RCT 会给你完全不同的结果。但是酒精总是与肥胖有关,一旦你控制了食物,就永远不会相关。
为什么?因为在观测数据中两个因果模型之间没有明显的差异。来自一个因果模型的任何数据集都可以很容易地来自另一个因果模型。你只需要猜测哪个是对的,你最好不要错。
问题 4:更多的依赖特征
它变得更糟。在人类中,酒精和食物很可能在反馈回路中相互影响。很可能两者都对体重有直接影响,导致了这个因果模型:
酒精 ↔ 食物
↘↙
重量
在一项随机对照试验中,饮酒将再次显示出对体重的影响。但是观察数据中酒精和食物之间的关联又如何呢?在不控制食物的情况下,由于食物是一种混杂因素,这种关联将比 RCT 中的更强。但如果你控制食物,这种关联会比 RCT弱,因为控制阻止了酒精通过食物对体重的间接影响。
因果模型 | 酒精 ↔ 食物 ↘↙ 重量 |
酒精会导致 RCT 中的肥胖? | 是的 |
酒精与肥胖有关? | 是(但比 RCT 更强) |
酒精与肥胖有关,控制食物? | 是(但比 RCT 弱) |
无论哪种方式,你都搞砸了。让它正确的唯一方法是以某种方式准确地猜测酒精 ↔ 食物关联的哪一部分是由于因果关系向任一方向流动。这在数据中是不可见的。祝你好运。
但是等等,还有更多!也许体重也会影响人们的消费,所以一切都会导致其他一切:
酒精 ↔ 食物
⤡⤢
重量
放弃所有遇到这种因果模型的希望。
问题5:其他一切
到目前为止,我关注的是“控制”最严重的问题:它只有在影响以简单的单向方式流动并且你已经知道哪个方向时才有效。但是还有很多其他问题:
缺失的原因。模型中可能缺少重要的变量。有时这些是您无法衡量的事情(例如 EXERCISE)。有时这些是空灵的和无法衡量的(比如对健康生活方式的心理承诺)。
线性。拟合线性模型假设交互是线性的。通常,通过测试添加交互或二次项会发生什么来解决这个问题的尝试很微弱。但也不能保证二次模型就足够了。人们经常做一些奇怪的事情,比如计算二次项的 p 值,观察到 p 值很大,因此得出不需要二次项的结论。 (这不是 p 值的工作方式。)
编码。一切都取决于您如何编码变量。就像,当人们说他们控制“教育”时,他们实际上所做的是选择一些有限的类别,例如(高中或以下)/(某些大学)/(4 年或以上)。但是你可以用不同的方式分解这些东西,当你这样做时,结果往往会改变。
嘈杂的控制。人们可能会说他们控制“饮食”。但他们实际控制的是“在接受调查的 5 天内,人们声称吃了多少”。如果他们不记得,或者他们撒谎,或者那些日子不寻常,会发生什么?好吧,在纯噪声的限制下,回归只会忽略控制变量,相当于根本不控制。在实践中,效果通常在中间的某个地方,这意味着事情只是部分受到控制。令人惊讶的是,很少有论文表现出对这个问题的任何认识。
协会双重思考
当然,也有观察研究的地方。对于我们关心的许多事情,真正的实验是不可能的——我们不能运行随机对照试验,让人们在他们的一生中呼吸不同量的二氧化氮或颗粒状空气污染。因此,我们必须满足于观察估计,尽管它们并不完美。
当然,我指出的所有问题都是众所周知的。这就是为什么期刊不会让你进行观察性研究,然后说你已经证明了任何有关因果关系的东西。
那么会发生什么?好吧,很多人接受这一点。他们尽可能坚持 RCT。 (只需尝试通过观察数据获得批准的药物!)当 RCT 无法完成时,他们会尝试使用自然实验或工具变量作为近似值。即使那是不可能的,他们也会使用观察数据,但会沉迷于假设并以非常谦虚的态度对待结论。
但许多人似乎不接受关联和控制的严格限制。有时这些人会形成整个科学子社区。他们互相培训,接受对方的论文,并在某人的论文发表时给记者引用。他们是这样做的:
- 获取他们可以测量的任何变量,并将它们放入现成的统计包中。
- 不要担心(或者,也许,理解)所有正在做出的假设。当然,不要讨论它们。
- 写论文时,永远不要说“原因”。而是使用“相关”或“风险因素”之类的词,就像它们的意思是“原因”一样。
例如,以论文人工甜味剂和癌症风险:NutriNet-Santé 基于人群的队列研究的结果为例。以下是一些报价:
在这个由 102,865 名法国成年人组成的大型队列中,人造甜味剂 […] 与总体癌症风险增加有关
我们的研究结果不支持使用人造甜味剂作为食品或饮料中糖的安全替代品,并提供重要且新颖的信息来解决有关其潜在不利健康影响的争议。
这是新闻稿中的一个——被所有常见的copypasta地方挑选出来,并且可能被公众阅读。
这项大规模的前瞻性研究表明,在法国和世界各地的许多食品和饮料中使用的人造甜味剂可能会增加患癌症的风险因素。
这里正在玩什么游戏?我们真的应该假装目标只是让人们认为人造甜味剂会导致癌症吗?
我认为这是可耻的。如果你认为你已经展示了因果关系,那么明确地说出来。鼓起勇气为你认为正确的事辩解。放弃这种弯曲词的策略,这样你就可以表现得像你已经证明了因果关系,但不必为你的结论辩护。
这是不好的。但我确实对作者有些同情。如果你认识的每个人都在歪曲这样的词,很自然地认为这是使用这些词的正常方式。如果你认识的每个人都在做这样的研究,很自然地认为这是做研究的正确方法。因为如果不是……
现在,我喜欢大教堂。除了简单的漂亮之外,它们也是对人类能动性的庆祝,展示了敬业的人们可以在几代人中取得的成就。误导性的观察性研究没有那么明显的好处。