当前位置: 首页 » 资讯 » 科技头条 » 正文

预测模型真的能"顺带"发现因果关系吗?

IP属地 中国·北京 科技行者 时间:2026-05-18 22:16:12


这项研究由Ankit Hemant Lade、Sai Krishna Jasti、Indar Kumar及Aman Chadha(注:Aman Chadha在Google DeepMind任职,但此研究为其职务外独立完成)联合发起,论文于2026年5月9日发布于预印本平台arXiv,编号为arXiv:2605.09169v1,分类为计算机科学·机器学习领域。感兴趣的读者可通过该编号检索原文。

一、一个令人心动的"顺手牵羊"假设

科学研究里,有一类让人格外兴奋的发现,叫做"一石二鸟"——你明明只是在做一件事,却意外收获了另一件完全不同的成果。这篇论文的起点,正是这样一个令人心动的可能性。

在时间序列分析领域,有一类非常重要的任务叫做"因果发现"——简单来说,就是从大量随时间变化的数据里,找出哪个变量真正"影响"了哪个变量,而不仅仅是恰好一起变化。举个生活里的例子:每天早上公鸡打鸣之后太阳升起,但公鸡叫并不是太阳升起的原因。把这类"假关联"和真正的因果关系区分开,是一件非常困难但极其重要的事。

为了做好因果发现,科学家们已经开发了一整套专门的工具,比如PCMCI、DYNOTEARS等,这些工具就像专门训练的侦探,被设计来专门寻找数据背后的因果线索。

然而,这项研究的出发点在于:有没有可能,一个完全没有"侦探任务"的普通预测模型,在学习如何预测下一时刻数据的过程中,"顺手"就把因果结构给摸清楚了?这就好比一个厨师,明明只是在练习切菜,结果练着练着,把整个食材的内部结构都搞懂了。

这个假设如果成立,意义将非常深远:市面上所有已经训练好的时间序列预测模型,都可以直接拿来做因果分析,完全不需要重新训练专门的因果发现工具。

具体来说,研究团队关注的是一类叫做"Mamba"的状态空间模型(可以理解为一种擅长处理时间序列的神经网络)。他们发现,当这个模型只用来预测下一个时间步的数据时,可以从模型的"输入权重矩阵"和"输出权重矩阵"里提取出一个叫做S的评分矩阵:S等于输出权重乘以输入权重的绝对值。这个S矩阵里的每个数字,被解读为"某个变量对另一个变量的影响强度",也就是对因果图的一种估计。

早期实验的结果看起来相当振奋人心。S矩阵在合成数据集(即人工生成的、已知真实因果结构的数据)上,表现出极高的准确率。而且,当数据里加入"干预实验"的信息时(就像科学家主动去改变某个变量,而不只是被动观察),模型的因果发现能力还会显著提升,统计显著性达到了p小于十的负五次方——这在科学界意味着"几乎不可能是巧合"的程度。

然而,研究团队没有就此打住。他们决定对这个令人兴奋的结论进行系统性的"压力测试"——用五种不同的方式,试图找出它的破绽。结果,这些破绽还真的一一被找到了。

二、侦探开始审讯:五个角度的系统性质疑

整个"破案"过程可以用一个侦探审讯的框架来理解。研究团队把那个看似漂亮的"顺手牵羊"假设当作嫌疑人,从五个不同方向发起盘问,看看它的故事是否前后一致。

第一个问题是:这个现象真的是Mamba这种特殊架构独有的,还是换个普通模型也一样?

为了回答这个问题,研究团队设计了一场公平的"选拔赛"——在严格控制模型参数量相同、训练种子相同的条件下,让五种模型同台竞技:线性瓶颈模型(最简单的线性变换)、Mamba状态空间模型、Transformer(目前最流行的大模型架构之一)、LSTM(经典的循环神经网络)以及普通的MLP(多层感知机)。比赛在六种不同的合成数据集上进行,每种数据集重复十次以减少随机误差。

审讯结果让人大跌眼镜。在几乎所有数据集上,那个最简单的线性瓶颈模型,表现和Mamba一样好,甚至更好。具体数字是这样的:在一个叫做"VAR(1)-random K=10"的数据集上,Mamba的准确率是0.93,而线性瓶颈是0.99;在一个叫做"Lorenz K=3"的数据集上,Mamba只有0.52,线性瓶颈却达到了0.94。

这意味着什么?那个被以为是Mamba"独特能力"的现象,其实不过是一个极其简单的线性矩阵乘法就能实现的效果。Mamba用了更多的参数,付出了更高的计算代价,最终得到了和最简单模型一样甚至更差的结果。换句话说,"顺手牵羊"的故事版本一被推翻:这根本不是什么特殊架构的神奇能力,而是最基础的线性回归在起作用。

第二个质疑是:即便这个方法对所有架构都适用,它在图恢复方面,比专门为此设计的方法强吗?

研究团队设计了一个覆盖了48种不同条件的压力测试网格,变量个数K分别取10和20,时间序列长度T分别取150和300,最大滞后阶数设为8。他们把瓶颈方法的表现,和四种经过精心调参的基线方法(普通最小二乘法OLS、岭回归Ridge、Lasso稀疏回归、简化秩回归RRR)进行了全面对比。

审讯结果同样不乐观。在48种图恢复的场景里,瓶颈方法只在其中6种(也就是12%)里赢了最好的基线方法,而在预测准确率上则是0%。最厉害的竞争对手是Lasso,它在48种情况里的38种里都是图恢复的冠军,在全部48种情况里都是预测准确率的冠军。而且随着变量数量增加,差距还会拉大:当K增加到20时,Lasso在某类数据上能达到0.98的准确率,瓶颈方法只有0.73。

这个结果的深刻含义在于:原本的假设是"强大的预测能力会顺带带来因果发现能力",但实验证明,这个瓶颈方法既不是更好的预测器,也不是更好的因果发现器。两者都不是,那"顺手牵羊"的逻辑从何谈起?

三、真实数据上的对决:当"裁判"本身出了问题

第三个质疑把战场从人工合成的数据移到了真实世界的数据上,而这里的发现,牵扯出一个更深层的方法论问题。

研究团队选取了三个真实数据集,并有意识地按照"因果关系的可信度"从低到高排列:第一个是NOAA气候指数数据集,包含1962年到2024年的六个月度气候指标(ENSO厄尔尼诺指数、NAO北大西洋涛动、PDO太平洋十年涛动、AMO大西洋多年代际振荡、SOI南方涛动指数、PNA太平洋-北美遥相关),共757个月的数据,其中只有三条被文献确认的因果边;第二个是十个SPDR行业ETF基金的日度对数收益率数据,涵盖2018年6月至2025年12月,共1893个交易日,包含六条被当作"软标签"(即不是板上钉钉,但有一定依据)的因果边;第三个是Lorenz-96系统,这是一个来自大气科学的标准混沌动力学模型,由物理方程完全决定,因此因果结构是精确已知的,共有90条明确的因果边。

在因果结构最清晰的Lorenz-96上,结果是这样的:PCMCI以0.986的准确率排名第一,DYNOTEARS以0.983排名第二,双变量Granger检验以0.979排名第三,VAR-LiNGAM以0.968排名第四,调优Lasso和调优岭回归都以0.974并列第五,而带滞后的瓶颈方法只有0.916,Mamba权重投影方法则以0.722垫底。

换句话说,在唯一一个答案确定、没有争议的真实基准测试上,所有经典方法和调优的线性方法都全面领先,Mamba瓶颈方法是表现最差的。

然而,更有趣的故事发生在气候数据集上。在最初的实验里,研究团队把ENSO(厄尔尼诺指数)和SOI(南方涛动指数)之间的关系也算作了因果边,这样共有六条因果边。在这个设置下,双变量Granger检验排名第一,准确率0.819;带滞后的瓶颈排名第二,0.813;调优Lasso第三,0.799。

但问题在于——ENSO和SOI根本就不是两个独立的现象!SOI是通过测量气压差来定义的,而ENSO是通过测量海面温度异常来定义的,二者本质上是同一个物理现象的两种不同测量方式,只是符号相反。把它们之间的"关联"算作因果发现的得分,就好比在一场"辨别真假货币"的比赛里,把"发现正面和背面是同一枚硬币"算作答对题目——这对所有擅长检测线性相关的方法(比如Granger检验和普通线性回归)都是送分题,因为这两个序列本来就高度相关。

当研究团队把这两条"定义性关联"从因果边里移除,只保留三条真正意义上的因果边之后,整个排行榜被彻底洗牌了:Granger检验从第一名直接跌到最后一名(0.819→0.605),而Mamba权重投影方法却从中游跃升到第一名(0.792→0.864)。

这个戏剧性的翻转揭示了一个非常重要的教训:在因果关系标注稀少、且存在"定义性耦合"(即两个序列本质上是同一事物的不同测量)的真实数据集上,排名结果极其不稳定,任何声称"某方法在此数据集上最优"的结论都要小心甄别。正因如此,研究团队在发布基准测试时,为每一条正向标签都附上了一张"边的来源卡片",注明这条因果边是真正的因果关系、定义性关联、代理关系还是软标签,让未来的研究者能清楚地看到每张牌的底色。

四、"干预实验"的诱人效果,背后是什么在起作用?

第四个质疑针对的是最初那个最令人兴奋的发现——干预数据使方法效果大幅提升,p值小于十的负五次方。这个发现现在受到了严格的审查。

"干预实验"是什么意思?在观察性数据里,我们只是被动地记录数据,比如观察气温和冰淇淋销量是否同时变化。而在干预实验里,我们主动去"操纵"某个变量,比如人为地把某地气温升高(假设我们能做到的话),然后看看冰淇淋销量是否随之变化。这种主动操纵能帮助我们区分真正的因果关系和单纯的关联。

原本的实验比较了两种情况下的因果发现准确率:纯粹的观察数据,以及观察数据加干预数据的混合。结果发现,加入干预数据之后,准确率显著提升,而且这种提升对瓶颈方法的帮助远大于对Lasso的帮助。听起来很有道理,对不对?

但研究团队发现了一个隐藏的问题:这两种情况下,数据量是不一样的。观察数据有T个时间点,混合数据有T加上K乘以T_int个时间点(多了K条干预序列),自然数据更多,学得更好。这就像比较两个学生的考试成绩,一个复习了100小时,另一个复习了150小时,然后宣布"使用某种复习方法的学生成绩更好"——问题是,也许只是因为他复习时间更长。

为了控制这个变量,研究团队引入了第三个对照组:一个数据量和混合组完全相同、但全部来自观察数据的"大号观察组"。结果,当控制了数据量之后,瓶颈方法从干预数据中获得的额外好处,从原来的显著效果缩水到了只有+0.03到+0.05的准确率提升——原来那个令人震惊的效果,大约60%是数据量差异造成的幻觉。

接下来,研究团队还发现了第二个问题:原来实验里的"干预",并不是真正意义上的do干预。真正的do干预(do(X=c))是指把某个变量强制固定在一个常数值c上,斩断它与所有其他因素的联系。而原来实验里用的是"随机强迫"——在每一个时间步,把一个随机噪声乘上缩放系数加到变量上去。这更像是给变量增加了一层随机抖动,而不是真正地"控制"它。

当研究团队把干预方式替换为真正的do干预时,12种设置里只有3种出现了显著效果;换成"软噪声添加"时,12种里有6种显著。只有原来那种随机强迫方式,才能稳定地产生显著效果。

这个结果的解释,研究团队认为是这样的:随机强迫实际上在数据里引入了"被破坏的目标行",也就是说,那些被强迫干预的时间步,其因变量的值变得嘈杂而不可靠。瓶颈方法因为使用了共享的输出矩阵,能够在某种程度上抵抗这种目标噪声,而Lasso这类"逐方程回归"的方法则在这种噪声下表现大幅下滑。所以,瓶颈方法的优势不是来自更好地利用了因果信息,而是来自对被污染数据的更强抵抗力。

五、最后一击:连这点残余优势,也不是瓶颈方法特有的

第五个质疑是整个系列里最决定性的一个。研究团队问:就算经过了上面所有控制之后,干预实验里瓶颈方法还有一点小小的残余优势(+0.026到+0.054的准确率提升),这真的是瓶颈方法独有的能力吗?

为了回答这个问题,研究团队把经典的双变量Granger检验和PCMCI也加入了同样的对照实验。结果令人瞠目:双变量Granger检验在同样的设置下,不仅也有显著的准确率提升,而且效果还更大——在K=20的情况下,Granger的提升是+0.040,在K=30时达到了+0.095,均显著高于瓶颈方法。

相反,Lasso在这种设置下则独自"失灵"了,准确率大幅下滑。研究团队的解释与前面一致:Granger检验和瓶颈方法都是通过整合所有变量的信息来估计因果关系的(Granger用的是多元回归,瓶颈用的是共享矩阵),所以对目标行被污染的数据有一定的抵抗力;而Lasso是逐个方程地拟合,一旦某个方程的目标被污染,那个方程的估计就直接垮掉了。

所以,那个残余的干预优势根本不是"瓶颈方法挖掘因果结构"的证明,而是"对目标污染具有鲁棒性的方法普遍受益"的证明,而且一个古老的经典方法比新颖的瓶颈方法体现得还要明显。

六、经历了五轮审讯之后,还剩下什么?

五轮质疑打下来,原来那个令人兴奋的假设已经遍体鳞伤。但研究团队并没有什么都没发现——他们还是找到了一些真实的、有价值的东西,只是需要更精确地定位。

第一个保留下来的发现是"温和非线性配置"。在一个特定条件下(变量数K=20、时间长度T=300、数据里含有0.3强度的非线性成分),瓶颈方法在87%的参数设置组合里,都能打败最好的调优基线方法,平均准确率提升了+0.121。但这个结论有严格的边界条件:当非线性程度增加到0.6或1.0时,两种方法都同等失效;当非线性为零时,Lasso反而更好。研究团队诚实地把这个发现标注为"一个特定配置下的结论"而非"一种普遍规律",因为他们还没有在不同的K和T组合下验证它的泛化性。

第二个保留的发现是"样本效率"。当变量数K达到20或30时,随着观察数据量的增加,瓶颈方法的准确率提升幅度比Lasso高出约0.07。这不是巨大的优势,但在采集更多数据代价较低的场景下,这一点差距也许有其实用价值。

第三个保留的发现是"目标污染鲁棒性"。前面已经解释过了:瓶颈方法的共享输出矩阵在数据存在随机扰动时,比逐方程回归的方法更稳健。但这是一个关于可靠性的发现,不是关于因果发现能力的发现。

研究团队明确表示:这三个发现是对该方法特性的"描述性定性",而不是将其推荐为因果发现工具的理由。

七、从这场"拆穿"实验里,我们能学到什么?

除了对具体方法的评价,这项研究本身作为一个"如何做科学"的案例,也有值得品味的地方。

研究团队从这次经历里总结出了几条硬经验。第一条是关于控制组的设计:增加重复实验次数(从5个种子增加到20个种子)并不能发现样本量造成的混淆效应,因为增加种子只是在同一个有缺陷的实验设计上做得更精确;而只有增加一个样本量匹配的对照组,才能揭示那个隐藏的混淆变量。这提醒研究者,统计显著性不能替代实验设计的合理性。

第二条经验是关于干预语义的明确性:在实验开始之前,就应该把"干预"的精确操作写下来,并说清楚为什么这种操作算作标准的do干预。"随机强迫"和"常数固定"在数学上是完全不同的操作,但如果不预先约定,很容易在事后混淆。

第三条经验是关于对照基线的选择:在评估一个"神经网络方法"的干预效果时,只拿其他神经网络方法作对照是不够的,还必须包含至少一个经典因果发现方法作为参照——否则就会误以为自己看到的是新方法的特殊能力,而不是一种普遍现象。

第四条经验是关于真实数据基准测试的脆弱性:在标签数量极少且存在"定义性关联"的数据集上,删除或保留某两条边,就能让排名完全颠倒。在这类数据上声称"某方法最优"之前,必须公开说明哪些边被包含、是否存在本质上相同的变量对、以及去掉可疑边之后排名如何变化。研究团队为此在发布的代码库中,为每个真实数据集都附上了详细的边来源说明文档。

说到底,这项研究的核心价值,也许不在于发现了什么新东西,而在于示范了"如何严谨地质疑一个看似成立的结论"。那五个质疑角度——架构是否特殊、是否优于简单基线、在清晰基准上的真实表现、干预效果的真正来源、以及该效果是否方法特有——构成了一套可以被复用的检验框架。研究团队把这套框架连同所有实验代码、数据加载器、边来源说明卡片、固定随机种子、依赖项锁定文件、Docker容器配置,以及一个可以用单行命令`make all`完整复现所有实验并重新生成论文PDF的自动化流程,一并公开发布在GitHub上(用户名ankitlade12的ssm-causal仓库)。他们希望未来任何声称"某神经网络方法能发现因果结构"的论文,都能在发表前预先通过这五个关卡的检验。

归根结底,预测瓶颈方法并没有因为"顺手"而获得免费的因果发现能力。因果发现这件事,仍然是一门需要专门设计和仔细验证的学问,而不是任何强大预测器的副产品。这或许让人有些失望,但这种清醒的认知,比一个漂亮却站不住脚的结论,要有价值得多。

Q&A

Q1:Mamba状态空间模型的权重矩阵乘积S为什么一开始看起来能反映因果结构?

A:Mamba模型的输入权重矩阵Win负责把多个变量映射到隐藏空间,输出权重矩阵Wout则把隐藏空间映射回各个变量的预测值。二者相乘得到的S矩阵,本质上是在做一种低秩的"哪个输入变量对哪个输出变量贡献大"的估计,这和Granger因果检验的思路非常相近。在简单的线性合成数据(如VAR模型)上,这种估计恰好能捕捉到真实的因果边,所以初期结果看起来很好。但研究证明,同样简单的线性瓶颈方法就能做到同等甚至更好的效果,说明这不是Mamba的特殊能力,而是线性矩阵估计的基本性质。

Q2:Lorenz-96是什么样的数据集,为什么它被当作最可靠的基准?

A:Lorenz-96是由气象学家Edward Lorenz在1996年提出的一个标准混沌动力学方程系统,常用来模拟大气中的湍流。它的每个变量的"父节点"(即影响它的其他变量)由方程直接决定,因此因果结构是100%已知且无歧义的。在这篇论文里,研究团队用K=10个变量、F=10的强迫参数、四阶Runge-Kutta积分法生成了1500个时间步的数据,其中共有90条真实因果边。这种"答案完全确定"的特性,使它成为评估因果发现方法最公平的基准之一。

Q3:"do干预"和"随机强迫"在实验上有什么本质区别,为什么区别这么重要?

A:do干预(do(X=c))是指把某个变量强制固定为常数c,完全切断它受其他变量影响的路径,这是因果推断理论里最标准的干预形式。随机强迫则是在每个时间步给变量加上一个独立随机噪声,变量仍然随时间变化,只是被额外"摇晃"了一下。二者的区别在于:do干预能真正斩断变量间的依赖,理论上能提供最强的因果识别信号;随机强迫则主要是在数据里引入额外的噪声,更多地是在测试方法对"被污染的目标行"的容忍度,而不是对因果结构的利用能力。这项研究发现,瓶颈方法在随机强迫下的优势,实质上是抗噪能力而非因果理解能力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。