预测模型真的能"顺带"发现因果关系吗？

IP属地中国·北京 科技行者 时间：2026-05-18 22:16:12

这项研究由Ankit Hemant Lade、Sai Krishna Jasti、Indar Kumar及Aman Chadha（注：Aman Chadha在Google DeepMind任职，但此研究为其职务外独立完成）联合发起，论文于2026年5月9日发布于预印本平台arXiv，编号为arXiv:2605.09169v1，分类为计算机科学·机器学习领域。感兴趣的读者可通过该编号检索原文。
一、一个令人心动的"顺手牵羊"假设
科学研究里，有一类让人格外兴奋的发现，叫做"一石二鸟"——你明明只是在做一件事，却意外收获了另一件完全不同的成果。这篇论文的起点，正是这样一个令人心动的可能性。
在时间序列分析领域，有一类非常重要的任务叫做"因果发现"——简单来说，就是从大量随时间变化的数据里，找出哪个变量真正"影响"了哪个变量，而不仅仅是恰好一起变化。举个生活里的例子：每天早上公鸡打鸣之后太阳升起，但公鸡叫并不是太阳升起的原因。把这类"假关联"和真正的因果关系区分开，是一件非常困难但极其重要的事。
为了做好因果发现，科学家们已经开发了一整套专门的工具，比如PCMCI、DYNOTEARS等，这些工具就像专门训练的侦探，被设计来专门寻找数据背后的因果线索。
然而，这项研究的出发点在于：有没有可能，一个完全没有"侦探任务"的普通预测模型，在学习如何预测下一时刻数据的过程中，"顺手"就把因果结构给摸清楚了？这就好比一个厨师，明明只是在练习切菜，结果练着练着，把整个食材的内部结构都搞懂了。
这个假设如果成立，意义将非常深远：市面上所有已经训练好的时间序列预测模型，都可以直接拿来做因果分析，完全不需要重新训练专门的因果发现工具。
具体来说，研究团队关注的是一类叫做"Mamba"的状态空间模型（可以理解为一种擅长处理时间序列的神经网络）。他们发现，当这个模型只用来预测下一个时间步的数据时，可以从模型的"输入权重矩阵"和"输出权重矩阵"里提取出一个叫做S的评分矩阵：S等于输出权重乘以输入权重的绝对值。这个S矩阵里的每个数字，被解读为"某个变量对另一个变量的影响强度"，也就是对因果图的一种估计。
早期实验的结果看起来相当振奋人心。S矩阵在合成数据集（即人工生成的、已知真实因果结构的数据）上，表现出极高的准确率。而且，当数据里加入"干预实验"的信息时（就像科学家主动去改变某个变量，而不只是被动观察），模型的因果发现能力还会显著提升，统计显著性达到了p小于十的负五次方——这在科学界意味着"几乎不可能是巧合"的程度。
然而，研究团队没有就此打住。他们决定对这个令人兴奋的结论进行系统性的"压力测试"——用五种不同的方式，试图找出它的破绽。结果，这些破绽还真的一一被找到了。
二、侦探开始审讯：五个角度的系统性质疑
整个"破案"过程可以用一个侦探审讯的框架来理解。研究团队把那个看似漂亮的"顺手牵羊"假设当作嫌疑人，从五个不同方向发起盘问，看看它的故事是否前后一致。
第一个问题是：这个现象真的是Mamba这种特殊架构独有的，还是换个普通模型也一样？
为了回答这个问题，研究团队设计了一场公平的"选拔赛"——在严格控制模型参数量相同、训练种子相同的条件下，让五种模型同台竞技：线性瓶颈模型（最简单的线性变换）、Mamba状态空间模型、Transformer（目前最流行的大模型架构之一）、LSTM（经典的循环神经网络）以及普通的MLP（多层感知机）。比赛在六种不同的合成数据集上进行，每种数据集重复十次以减少随机误差。
审讯结果让人大跌眼镜。在几乎所有数据集上，那个最简单的线性瓶颈模型，表现和Mamba一样好，甚至更好。具体数字是这样的：在一个叫做"VAR(1)-random K=10"的数据集上，Mamba的准确率是0.93，而线性瓶颈是0.99；在一个叫做"Lorenz K=3"的数据集上，Mamba只有0.52，线性瓶颈却达到了0.94。
这意味着什么？那个被以为是Mamba"独特能力"的现象，其实不过是一个极其简单的线性矩阵乘法就能实现的效果。Mamba用了更多的参数，付出了更高的计算代价，最终得到了和最简单模型一样甚至更差的结果。换句话说，"顺手牵羊"的故事版本一被推翻：这根本不是什么特殊架构的神奇能力，而是最基础的线性回归在起作用。
第二个质疑是：即便这个方法对所有架构都适用，它在图恢复方面，比专门为此设计的方法强吗？
研究团队设计了一个覆盖了48种不同条件的压力测试网格，变量个数K分别取10和20，时间序列长度T分别取150和300，最大滞后阶数设为8。他们把瓶颈方法的表现，和四种经过精心调参的基线方法（普通最小二乘法OLS、岭回归Ridge、Lasso稀疏回归、简化秩回归RRR）进行了全面对比。
审讯结果同样不乐观。在48种图恢复的场景里，瓶颈方法只在其中6种（也就是12%）里赢了最好的基线方法，而在预测准确率上则是0%。最厉害的竞争对手是Lasso，它在48种情况里的38种里都是图恢复的冠军，在全部48种情况里都是预测准确率的冠军。而且随着变量数量增加，差距还会拉大：当K增加到20时，Lasso在某类数据上能达到0.98的准确率，瓶颈方法只有0.73。
这个结果的深刻含义在于：原本的假设是"强大的预测能力会顺带带来因果发现能力"，但实验证明，这个瓶颈方法既不是更好的预测器，也不是更好的因果发现器。两者都不是，那"顺手牵羊"的逻辑从何谈起？
三、真实数据上的对决：当"裁判"本身出了问题
第三个质疑把战场从人工合成的数据移到了真实世界的数据上，而这里的发现，牵扯出一个更深层的方法论问题。
研究团队选取了三个真实数据集，并有意识地按照"因果关系的可信度"从低到高排列：第一个是NOAA气候指数数据集，包含1962年到2024年的六个月度气候指标（ENSO厄尔尼诺指数、NAO北大西洋涛动、PDO太平洋十年涛动、AMO大西洋多年代际振荡、SOI南方涛动指数、PNA太平洋-北美遥相关），共757个月的数据，其中只有三条被文献确认的因果边；第二个是十个SPDR行业ETF基金的日度对数收益率数据，涵盖2018年6月至2025年12月，共1893个交易日，包含六条被当作"软标签"（即不是板上钉钉，但有一定依据）的因果边；第三个是Lorenz-96系统，这是一个来自大气科学的标准混沌动力学模型，由物理方程完全决定，因此因果结构是精确已知的，共有90条明确的因果边。
在因果结构最清晰的Lorenz-96上，结果是这样的：PCMCI以0.986的准确率排名第一，DYNOTEARS以0.983排名第二，双变量Granger检验以0.979排名第三，VAR-LiNGAM以0.968排名第四，调优Lasso和调优岭回归都以0.974并列第五，而带滞后的瓶颈方法只有0.916，Mamba权重投影方法则以0.722垫底。
换句话说，在唯一一个答案确定、没有争议的真实基准测试上，所有经典方法和调优的线性方法都全面领先，Mamba瓶颈方法是表现最差的。
然而，更有趣的故事发生在气候数据集上。在最初的实验里，研究团队把ENSO（厄尔尼诺指数）和SOI（南方涛动指数）之间的关系也算作了因果边，这样共有六条因果边。在这个设置下，双变量Granger检验排名第一，准确率0.819；带滞后的瓶颈排名第二，0.813；调优Lasso第三，0.799。
但问题在于——ENSO和SOI根本就不是两个独立的现象！SOI是通过测量气压差来定义的，而ENSO是通过测量海面温度异常来定义的，二者本质上是同一个物理现象的两种不同测量方式，只是符号相反。把它们之间的"关联"算作因果发现的得分，就好比在一场"辨别真假货币"的比赛里，把"发现正面和背面是同一枚硬币"算作答对题目——这对所有擅长检测线性相关的方法（比如Granger检验和普通线性回归）都是送分题，因为这两个序列本来就高度相关。
当研究团队把这两条"定义性关联"从因果边里移除，只保留三条真正意义上的因果边之后，整个排行榜被彻底洗牌了：Granger检验从第一名直接跌到最后一名（0.819→0.605），而Mamba权重投影方法却从中游跃升到第一名（0.792→0.864）。
这个戏剧性的翻转揭示了一个非常重要的教训：在因果关系标注稀少、且存在"定义性耦合"（即两个序列本质上是同一事物的不同测量）的真实数据集上，排名结果极其不稳定，任何声称"某方法在此数据集上最优"的结论都要小心甄别。正因如此，研究团队在发布基准测试时，为每一条正向标签都附上了一张"边的来源卡片"，注明这条因果边是真正的因果关系、定义性关联、代理关系还是软标签，让未来的研究者能清楚地看到每张牌的底色。
四、"干预实验"的诱人效果，背后是什么在起作用？
第四个质疑针对的是最初那个最令人兴奋的发现——干预数据使方法效果大幅提升，p值小于十的负五次方。这个发现现在受到了严格的审查。
"干预实验"是什么意思？在观察性数据里，我们只是被动地记录数据，比如观察气温和冰淇淋销量是否同时变化。而在干预实验里，我们主动去"操纵"某个变量，比如人为地把某地气温升高（假设我们能做到的话），然后看看冰淇淋销量是否随之变化。这种主动操纵能帮助我们区分真正的因果关系和单纯的关联。
原本的实验比较了两种情况下的因果发现准确率：纯粹的观察数据，以及观察数据加干预数据的混合。结果发现，加入干预数据之后，准确率显著提升，而且这种提升对瓶颈方法的帮助远大于对Lasso的帮助。听起来很有道理，对不对？
但研究团队发现了一个隐藏的问题：这两种情况下，数据量是不一样的。观察数据有T个时间点，混合数据有T加上K乘以T_int个时间点（多了K条干预序列），自然数据更多，学得更好。这就像比较两个学生的考试成绩，一个复习了100小时，另一个复习了150小时，然后宣布"使用某种复习方法的学生成绩更好"——问题是，也许只是因为他复习时间更长。
为了控制这个变量，研究团队引入了第三个对照组：一个数据量和混合组完全相同、但全部来自观察数据的"大号观察组"。结果，当控制了数据量之后，瓶颈方法从干预数据中获得的额外好处，从原来的显著效果缩水到了只有+0.03到+0.05的准确率提升——原来那个令人震惊的效果，大约60%是数据量差异造成的幻觉。
接下来，研究团队还发现了第二个问题：原来实验里的"干预"，并不是真正意义上的do干预。真正的do干预（do(X=c)）是指把某个变量强制固定在一个常数值c上，斩断它与所有其他因素的联系。而原来实验里用的是"随机强迫"——在每一个时间步，把一个随机噪声乘上缩放系数加到变量上去。这更像是给变量增加了一层随机抖动，而不是真正地"控制"它。
当研究团队把干预方式替换为真正的do干预时，12种设置里只有3种出现了显著效果；换成"软噪声添加"时，12种里有6种显著。只有原来那种随机强迫方式，才能稳定地产生显著效果。
这个结果的解释，研究团队认为是这样的：随机强迫实际上在数据里引入了"被破坏的目标行"，也就是说，那些被强迫干预的时间步，其因变量的值变得嘈杂而不可靠。瓶颈方法因为使用了共享的输出矩阵，能够在某种程度上抵抗这种目标噪声，而Lasso这类"逐方程回归"的方法则在这种噪声下表现大幅下滑。所以，瓶颈方法的优势不是来自更好地利用了因果信息，而是来自对被污染数据的更强抵抗力。
五、最后一击：连这点残余优势，也不是瓶颈方法特有的
第五个质疑是整个系列里最决定性的一个。研究团队问：就算经过了上面所有控制之后，干预实验里瓶颈方法还有一点小小的残余优势（+0.026到+0.054的准确率提升），这真的是瓶颈方法独有的能力吗？
为了回答这个问题，研究团队把经典的双变量Granger检验和PCMCI也加入了同样的对照实验。结果令人瞠目：双变量Granger检验在同样的设置下，不仅也有显著的准确率提升，而且效果还更大——在K=20的情况下，Granger的提升是+0.040，在K=30时达到了+0.095，均显著高于瓶颈方法。
相反，Lasso在这种设置下则独自"失灵"了，准确率大幅下滑。研究团队的解释与前面一致：Granger检验和瓶颈方法都是通过整合所有变量的信息来估计因果关系的（Granger用的是多元回归，瓶颈用的是共享矩阵），所以对目标行被污染的数据有一定的抵抗力；而Lasso是逐个方程地拟合，一旦某个方程的目标被污染，那个方程的估计就直接垮掉了。
所以，那个残余的干预优势根本不是"瓶颈方法挖掘因果结构"的证明，而是"对目标污染具有鲁棒性的方法普遍受益"的证明，而且一个古老的经典方法比新颖的瓶颈方法体现得还要明显。
六、经历了五轮审讯之后，还剩下什么？
五轮质疑打下来，原来那个令人兴奋的假设已经遍体鳞伤。但研究团队并没有什么都没发现——他们还是找到了一些真实的、有价值的东西，只是需要更精确地定位。
第一个保留下来的发现是"温和非线性配置"。在一个特定条件下（变量数K=20、时间长度T=300、数据里含有0.3强度的非线性成分），瓶颈方法在87%的参数设置组合里，都能打败最好的调优基线方法，平均准确率提升了+0.121。但这个结论有严格的边界条件：当非线性程度增加到0.6或1.0时，两种方法都同等失效；当非线性为零时，Lasso反而更好。研究团队诚实地把这个发现标注为"一个特定配置下的结论"而非"一种普遍规律"，因为他们还没有在不同的K和T组合下验证它的泛化性。
第二个保留的发现是"样本效率"。当变量数K达到20或30时，随着观察数据量的增加，瓶颈方法的准确率提升幅度比Lasso高出约0.07。这不是巨大的优势，但在采集更多数据代价较低的场景下，这一点差距也许有其实用价值。
第三个保留的发现是"目标污染鲁棒性"。前面已经解释过了：瓶颈方法的共享输出矩阵在数据存在随机扰动时，比逐方程回归的方法更稳健。但这是一个关于可靠性的发现，不是关于因果发现能力的发现。
研究团队明确表示：这三个发现是对该方法特性的"描述性定性"，而不是将其推荐为因果发现工具的理由。
七、从这场"拆穿"实验里，我们能学到什么？
除了对具体方法的评价，这项研究本身作为一个"如何做科学"的案例，也有值得品味的地方。
研究团队从这次经历里总结出了几条硬经验。第一条是关于控制组的设计：增加重复实验次数（从5个种子增加到20个种子）并不能发现样本量造成的混淆效应，因为增加种子只是在同一个有缺陷的实验设计上做得更精确；而只有增加一个样本量匹配的对照组，才能揭示那个隐藏的混淆变量。这提醒研究者，统计显著性不能替代实验设计的合理性。
第二条经验是关于干预语义的明确性：在实验开始之前，就应该把"干预"的精确操作写下来，并说清楚为什么这种操作算作标准的do干预。"随机强迫"和"常数固定"在数学上是完全不同的操作，但如果不预先约定，很容易在事后混淆。
第三条经验是关于对照基线的选择：在评估一个"神经网络方法"的干预效果时，只拿其他神经网络方法作对照是不够的，还必须包含至少一个经典因果发现方法作为参照——否则就会误以为自己看到的是新方法的特殊能力，而不是一种普遍现象。
第四条经验是关于真实数据基准测试的脆弱性：在标签数量极少且存在"定义性关联"的数据集上，删除或保留某两条边，就能让排名完全颠倒。在这类数据上声称"某方法最优"之前，必须公开说明哪些边被包含、是否存在本质上相同的变量对、以及去掉可疑边之后排名如何变化。研究团队为此在发布的代码库中，为每个真实数据集都附上了详细的边来源说明文档。
说到底，这项研究的核心价值，也许不在于发现了什么新东西，而在于示范了"如何严谨地质疑一个看似成立的结论"。那五个质疑角度——架构是否特殊、是否优于简单基线、在清晰基准上的真实表现、干预效果的真正来源、以及该效果是否方法特有——构成了一套可以被复用的检验框架。研究团队把这套框架连同所有实验代码、数据加载器、边来源说明卡片、固定随机种子、依赖项锁定文件、Docker容器配置，以及一个可以用单行命令`make all`完整复现所有实验并重新生成论文PDF的自动化流程，一并公开发布在GitHub上（用户名ankitlade12的ssm-causal仓库）。他们希望未来任何声称"某神经网络方法能发现因果结构"的论文，都能在发表前预先通过这五个关卡的检验。
归根结底，预测瓶颈方法并没有因为"顺手"而获得免费的因果发现能力。因果发现这件事，仍然是一门需要专门设计和仔细验证的学问，而不是任何强大预测器的副产品。这或许让人有些失望，但这种清醒的认知，比一个漂亮却站不住脚的结论，要有价值得多。
Q&A
Q1：Mamba状态空间模型的权重矩阵乘积S为什么一开始看起来能反映因果结构？
A：Mamba模型的输入权重矩阵Win负责把多个变量映射到隐藏空间，输出权重矩阵Wout则把隐藏空间映射回各个变量的预测值。二者相乘得到的S矩阵，本质上是在做一种低秩的"哪个输入变量对哪个输出变量贡献大"的估计，这和Granger因果检验的思路非常相近。在简单的线性合成数据（如VAR模型）上，这种估计恰好能捕捉到真实的因果边，所以初期结果看起来很好。但研究证明，同样简单的线性瓶颈方法就能做到同等甚至更好的效果，说明这不是Mamba的特殊能力，而是线性矩阵估计的基本性质。
Q2：Lorenz-96是什么样的数据集，为什么它被当作最可靠的基准？
A：Lorenz-96是由气象学家Edward Lorenz在1996年提出的一个标准混沌动力学方程系统，常用来模拟大气中的湍流。它的每个变量的"父节点"（即影响它的其他变量）由方程直接决定，因此因果结构是100%已知且无歧义的。在这篇论文里，研究团队用K=10个变量、F=10的强迫参数、四阶Runge-Kutta积分法生成了1500个时间步的数据，其中共有90条真实因果边。这种"答案完全确定"的特性，使它成为评估因果发现方法最公平的基准之一。
Q3："do干预"和"随机强迫"在实验上有什么本质区别，为什么区别这么重要？
A：do干预（do(X=c)）是指把某个变量强制固定为常数c，完全切断它受其他变量影响的路径，这是因果推断理论里最标准的干预形式。随机强迫则是在每个时间步给变量加上一个独立随机噪声，变量仍然随时间变化，只是被额外"摇晃"了一下。二者的区别在于：do干预能真正斩断变量间的依赖，理论上能提供最强的因果识别信号；随机强迫则主要是在数据里引入额外的噪声，更多地是在测试方法对"被污染的目标行"的容忍度，而不是对因果结构的利用能力。这项研究发现，瓶颈方法在随机强迫下的优势，实质上是抗噪能力而非因果理解能力。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

当AI改进自己：递归自我改进与AI监管

美国AI编程智能体Claude Code有“后门”，阿里内部全面禁用

平晓黎是百度的蒋凡吗？

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

全站最新

当AI改进自己：递归自我改进与AI监管

美国AI编程智能体Claude Code有“后门”，阿里内部全面禁用

平晓黎是百度的蒋凡吗？

宝马全新iX7谍照来袭！外观内饰亮点多，与BBA同级车再聚首

热门推荐

当AI改进自己：递归自我改进与AI监管

美国AI编程智能体Claude Code有“后门”，阿里内部全面禁用

平晓黎是百度的蒋凡吗？

浙江交投低空基础设施产业发展公司登记成立注册资本2亿

Momenta携“物理AI”赴港上市，智驾赛道角逐下能否突围？

车企涨价，一场关于定价权的试探

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

虐待学员戒网瘾机构成立仅1年

长城汽车代理要返点90%？博主和品牌被同一个中间商耍了？

《燕云十六声》与《逃离塔科夫》跨界联动，7月10日“渡尘墟”玩法全新上线

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

华为与西部机场集团共创民航“数智解”