![]()
这项由以色列魏茨曼科学研究所与美国麻省理工学院联合开展的研究,于2026年5月以预印本形式发布在arXiv平台上,论文编号为arXiv:2605.23895。研究团队横跨两所世界顶尖机构,致力于解答一个困扰神经科学家多年的核心问题:人类大脑究竟是真的在"看懂"一个概念,还是只是被一些相关的视觉干扰所迷惑?
**一、科学家们其实一直在犯一个经典错误**
假设你是一名侦探,正在调查一起案件。你发现每次犯罪现场附近都有一辆红色汽车。于是你断定:红色汽车就是罪犯。但等等——也许红色汽车只是凑巧停在那里,真正的罪犯是别人。你把相关性当成了因果关系,犯了一个看起来合理、实际上致命的错误。
多年来,神经科学家们在研究大脑的视觉处理机制时,犯的正是这种错误。当他们想知道"大脑的哪个区域负责识别人脸"时,他们会给受试者看很多张人脸照片,然后测量大脑各个区域的活跃程度。哪个区域最活跃,就认为那里负责处理人脸。这种方法被称为"激活最大化",听起来很有道理,几十年来也发现了不少重要的大脑功能区。
然而问题就藏在细节里。人脸照片里除了脸,还有什么?有皮肤的颜色、特定的背景、人体的姿态、情绪的表达……那个"最活跃"的大脑区域,到底是在响应"脸"这个概念本身,还是在响应这些与脸一起出现的其他视觉线索?传统方法根本无法回答这个问题。就像那个红色汽车的侦探一样,科学家们发现了"相关性",却错把它当成了"因果性"。
正是为了解决这个根本性的漏洞,研究团队开发出了一套名为BrainCause的全新框架。这套系统的核心思想,就是用真正的侦探方式来研究大脑——不只是看哪个区域"有反应",而是要验证那个反应是否真的是由目标概念引起的,而非由它的"同伙"或"替身"引发的。
**二、侦探的工具箱:BrainCause是如何工作的**
理解BrainCause的工作原理,可以用一个具体的侦探破案场景来类比。假设你想调查大脑里负责识别"动物"的区域。传统方法是:给大脑看一堆动物照片,找出最活跃的区域,然后宣布"找到了"。但BrainCause会问:那个区域真的在响应"动物"这个概念,还是在响应动物照片里经常出现的草地、森林、毛茸茸的质感?
为了回答这个问题,BrainCause会构建三种不同类型的图片,就像侦探准备三类不同的证据。
第一类叫做"正面证据图片",也就是直接展示目标概念的图片——在"动物"这个例子里,就是各种清晰的动物照片。研究团队不仅从现有数据库里检索这类图片,还用先进的AI图像生成模型(FLUX.2)专门生成了大量多样化的新图片。每个概念会生成200张训练用图和100张额外的验证用图,确保覆盖尽可能多的视觉变化。
第二类叫做"语义相似但不同的图片",也可以理解为"嫌疑人替身"。研究团队用大型语言模型(Gemma-3-27B-IT)来思考:哪些概念经常和"动物"同时出现,但本身不是动物?答案可能包括草地、树木、野外风景、动物栖息地。这些图片被系统地生成出来,专门用来测试大脑区域是否真的在响应"动物"本身,还是在响应这些相关背景。对于每个目标概念,系统会提出10个这样的"替身概念",每个概念再生成10张图片,经过筛选后保留约80到100张有效图片。
第三类是最关键的"反事实编辑图片",这是整套系统最精妙的部分。对于每一张正面证据图片,系统会用语言模型提出几种最小化修改方案:把图中的动物去掉,或者替换成完全不同的东西,但其他一切保持不变。举个例子,一张狮子在草原上的照片,可以被编辑成同样的草原背景、同样的光线、同样的构图,但狮子消失了,或者变成了一块石头。这种"换汤不换药"的修改,能精准地剥离出目标概念的影响,就像侦探做受控实验一样。这个过程会对50张训练图片和20张验证图片各生成10个编辑版本,产生约400到500张反事实图片。
生成完图片后,系统还会用视觉语言模型(Qwen3-VL-8B)来核查:正面图片里确实有目标概念吗?替身图片里真的没有目标概念混入吗?这道核查程序就像法庭上的证据鉴定,确保每一张图片都名副其实。
最后,所有这些图片都会输入一个"图像转大脑响应"的预测模型,计算出大脑中约4万个体素(可以理解为大脑扫描的最小测量单元)对每张图片的预期激活程度。这个预测模型由魏茨曼研究所此前开发,能够跨受试者进行训练,并为每个受试者生成个性化的预测结果。
**三、从证据到判决:如何给每个大脑区域打分**
有了三类图片之后,BrainCause需要一套打分体系来判断哪些大脑体素是真正在响应目标概念的"真凶",而不是被相关线索迷惑的"误判目标"。
系统给每个体素计算三个分数。第一个是"正面激活分",衡量这个体素对正面证据图片的平均响应强度,这相当于问:这个区域对目标概念有没有基本的反应?第二个是"语义差异分",计算方式是:对正面图片的平均激活,减去对那些最容易迷惑该体素的语义相似替身图片的激活。这里有个精妙之处:系统特别找出那10张"最难区分"的替身图片(也就是让该体素最容易产生误判的那些),而不是随机选取,这样的测试更严格,就像侦探专门用最像真凶的嫌疑人来测试目击者的指认可靠性。第三个是"反事实差异分",计算每张正面图片和其最难区分的反事实编辑版本之间的激活差异——如果把动物从图片中移除,这个体素的响应会不会明显下降?
这三个分数综合起来,系统把语义差异分和反事实差异分平均,得到最终的"因果分数"。那些因果分数为正的体素被收录进候选表征区域,意思是:这些体素不仅对目标概念有响应,而且这种响应是概念特异的,不会被相关干扰因素所欺骗。
在训练阶段完成候选区域的筛选之后,系统还会在独立的验证集上进行二次核查,并与真实的fMRI(功能性磁共振成像)测量数据进行比对,确保发现的不只是预测模型的幻觉,而是确实存在于真实大脑响应中的规律。
**四、七成发现可能是假的:这个数字令人震惊**
研究团队用BrainCause分析了260个视觉概念,得出了一个让神经科学界相当警觉的结论:如果用传统的激活最大化方法来定位大脑中的视觉概念表征,高达73.4%的发现都是假阳性——也就是说,那些看起来"响应了"目标概念的大脑区域,实际上响应的是与概念相关联的其他视觉因素,而非概念本身。
换句话说,之前那个侦探把红色汽车当成罪犯的错误,在神经科学领域已经系统性地发生了七成以上。
相比之下,当BrainCause用因果分数来筛选候选区域时,假阳性率从73.4%大幅降低到23%。与此同时,真阳性率也从26.6%提升到38.7%。这两个数字同步改善的意义非常深远:不仅减少了错误发现,还增加了正确发现。就像换了一位更严格、更精准的侦探,不但抓错的人少了,真正的罪犯反而更容易被找出来了。
从具体的评分数据来看,这种优势更加明显。在语义相关概念的区分能力上,MindSimulator(一个此前最先进的对比方法)在生成图片上的语义差异分为-0.44,意味着它发现的区域对干扰概念的响应甚至比对目标概念还要强。而BrainCause在同一指标上的得分为0.62,实现了从负数到正数的飞跃。在真实fMRI数据上,BrainCause的语义差异分也从0.27提升到0.71。在反事实编辑测试上,BrainCause的得分为0.98,而对比方法仅为0.23。
与此同时,BrainCause并没有以牺牲激活强度为代价来获得更高的因果性。在真实测量数据上的激活分,BrainCause为1.08,与MindSimulator+的1.12相当,保持了极具竞争力的基本响应强度。
**五、"认识你自己":新方法如何验证已知的大脑功能区**
在探索未知之前,一个好的侦探会先检验自己的方法是否能复现已知的案件。研究团队用同样的逻辑来验证BrainCause——如果这套系统真的靠谱,它应该能重新找到神经科学界几十年来已经证实的经典大脑功能区。
神经科学界公认有四个与视觉紧密相关的大类功能区:负责处理面孔的区域(包括梭状回面孔区FFA和枕叶面孔区OFA)、负责处理身体的区域(体外纹状体身体区EBA、梭状回身体区FBA)、负责处理场景和地点的区域(海马旁回位置区PPA、枕叶位置区OPA)、以及负责处理文字的区域(视觉词形区VWFA)。
研究团队对这四类概念分别运行BrainCause,然后检查系统找到的顶部体素中有多少恰好落在这些已知功能区内。结果非常令人满意:在处理身体相关概念时,前100个顶部体素有99%都精确落在已知的身体处理区域内;处理文字概念时,同样有99%落在文字处理区域内;处理面孔概念时,有90%落在面孔处理区域内;处理地点场景时,有74%落在场景处理区域内。随着候选区域扩大到200个、500个体素,这些比例保持相当稳定,说明系统找到的不是零散的随机体素,而是真正集中的功能性区域。
更令人关注的是,这些发现在不同受试者之间保持了高度一致性。虽然每个人的大脑折叠方式不同、功能区的精确位置也有个体差异,但对于同一个概念,BrainCause在不同受试者(实验使用了NSD数据集中完成全部扫描会话的4名受试者,编号1、2、5、7)身上找到的高因果分区域都落在大致相同的皮层位置。这种跨个体的一致性,是方法可靠性的有力证明,也说明人类大脑中的视觉概念表征有着超越个体差异的共性组织规律。
**六、从粗粒度到精细粒度:大脑其实比我们想的更细腻**
经典神经科学告诉我们大脑有"面孔区"、"身体区"、"场景区",但这有点像说"烹饪区"包揽了所有和食物相关的事情,实际上你的厨房里有切菜台、炉灶、烤箱,各司其职。BrainCause让我们看到了大脑里更精细的"厨房分区"。
以身体相关概念为例,研究发现"人类面孔"、"人类双手"和"人类双腿"在大脑中的表征并不完全重叠。人类面孔的表征集中在面孔处理区(FFA、OFA),而双手的表征更多出现在身体处理区(EBA、FBA),双腿则呈现出又一种独特的分布模式。这三者虽然都是人体部位,但大脑为它们划定了有所区分的处理领地。
类似的精细分工也出现在文字相关概念中。"手写文字"、"交通标志"和"商标标志"这三类都涉及文字或符号,但它们在视觉词形区及周边区域(OWFA)的具体激活分布各不相同。手写文字和印刷体符号之所以有不同的神经表征,或许与其视觉形态的差异有关,也可能与我们学习和处理这些不同类型文字时的认知过程有关。
更广泛来看,在260个概念中,BrainCause识别出了动物面孔、食物、工具、社交互动、人物奔跑、人物跳跃等多个具体概念的候选表征区域。动物面孔的表征落在已知的面孔选择区域(FFA、OFA)附近,这与"大脑有统一的面孔处理机制,对动物面孔和人类面孔使用相似回路"的假说一致。工具的表征则靠近身体和动作相关区域,这与"工具使用需要感知物体如何配合人手动作"的认知假设相吻合。
在更整体的分析中,"人类"和"动物"这两个概念的表征区域有重叠但也有明显差异,体现了大脑在处理"生物体"这个大类时既有共性回路,又根据具体类别做出了精细区分。
**七、排除干扰、聚焦真相:方法细节中的关键选择**
研究团队在论文附录中详细分析了各种设计选择对最终结果的影响,这些细节揭示了整个系统的设计哲学。
在排名信号的选择上,团队测试了多种单一信号和组合信号的效果。仅用生成图片激活(MAG)作为排名依据时,激活分最高(2.76),但语义因果分只有微弱的0.08,说明高激活并不保证高因果性。仅用反事实编辑因果分(CEG)作为排名时,编辑测试得分达到惊人的1.42,但激活分下降到1.67,生成因果分也只有0.45。最终,BrainCause采用了多信号组合策略:CEG+CSG(生成语义因果)+CSL(图库语义因果)+MALF(过滤后图库激活)+CSM(测量数据语义因果),这个组合在所有维度上的综合平均分达到1.09,是所有方案中最高的。这说明没有任何一个单一信号能胜任全部工作,真正可靠的发现需要多条证据链的共同支持。
在候选区域大小的影响上,研究团队发现一个普遍规律:无论采用哪种方法,随着候选区域从50个体素扩大到1000个体素,各项分数都呈现稳步下降的趋势。这是符合直觉的——越小的区域越集中、越纯粹,而越大的区域不可避免地包含更多"陪衬体素",稀释了整体的特异性。重要的是,BrainCause相对于其他方法的优势在所有区域大小下都稳定存在,这表明因果排名方法的优越性并不依赖于某个特定的区域大小设定。
在统计显著性测试上,研究团队对每个发现进行了严格的单侧经验p值检验,把每个目标概念的得分与一组不相关的基准概念在同一区域上的得分分布进行比较。在260个概念-受试者对中,生成激活分有160个通过了p≤0.05的检验,真实测量激活分有97个通过,生成语义因果分有173个通过,测量语义因果分有47个通过,反事实因果分有101个通过。如果要求所有五项指标同时通过,只有较少数量的发现达标。但研究团队指出,这并不意味着其余发现都是错的——很多概念只是在现有测量数据中的覆盖率不够高,无法进行严格的测量数据层面验证,这些情况下系统会推荐研究者设计专项后续实验来补充数据。
**八、失败案例的解剖:侦探也有盲点**
任何方法都不是完美的,BrainCause也不例外。研究团队坦诚地分析了那些仍然存在的假阳性案例,以及它们出现的原因。
BrainCause剩余的假阳性主要集中在两类情况。第一类是那些本质上弥漫性、难以局部化的视觉属性,比如"天空"、"反射/倒影"和"光影对比度"。这些概念天然就会出现在各种各样的图片中,很难设计出完全不包含这些属性的场景图片,因此替身图片里往往不可避免地残留着目标属性,测试的区分力自然受限。
第二类失败来自语义替身生成环节的不完善。系统依靠AI语言模型和视觉模型来生成"不包含目标概念"的替身图片,但这两类模型本身也有局限性。以"天空"为例,生成"户外场景但没有天空"的图片对现有的图像生成模型来说其实挺难的,结果生成的替身图片里往往还是出现了天空。这种情况下,测试认为目标概念和替身之间没有区别,便错误地否认了真实的因果关系,或者错误地认定一个区域具有因果性(当它其实只是在响应普遍存在的背景属性)。
研究团队认为,随着语言和视觉模型能力的持续提升,这类限制会逐步减少。更重要的长期方向,是让系统更具迭代性:根据当前的激活模式和测试结果,动态地提出更有针对性的反事实修改和语义替身,形成一个闭环改进的科学发现循环,而不是一次性地生成图片然后固定分析。
**九、给未来的实验者画出地图**
BrainCause不仅是一个发现工具,还是一个实验规划工具。这是整个框架中一个常被忽视但极有价值的功能。
系统会自动分析现有的fMRI测量数据(研究使用的是NSD数据集,包含8名受试者每人约10000张自然图片的7T高精度fMRI扫描记录)中各个概念的覆盖情况。对于每个目标概念,系统会检查:数据库里有多少张经过验证的正面图片?有多少张符合条件的语义替身图片?这些统计会呈现出巨大的差异——有些概念在现有数据中有接近200张有效正面图片,而有些概念只有寥寥几张甚至零张。
这种覆盖率分析直接决定了发现的可信度等级。当一个概念在测量数据中覆盖率高,且BrainCause的因果分数也高,那就是高置信度的发现。当覆盖率高但因果分数低,那就是被明确否定的发现。当覆盖率低时,即便因果分数表现良好(基于生成图片的预测),系统也只会标记为"有希望但证据不足",并自动生成建议清单:哪类正面图片需要补充,哪类语义替身需要在下一轮fMRI实验中引入,哪些反事实编辑场景最值得让真实受试者在扫描仪里观看。
这种"闭环规划"能力,使得BrainCause不只是一个分析工具,更是一个能与实验神经科学形成紧密互动的伙伴——用计算方法提出假设,用计算方法识别数据缺口,再引导实验设计填补这些缺口,最终用真实的大脑数据来检验假设。
说到底,BrainCause代表的是一种思维方式的转变:从"哪里亮就说哪里有",变成"亮了还不够,还要证明是因为我们想找的东西让它亮了"。这个转变听起来是一小步,但对于神经科学发现的可靠性来说,是一大步。
归根结底,大脑是我们最重要却也最不透明的器官。当我们说"大脑有一个专门处理面孔的区域",我们到底是在说一个精确的因果关系,还是一个统计相关性?这个问题的答案直接影响到我们如何理解意识、记忆、感知,乃至如何设计针对感知障碍的干预手段。BrainCause提供的工具,让我们有机会把这些问题从"相关性描述"提升到"因果性理解"的层面,这对于脑科学的未来发展具有实实在在的意义。
如果你对这项研究的完整细节感兴趣,可以通过arXiv平台以编号arXiv:2605.23895查询全文,所有技术细节、实验数据和补充材料都可以在原论文中找到。
Q&A
Q1:BrainCause框架和传统的大脑功能定位方法有什么本质区别?
A:传统方法(激活最大化)只看大脑哪个区域对目标概念图片反应最强,但无法区分是概念本身还是其相关背景触发了这个反应。BrainCause额外引入了反事实编辑图片(把概念从图片中移除但保留其他内容)和语义替身图片(相似但不含目标概念的图片),通过对比三类图片的响应差异来验证大脑反应的真实来源,把相关性判断升级为因果性验证。
Q2:BrainCause发现了哪些之前不知道的大脑概念表征?
A:除了重新确认了面孔、身体、场景、文字这四类经典功能区外,BrainCause还在更精细的层面发现了人类手部、人类腿部、动物面孔、食物、工具、交通标志、手写文字、商标标志、社交互动等多个概念的候选表征区域。这些发现显示人类视觉皮层的功能组织比传统认知更为精细,不同身体部位和不同类型的文字符号在大脑中有各自不完全重叠的处理区域。
Q3:BrainCause的假阳性率为什么还有23%,有没有办法进一步降低?
A:目前23%的假阳性主要来自两类难题:一是"天空""反射"这类弥漫性视觉属性很难生成不含它们的替身图片;二是AI语言和视觉模型在生成语义替身时偶尔会让目标概念"偷溜进来"。研究团队指出,随着生成模型能力提升,这个问题会逐步改善。更根本的解决方向是让系统迭代运行:根据每次测试的结果动态调整反事实设计,让验证过程越来越严密。





京公网安备 11011402013531号