![]()
这项由慕尼黑工业大学、牛津大学和德克萨斯大学奥斯汀分校联合完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2605.31559v1,于2026年5月29日公开。
当一位厨师需要把一道经典食谱改编给100个人、1000个人、甚至10000个人的宴席时,聪明的做法不是把每一步骤都重复10000遍,而是找到食谱背后的"核心规律",然后用这个规律批量指导烹饪。研究团队在这篇论文中想解决的,恰恰是类似的问题——只不过他们的"食谱"是数学上描述自然界规律的方程,而"厨师"是人工智能。
具体来说,这支团队面对的挑战叫做"算子学习"。所谓算子学习,就是训练AI去掌握一类特殊的映射关系:输入是一个连续变化的函数(比如某片区域的温度分布),输出也是另一个连续变化的函数(比如该区域的气压分布)。这类问题广泛存在于工程计算、物理仿真、材料设计等领域,是科学计算的核心任务。现有的AI做这件事时,大多是把连续函数离散化成一堆点(就像用很多小方格近似一幅画),然后让AI处理这些点。这种做法有一个根深蒂固的毛病:处理点的数量一旦增加,计算量会急剧膨胀,而且AI完全不关心这些点背后隐藏的"整体结构",就好比一个厨师只记住了每一勺盐的重量,却不理解"咸淡平衡"这个更根本的烹饪原则。
研究团队将他们的方法命名为FUNCATTN(Functional Attention,功能注意力),并围绕这个核心思想构建了一套完整的理论框架与工程实现。他们的基本主张是:与其让AI逐点比较数据(就像两个人互相查看对方身上的每一颗痣),不如让AI在"函数空间"的层面进行交流(就像两位语言学家通过比较语言结构来理解彼此,而非逐字对照词典)。
一、注意力机制的"老毛病":为什么逐点比较是个麻烦事
要理解这个研究解决了什么问题,先得弄清楚现有的主流做法是怎么运作的,又出了什么岔子。
目前,AI领域最流行的架构叫做Transformer,其核心机制就是"注意力"(Attention)。它的工作方式可以这样理解:假设你有一段音乐,需要分析其中哪些音符相互呼应。注意力机制会让每个音符去问其他所有音符:"你和我有多大关系?"然后根据这些关系的强弱,综合出每个音符的"语境含义"。这个过程很强大,但有个致命缺陷——如果这段音乐有1000个音符,就需要计算100万对关系;如果有10000个音符,就需要计算1亿对关系。随着数据量增长,计算量以"平方倍"爆炸式增长,这在处理高精度的科学计算问题时代价极高。
更深层的问题是,这种逐点比较的方式完全忽视了数据背后的整体结构。在物理仿真中,流体的速度场不是随机散落的点,而是遵循精确数学规律的连续函数,它有内在的"形状"和"规律"。把它打碎成离散点再处理,就像把一幅精美的油画剪成小纸片再重新拼接——不仅效率低,还可能在拼接过程中丢失原画的神韵。
此外,当你在低分辨率网格上训练好的AI模型,移植到高分辨率网格时,由于训练和测试的"点的数量"不同,模型往往表现大幅下降,需要重新训练。这就好比一个只在小黑板上学过数学的学生,换到大黑板后就不认识题目了——显然不够聪明。
二、几何学的启示:从"点对点"到"函数对函数"
研究团队的灵感来自一个完全不同的领域——三维形状匹配。
在计算机图形学中,有个经典难题:如何判断两个人体雕塑上的"膝盖"对应同一个位置?暴力做法是逐点比对,计算量极大。2012年,来自斯坦福大学的数学家Ovsjanikov等人提出了"函数映射"(Functional Maps)框架,提供了一个优雅的解法:不用直接匹配点,而是匹配定义在这些形状上的"函数空间"。
打个比方,假设你有两座山,一座是珠穆朗玛峰,一座是乔戈里峰。你不需要逐一比对每一块岩石,而是可以先给每座山做一组"特征描述"(比如高度函数、坡度函数等),然后找到一个线性变换,让珠峰的特征描述能够映射到乔峰的特征描述。这个线性变换就叫做"函数映射矩阵C"。因为它是线性的,原本复杂的组合问题就转化成了一个可以用最小二乘法求解的简单优化问题。更妙的是,只需要用k个"特征函数"就能表示这个对应关系,而k远远小于点的数量n,计算复杂度从O(n?)直接降到O(k?)。
研究团队意识到,注意力机制本质上也是在做类似的事情——它在"查询空间"和"键值空间"之间建立对应关系。那么,为什么不把函数映射框架的思想移植过来呢?与其计算一个n×n的逐点相似度矩阵,为什么不直接学习一个紧凑的k×k的函数空间对应算子?
三、FUNCATTN的核心原理:用"最小二乘拟合"替代"softmax打分"
理解FUNCATTN的工作原理,可以用一个调音台的比喻来贯穿始终。
假设你是一个音乐制作人,手头有两个乐团演奏的同一首曲子,你的任务是找到两个版本之间的对应关系(比如第一个版本的鼓点对应第二个版本的哪些乐器),然后用这个对应关系来混音。
传统注意力机制的做法是:把所有乐器的每个音符两两比较,打出相似度分数,再用softmax归一化,最后加权求和。这个过程非常精细,但也非常耗时。
FUNCATTN的做法则是:先用一组"频谱滤波器"(称为"基函数",Basis Functions)把两个版本各自压缩成紧凑的频谱系数表示,然后在频谱层面找到一个线性变换矩阵C,使得第一个版本的频谱系数经过C变换后,能最好地吻合第二个版本的频谱系数。找这个最优的C,用的是统计学中的"Tikhonov正则化最小二乘法"——这是一个有闭合解析解的优化问题,既快速又稳健。
在数学上,整个过程如下进行:给定输入X,分别计算查询矩阵Q、键矩阵K和值矩阵V(这一步和普通注意力机制相同)。接下来,通过两组可学习的基函数矩阵Φ和Ψ,分别计算Q、K、V在各自函数空间中的频谱系数,得到Q、K、V。然后求解最优函数映射算子C*,使得C*K能最好地重现Q,正则化项λ‖C‖?防止过拟合。最后,用C*把V映射到查询空间,再通过Φ"解码"回原始空间,得到输出。整个计算复杂度是O(ndk + dk·min(k,d) + min(k,d)?),对序列长度n是线性的,远优于普通注意力的O(n?d)。
一个关键细节值得解释:这里的正则化参数λ不是随意拍定的,而是通过一个可学习的标量参数α(令λ=sigmoid(α))在训练过程中自动调整。研究结果显示,λ的具体取值对最终精度影响较小(不同初始化下误差差异小于0.02%),它主要起数值稳定作用,确保矩阵求逆时不会出现数值爆炸。这一点也被理论上的Lipschitz连续性分析所印证——Lipschitz常数正比于1/λ和1/λ?,只要λ严格大于零,模型就是稳定且可训练的。
四、"调音台"的旋钮:如何学习好用的基函数
细心的读者可能会问:那组"频谱滤波器"(基函数)是怎么来的?固定用傅里叶基或者拉普拉斯基不行吗?
当然可以用固定基,就像你可以给所有乐器都用同一套均衡器预设。但问题是,不同类型的音乐(摇滚、古典、爵士)需要不同的均衡设置。固定基在某些问题上表现很好,但在另一些问题上可能完全不匹配。
FUNCATTN的解决方案是学习一组自适应基函数,其计算方式为:B = Softmax(Linear(X)),即先用一个全连接层把输入特征映射到k维,再对k个维度做softmax归一化。这样得到的每个基函数都是输入自适应的,不同的输入会产生不同的基。
从理论上讲,这组基函数有一个优美的性质:它们构成"单位分解"(Partition of Unity),即对任意输入点,k个基函数的值之和恰好等于1。这个性质保证了权重始终有界,不会出现极端值,防止退化解。更有趣的是,当温度参数τ趋向于0时,这组基函数会退化为经典的分段常数基(P0 Elements)——每个点只属于一个"区域",就像把乐器分门别类地放到不同的房间里。随着τ增大,这种硬分配变成软分配,允许每个点在多个"区域"中同时有所归属。这一性质既有数学上的严格保证,也有直观的物理意义。
实验还发现一个有趣现象:给基函数加上正交性约束(强迫基函数互相垂直,就像正交基底)反而会让性能变差。原因可能是:在正交约束下,优化变得更难(需要在Stiefel流形上做梯度下降),而自由学习的基函数虽然不正交,但优化器能更容易找到好的局部最小值。这与其他领域(如形状对应学习)的观察一致。
五、Transolver与FUNCATTN:相似的外表,不同的灵魂
在读这篇论文时,很多人可能会联想到另一个叫做Transolver的工作(2024年),因为两者在结构上看起来颇为相似,都有"把输入投影到某个低维空间、在低维空间做计算、再投影回来"的环节。研究团队专门在论文的附录中用一张流程图对比了两者的本质区别。
Transolver的核心思路是:学习一组"物理感知的切片"(Physics-Aware Slices),把输入数据分成k组物理上相关的标记(tokens),然后在这些标记之间做标准的scaled dot-product attention(带softmax的那种)。换句话说,Transolver是在"减少token数量"上做文章,但保留了注意力机制的基本形式。
FUNCATTN则不同:它的基函数投影不是为了减少token数量,而是为了把注意力操作完全提升到函数空间层面,用最小二乘线性算子取代了softmax打分机制。这意味着FUNCATTN的注意力权重可以是负数(因为线性回归的解没有非负约束),这为模型提供了"对比能力"——某个基函数可以同时被另一个基函数正向强化或负向抑制,这在细粒度分割任务中尤为有用。
简单说:Transolver是"用物理知识减少工作量,然后照常打分";FUNCATTN是"从根本上改变打分的方式,直接求最优线性对应"。
六、实验验证:从流体仿真到RNA分子的全面考察
研究团队在五大类任务上对FUNCATTN进行了系统评测,涵盖回归、偏微分方程求解、三维分割、分布外泛化和超分辨率等多个维度。
第一个测试场景是正弦函数的少样本回归。研究团队模仿元学习领域的经典设置:给AI看4个观测点,让它推测整条正弦曲线。这个测试看似简单,实则很能区分模型的"结构感知能力"。结果显示,普通的scaled dot-product attention和Transolver在训练前都输出一条平线,毫无正弦波形的迹象;而FUNCATTN在训练前就能输出具有正弦形状的曲线,说明其归纳偏置天然适合函数拟合任务。在泛化性能上,随着观测点数量从5增加到40,FUNCATTN的误差始终比普通attention低2-3个数量级,比Transolver低约1个数量级,比另一个强基线Intention也低约1个数量级。具体来说,FUNCATTN用5个观测点就能达到普通attention用40个观测点才能达到的精度。
第二个也是最核心的测试场景是偏微分方程(PDE)求解,共涵盖六个标准基准任务,横跨流体力学和固体力学两大领域,包括地下渗流(Darcy)、湍流(Navier-Stokes)、空气动力学(Airfoil、Pipe)以及弹性变形(Elasticity)和塑性变形(Plasticity)。FUNCATTN在六个基准中的五个上达到最优,在第六个(Pipe)上与最优结果持平。与最接近的竞争者Transolver相比,相对误差降幅在6%到26.3%之间,例如在Elasticity任务上从0.64%降至0.50%,在Plasticity任务上从0.13%降至0.11%,在Navier-Stokes任务上从9.44%降至8.00%。频域方法(如FNO系列)在复杂几何上普遍表现较差,原因是固定的傅里叶基在非规则网格上对齐困难;早期的注意力方法(如Galerkin Transformer)直接在网格点上操作,难以高效捕捉全局物理相关性。
第三个测试场景颇为特别:在RNA(核糖核酸)分子的三维点云上做语义分割,将4096个点分类到259个功能类别。这个任务与PDE求解看似毫无关联,但本质上都是"函数到函数的映射"。FUNCATTN以89.0%的准确率超越了所有基线,包括专门为三维点云设计的PointNet++(74.4%)、DiffusionNet(85.1%)和Transolver(87.5%)。研究团队推测,线性最小二乘求解允许注意力权重取负值,这种"对比能力"在细粒度分割中尤为重要——它能明确区分相近类别,而softmax天生是正权重,只能做"加权混合",难以做"主动区分"。
第四个测试场景考察的是分布外泛化能力,使用AirfRANS数据集(高精度Reynolds平均Navier-Stokes仿真)的两个难子集:OOD Reynolds(测试集含训练时未见过的雷诺数范围)和OOD Angles(测试集含未见过的攻角范围)。在OOD Reynolds上,FUNCATTN的升力系数相对误差为23.4%,而最接近竞争对手为32.2%,领先幅度达8.8个百分点;Spearman排名相关系数为99.4%,高于竞争对手的98.7%。在OOD Angles上,误差降至13.3%(竞争对手22.8%),排名相关系数达99.7%(竞争对手99.0%)。这说明FUNCATTN学到的是物理场的"内在结构",而非对特定参数范围的记忆。
第五个测试场景是在复杂几何域上的PDE求解,使用带缺口的三角形域Darcy流问题。缺口顶端会产生尖锐的局部特征,这对固定基的频域方法极为不友好(dgFNO+的相对L2误差高达7.82%)。FUNCATTN达到0.64%,比专为复杂几何设计的WNO方法(0.92%)低30.9%,显示出自适应基函数在处理非规则域时的优势。
第六个测试场景是零样本超分辨率:在2048点的Burgers方程数据上训练,直接测试到8192点(分辨率提高4倍),不做任何微调。FUNCATTN的相对L2误差为1.081×10??,优于FNO的1.195×10??、Galerkin的1.175×10??和Transolver的1.243×10??。这验证了FUNCATTN在函数空间层面操作带来的分辨率无关性。
七、效率考量:线性复杂度与实际表现
说FUNCATTN好,也得说清楚它的代价。研究团队提供了详尽的计算复杂度分析和实验测速。
理论上,FUNCATTN的总复杂度是O(ndk + dk·min(k,d) + min(k,d)?)。当序列长度n很大时,主导项是O(ndk),即对n是线性的。相比之下,普通softmax attention是O(n?d),平方增长。实验验证(在NVIDIA A40 GPU上,d=128, k=64,序列长度从128扫到16384)显示:当序列长度超过约4000时,FUNCATTN的运行时间和内存占用就开始明显优于普通attention;在序列长度16384时,FUNCATTN是目前所有对比方法(包括Performer、Linformer、Nystromformer、Galerkin)中运行时间最短、内存占用最少的,差距随序列长度增大而持续扩大。
关于基函数数量k的选择,研究团队提供了详细的消融实验(在Elasticity、Darcy、Airfoil、Pipe、Navier-Stokes、Plasticity六个任务上测试了k=16到k=512的七个设置)。结论是:k=64在所有任务上都是稳健的默认值,与最优结果相比误差不超过5%。对于平滑场(Darcy、Pipe),k=32-64已经足够;对于高频场(Elasticity、Navier-Stokes),k=128-256能带来额外收益。继续增大k(如512)反而略微变差,可能是因为基函数过多导致过拟合,也会增加计算开销(k=512时推理时间约为k=64的5.5倍)。
关于转置投影与伪逆投影的选择(将基矩阵Φ投影到Q/K/V上时,应该用Φ?还是(Φ?Φ)??Φ??),实验显示:未正则化的伪逆会导致梯度爆炸,即使加了Tikhonov正则化的伪逆也会使后续矩阵求逆的条件数在训练初期飙升到4000以上(而转置版本始终维持在10以内),最终精度还略低于转置投影。因此,研究团队选择了更简单稳健的转置投影,并在附录中给出了详细的理论解释(两者在Φ正交时等价,在一般情况下转置投影对应计算内积?Φ_{:,j}, Q?,仍然是合法的函数空间表示)。
八、理论保障:FUNCATTN为什么不会"失控"
研究团队不满足于实验结果,还花了相当篇幅证明FUNCATTN的理论性质。
首先是局部Lipschitz连续性。通俗地说,这个性质保证了"输入稍微动一下,输出不会剧烈抖动"——这是神经网络训练稳定性的基本要求。研究团队严格证明了,当输入变化量为ΔX时,FUNCATTN的输出变化量满足‖?A‖_F ≤ (C?/λ + C?/λ?)·‖ΔX‖_F,其中C?、C?是与输入范数和各层权重范数多项式相关的正常数。这说明只要λ>0,模型就是Lipschitz连续的,且Lipschitz常数由λ控制——正则化参数不仅是数值稳定性的工具,也是理论稳定性的保障。
其次是与积分算子的等价性。研究团队通过蒙特卡洛积分近似的论证,证明了FUNCATTN等价于在域Ω上的一个可学习积分算子,积分核为κ(g?, g?) = (ΦCΨ?)??。这意味着FUNCATTN可以被理解为对输入函数做了一次"核方法回归",从而继承了积分算子框架的良好逼近性质。
第三个重要的理论结果是FUNCATTN与Intention注意力机制之间的关系。Intention是2023年提出的一种基于正则化最小二乘的注意力机制,其公式为Q(K?K + λI)??K?V。研究团队证明,当FUNCATTN的基函数Φ=Ψ选为任意正交基(满足Φ?Φ=ΦΦ?=I)时,FUNCATTN退化为Intention。这说明FUNCATTN是Intention的严格推广——Intention是FUNCATTN在特殊基选择下的特例,而FUNCATTN通过学习自适应基函数获得了更强的表达能力。
九、可视化洞见:AI到底学到了什么样的"基"
论文附录中有一组直观的可视化,值得单独介绍。研究团队把不同模型学到的基函数(或等效的注意力模式)画出来进行比较。
FUNCATTN学到的基函数呈现出平滑的、局部化的激活模式,每个基函数对应输入域中的一个大致连续的区域,就像把一张地图划分成若干自然区域,每个区域内的特征是相似的。这种平滑局部性非常适合表示物理场的区域结构。
Transolver的基函数则呈现出高度稀疏的点状激活,大量能量集中在少数几个散落的点上,区域连续性很差。研究团队认为这可能限制了Transolver表示平滑解场的能力。
当给FUNCATTN强制加上正交性约束后,基函数变成了全局支撑的、类似傅里叶模式的振荡函数,与固定傅里叶基非常相似。这印证了正交约束会把模型"推回"到经典谱方法,失去了自适应学习的意义,也解释了为什么加约束反而变差。
这些可视化不仅是有趣的补充,也帮助研究者直观地理解了不同设计选择的含义。
归根结底,FUNCATTN做的事情可以用一句话概括:把AI注意力机制从"逐点打招呼"升级为"用共同语言对话"。传统attention像是让两个陌生人互相检查对方的每一根头发,而FUNCATTN让他们先各自翻译成同一种"数学语言",再在这种语言层面找到最优的对应关系。这个改变带来的好处是多方面的:计算量从平方增长降为线性增长,模型对分辨率变化更加鲁棒,在少样本情况下泛化更好,在新的参数范围上推断更准确。
当然,研究团队也坦诚地指出了这项工作的局限所在。自适应基函数用的是相对简单的softmax投影,更复杂的结构化设计或许能进一步提升性能。理论上,FUNCATTN的逼近误差界(压缩比k/n与精度之间的权衡)尚未严格建立,这是留给后续工作的重要问题。另外,L1正则化(鼓励稀疏解)或许在某些应用中比Tikhonov正则化更合适,值得进一步探索。最后,把这套思想用到自然语言处理这样"函数空间解释不那么直接"的领域,也是一个有趣但未知的方向。
如果你是一位工程师,在用AI做流体仿真、材料计算或者气象预测,这项研究或许值得关注——它意味着同样的计算资源可以处理更精细的网格,或者同样的网格可以做出更准确的预测。如果你只是对AI如何"理解"世界感到好奇,那么这项研究提供的视角也很启发性:AI不必非要把世界打碎成无数个孤立的点才能处理,它可以学着像数学家一样,在更抽象的"函数层面"思考问题。有兴趣深入了解的读者可以通过编号arXiv:2605.31559v1查询完整论文。
Q&A
Q1:FUNCATTN与传统Transformer注意力机制相比,最核心的区别是什么?
A:传统Transformer注意力机制(scaled dot-product attention)需要计算所有token两两之间的相似度,计算量随序列长度平方增长,且完全忽视数据背后的函数结构。FUNCATTN则将注意力提升到函数空间层面:先用可学习的基函数把输入压缩为紧凑的频谱系数,再通过最小二乘线性回归求解最优的函数空间映射算子C,最后通过逆变换恢复输出。这样计算复杂度对序列长度变为线性,且模型能捕捉数据的整体函数结构,对分辨率变化也更加鲁棒。
Q2:FUNCATTN在PDE求解任务中的表现如何?
A:FUNCATTN在六个标准PDE基准中的五个达到最优,第六个与最优持平。与最接近的竞争对手Transolver相比,相对L2误差降幅在6%到26.3%之间。例如Elasticity任务误差从0.64%降至0.50%,Navier-Stokes从9.44%降至8.00%,Plasticity从0.13%降至0.11%。在分布外泛化(AirfRANS)测试中,FUNCATTN在OOD Reynolds和OOD Angles两个难子集上分别以大幅度领先所有对比方法,显示出更强的物理规律泛化能力。
Q3:FUNCATTN中基函数的数量k应该怎么选?
A:根据论文的消融实验,k=64是适用于大多数任务的稳健默认值,与最优结果相比误差不超过5%。对于解场较为平滑的问题(如Darcy流、管道流),k=32到64已经足够;对于含有高频特征的问题(如弹性变形、Navier-Stokes湍流),k=128到256能带来额外的精度提升。继续增大k(如512)反而可能略微变差(过拟合风险),同时显著增加计算开销:k=512时推理时间约为k=64的5.5倍,而精度提升微乎其微。





京公网安备 11011402013531号