![]()
这项研究由上海财经大学计算与经济跨学科研究重点实验室联合蚂蚁集团的研究团队共同完成,发表于2026年8月在韩国济州岛举行的第32届ACM SIGKDD知识发现与数据挖掘大会(KDD 2026),论文DOI为10.1145/3770855.3817551,论文编号arXiv:2605.26562。
每天早晨,你拿出手机查看天气预报,决定要不要带伞;电力公司的工程师盯着屏幕,预测今天城市用电量的峰值,以便调配电网;医院的系统自动分析患者的历史数据,提前预警可能的健康风险。这些场景背后,都有一项关键技术默默运转——多变量时间序列预测。说白了,就是根据过去多条数据曲线的走势,预测它们未来会怎么变化。
然而,近年来AI研究圈子里有一个让人有些头疼的现象:研究人员们争先恐后地发布各种新奇的预测模型,一个比一个复杂,一个比一个花哨。但当你把这些模型放到不同数据集上一测,却发现没有一个能稳定称霸——昨天还是"最强"的模型,换个数据集就可能表现平平。这就好比各路厨师都在竞相发明新菜系,却没人去研究清楚:到底是厨师的手艺更重要,还是选材更重要,还是锅的材质更关键?
上海财经大学的研究团队决定换一个思路。他们不再把每个模型当作一个不可拆分的黑箱来评测,而是像拆手表一样,把几十个主流AI预测模型拆开,细数每一个齿轮和弹簧,搞清楚哪些零件真正决定了走时的精准度。这个框架被他们命名为TSCOMP,是目前规模最大的、针对深度多变量时间序列预测方法进行组件级系统性评测的基准框架,相关代码和性能语料库已在GitHub上公开。
一、为什么要"拆表"而不是"换表"
在进入具体细节之前,有必要理解这个研究团队面对的根本困境。过去的研究者评测模型的方式,就像在比较不同品牌的手机——你只看最终跑分,却不知道分数是高处理器的功劳,还是优化软件的功劳,还是屏幕刷新率的功劳。这样的评测方法导致了一个尴尬的局面:每隔几个月就有新论文声称自己的模型刷新了纪录,但研究者们却越来越困惑——究竟是什么让它更好?
当然,也有人尝试进行大规模的基准测试,比如TSlib、BasicTS、TFB等框架,它们对比了许多模型在多个数据集上的表现。然而这些工作的共同局限在于,它们依然把模型当作整体来评价,没有深入剖析内部机制。这就像你知道了A手机比B手机跑分高200分,但完全不知道为什么——这对于下一步怎么设计更好的手机,几乎没有帮助。
正因如此,TSCOMP的核心理念是:把每一个预测模型分解为标准化的"零件",然后系统地测试每个零件的贡献。这样,研究者就能精确回答:在一个预测管道中,到底哪个环节最重要?不同类型的零件应该怎么搭配?什么样的数据适合什么样的零件?
二、把预测流水线拆成四道工序
为了做到这种精细化拆解,研究团队首先梳理了一个预测任务从输入到输出所经历的完整流程,并将其分解为四个主要阶段,每个阶段又进一步细分为若干"组件维度",每个维度包含多种具体的实现方案。整个框架覆盖了11个组件维度和49个具体组件。
第一道工序是数据预处理(Series Preprocessing)。原始时间序列数据往往杂乱无章,就像你拿到一袋没有分拣的食材,需要先洗净、切块才能下锅。这个阶段包括三类操作:序列归一化(Normalization)负责消除不同变量之间因量纲差异造成的偏差,典型的方法包括RevIN(可逆实例归一化)、DishTS和Stationary归一化;序列分解(Decomposition)负责把一条波动的曲线拆分为趋势部分和周期部分,就像把海浪分解为潮汐和风浪,主要方法有移动平均(Moving Average)、基于离散傅里叶变换的DFT分解以及混合专家移动平均MoEMA;序列采样与混合(Series Sampling/Mixing)则涉及多尺度信息的整合,比如TimeMixer提出的分层混合策略。
第二道工序是序列编码(Series Encoding),也就是把处理好的数据"翻译"成模型能理解的语言。这里有三个关键抉择:第一是通道独立(Channel Independence)还是通道依赖(Channel Dependence)——前者把每条时间序列单独建模,后者试图捕捉变量之间的相互关系;第二是序列的"令牌化"方式(Tokenization),即如何把一段连续时序数据切分为模型处理的基本单元,包括逐点编码、分块编码(Series Patching,如PatchTST)、倒置编码(Inverted Encoding,如iTransformer)和正交编码(Ortho Encoding,如OLinear);第三是时间戳嵌入,即是否将时间本身的信息(如星期几、第几个月)作为额外信号注入模型。
第三道工序是网络架构(Network Architecture),也就是模型的"大脑"本身。这里涵盖了当前主流的所有架构类型:MLP类(最基础的多层感知机,包括DNN和NormLin)、RNN类(擅长处理序列的循环神经网络,包括GRU和xLSTM)、Transformer类(通过注意力机制捕捉长程依赖,包含多种注意力变体:标准自注意力、自相关注意力AutoCorr、稀疏注意力SparseAttn、频率增强注意力FrequencyAttn以及去非平稳注意力DestationaryAttn)、大语言模型类(LLM,包括GPT4TS和TimeLLM)以及时间序列基础模型类(TSFM,包括Timer、Moment、TimeMoE和Chronos)。此外,这个阶段还包括特征注意力机制(Feature Attention)和检索增强生成(Retrieval Augmented Generation,RAG)这两个附加组件。
第四道工序是网络优化(Network Optimization),包括输入序列长度(从48到512步不等)和损失函数的选择(MSE、MAE、HUBER、DBLoss、PSLoss以及FreDFLoss)。这道工序决定了模型用什么"眼光"来衡量自己预测得好不好,进而影响它如何调整自身参数。
以上四个阶段构成一个完整的预测流水线,各组件的笛卡尔积在理论上超过一百万种组合。面对如此庞大的搜索空间,研究团队需要一套聪明的实验设计方案。
三、聪明的抽样:不穷举,但保证覆盖
穷举一百万种组合显然不现实。研究团队采用了一种叫做"约束正交实验设计"的方法。简单来说,这个方法的目标是:从所有合法的组合中挑选最少的代表性样本,确保每一对组件都至少被测试过一次(称为"成对覆盖")。这就像你要品尝一家拥有十种面条和十种浇头的面馆,你不用尝遍一百碗,只需挑选少数几碗,保证每种面条和每种浇头都各自出现过——这样既能评估每种食材的单独表现,也能感受到部分搭配效果。
具体实现上,他们设计了一个贪心算法:从一个初始池出发,每次迭代都从随机生成的候选组合中,选出能覆盖最多"尚未覆盖的成对组合"的那个加入池中,直到所有合法成对组合都被覆盖。最终,每个预测时间步对应约136个实验配置,整个项目在13个真实世界数据集上完成了超过两万次模型训练与评测,消耗了大量算力(实验平台为四块80GB的NVIDIA A100 GPU以及八块40GB的A100 GPU)。
实验覆盖的数据集非常多元,包括电力、交通、气象、经济、金融、健康和流行病等多个领域的标准数据集:ETTh1、ETTh2、ETTm1、ETTm2(电力变压器数据)、ECL(电力消耗)、Traffic(旧金山湾区道路占用率)、Weather(气象指标)、Exchange(汇率)、ILI(流感患者数据)、NASDAQ、NYSE(股市数据)、FRED-MD(美联储宏观经济指标)和Covid-19(新冠疫情数据),另加M4短期预测数据集。
评测指标方面,主要采用均方误差(MSE)作为核心精度指标,并通过"标准化MSE"消除不同数据集之间的量纲差异。短期预测任务额外使用SMAPE、MASE和OWA等指标。统计分析框架分三个层次:用广义线性混合模型(GLMM)估计每个组件的独立边际贡献;用方差分析(ANOVA)量化每个组件维度解释的性能方差比例;用Cohen's d效应量衡量不同数据特性下组件效果差异的实际大小。
四、拆开来看:哪块零件最值钱
实验结果中最引人注目的发现,也许会让很多人大跌眼镜。在整个预测流水线中,数据预处理阶段(尤其是序列归一化)才是性能的最大决定因素,而不是很多人直觉上认为的网络架构。
具体来说,ANOVA分析显示,序列归一化一项单独就解释了总性能方差的63%,整个数据预处理阶段合计贡献了66.6%的方差。序列编码阶段(通道独立11.1%,序列令牌化7.1%)合计贡献18.3%。网络架构和网络优化两个阶段分别只贡献了8.0%和7.1%。换句话说,数据预处理对结果的影响,是网络架构影响的八倍多。
用厨房的比喻来理解:你花了大量时间研究锅的材质和火候(网络架构),结果发现食材的处理方式(数据预处理)才是决定菜品好坏的根本——这种颠倒直觉的发现,对整个领域的研究方向都有重要的参考意义。
研究团队还担心这个结论只是MSE这个特定指标的产物,于是专门用MAE、RMSE和MASE(一种不依赖量纲的指标)进行了交叉验证。结果显示,在MASE下,数据预处理依然贡献了58.7%的方差,而网络架构的贡献进一步下降到5.2%。预处理与架构重要性之比,反而从8.3倍扩大到了11.3倍。这说明,预处理的主导地位并非评测指标的副作用,而是这个领域的内在规律。
在组件级别的分析中,各维度也涌现出一些有趣的细节。序列归一化方面,RevIN(可逆实例归一化)和Stationary归一化效果最好,二者都能有效稳定输入分布,而完全不用归一化则会显著拖累性能。序列分解方面,出乎意料的是,大多数分解方法平均而言反而会轻微增加预测误差,而非改善它——这意味着分解操作的效果远比想象中更加依赖具体场景。通道独立策略总体上优于通道依赖,Inverted Encoding和Ortho Encoding明显优于简单的逐点编码。损失函数方面,HUBER和MAE显著优于MSE,这对长期以来把MSE作为默认训练目标的研究者是一个有力的提醒。
五、不同"大脑"类型,各有各的偏好
把所有模型放在一起看到的是全局趋势,但不同类型的模型架构对各组件的依赖程度差异相当大,这构成了研究的另一个核心发现层次。
对于MLP类模型,通道独立策略带来显著的性能提升,正交编码也表现出潜力,而序列归一化依然是最重要的性能驱动因素。MLP缺乏内置的序列处理能力,因此特别依赖良好的输入预处理来稳定信号。
对于RNN类模型,通道独立的收益几乎是全局平均值的两倍——这是因为循环网络在逐步更新隐藏状态时,不同变量之间的相互干扰会随时间累积放大,通道隔离能有效阻断这种误差传播。另一方面,移动平均分解对RNN的表现有明显的负面影响,因为平滑操作会抹去短期波动,而循环网络恰恰依赖这些细节来完成逐步更新。序列长度配置对RNN的影响也比其他架构大得多,长时间步会加剧梯度消失问题。
对于Transformer类模型,序列分解方法总体上会损害性能,研究者推测这是因为频域变换和平滑操作干扰了注意力机制捕捉复杂时序模式的能力。正交编码对Transformer的提升最为突出。损失函数设计对Transformer的影响比其他架构更大,说明复杂的注意力机制需要精心设计的训练目标来正确引导参数更新。
大型时间序列模型(包括LLM和TSFM)则展现出与传统模型截然不同的特性。LLM类模型对序列分解的敏感度是所有架构中最高的,却对通道独立策略几乎不敏感——这与大多数其他架构形成鲜明对比。TSFM类模型对序列令牌化方式极为敏感,但存在一个反直觉的现象:Series Patching(分块编码)是这些模型预训练时默认使用的编码方式,但在实验中它反而会损害微调性能,而通道独立策略则有帮助。这提示研究者,预训练时的设计选择与下游微调时的最优策略未必一致,不能简单地把预训练时的设定搬到新任务上。
在不同大型模型的内部比较中,FrequencyAttn(频率增强注意力)是Transformer家族中唯一能显著提升基线表现的注意力变体。而在大型模型家族中,与GPT4TS相比,TimeLLM和Moment的表现有所提升,但TimeMoE则不然;Timer和Chronos与GPT4TS大体相当。这些细粒度的发现为研究者在不同场景下选择起点模型提供了实用参考。
在流水线阶段的优先级方面,不同架构家族也有各自的侧重:MLP最依赖数据预处理(61.7%),TSFM最依赖序列编码(43.2%),Transformer和LLM则更依赖网络架构设计。这一发现意味着,为不同类型的模型调优时,应该把资源和精力放在不同的环节。
六、数据性格不同,零件配方也不同
除了架构差异,研究团队还系统分析了五种数据集特性如何影响各组件的最优选择,这五种特性分别是:样本量大小、分布偏移程度、时序动态特性(如自相关强度)、多变量相关性强度和平稳性。
样本量方面,当数据集足够大时,MLP类模型往往能凭借充分的训练信号收敛到很好的特征表示,其表现随样本量增加有显著提升;反而是TSFM类大型模型在大数据集上的优势不那么明显,甚至有时表现下滑——研究者推测,过多的下游适应可能会覆盖预训练阶段学到的通用知识。
分布偏移(即训练数据和测试数据的统计特性不一致)方面,标准的RevIN归一化在高分布偏移场景下效果有限,而专门针对非平稳性设计的Stationary归一化则表现出更强的鲁棒性。这说明,面对剧烈变化的数据(比如突发事件影响下的股价),需要比标准归一化更激进的预处理策略。
时序动态特性方面,Auto-Correlation(自相关注意力)在自相关性高的数据上表现更好,而Destationary Attention在非平稳性强的数据上优势突出。这印证了一个设计哲学:带有特定先验假设的机制,在它所针对的场景下确实更有效。
多变量相关性方面,通道独立策略在高度相关的多变量数据集上反而会显著拖累性能——当变量之间的关系本身就是重要的预测信号时,强行把它们隔离开来建模,就等于主动丢弃了最有价值的信息。这提醒我们,通道独立并非放之四海而皆准的"神器",选择策略要对齐数据的实际特性。
七、用"零件数据库"搭建最佳预测器
积累了如此丰富的组件级实验结果之后,研究团队进一步将其转化为实际应用价值。他们将整个实验结果构建为一个"性能语料库":对于每对(数据集,模型配置),记录标准化的排名分数,从而形成一个数据集与组件配置之间的性能映射矩阵。
基于这个语料库,他们训练了一个轻量级的"元预测器"(Meta-Predictor):对于任何一个新数据集,首先用TabPFN(一种预训练的表格数据基础模型)提取该数据集的"元特征"——不是统计数据的边缘分布,而是通过构建代理分类任务来编码数据内在的条件预测逻辑,从而捕捉数据的时序动态规律而非静态统计特性。然后,元预测器将数据集的元特征与各组件配置的嵌入表示结合,预测每种配置在新数据集上的相对排名。整个元预测器是一个两层MLP,训练完成后,面对新数据集时无需任何额外训练,只需提取元特征、获取配置排名预测,选出排名最高的若干配置组合即可——完全零样本部署。
这个系统的选择质量非常出色:在所有评测任务中,元预测器推荐的前五个配置里,有98%落在所有配置中排名最高的25%分位,超过99%落在前50%分位,远超随机选择25%的基准线。
在与主流方法的对比评测中,TSCOMP的自动化搭建方案(基于MLP骨干)在14个长期预测任务指标中拿到10个最优,在M4短期预测基准上也位居第一。与此同时,它超越了AutoGluon、AutoTS等AutoML方法,也超过了GPT4TS、Timer、Moment等大型时间序列模型——而这些大型模型还是在全量数据微调的条件下评测的,TSCOMP却是零样本推荐后直接训练一个轻量MLP。
与TimeFuse(另一种自适应融合方法)相比,TSCOMP在MSE上最多能领先10.4%。更重要的是,TSCOMP的在线推理成本远低于竞争对手:在ETTh1数据集上,AutoGluon的在线处理时间超过1100秒,而TSCOMP-fast变体仅需约163秒,性能却更优。整个语料库构建(约20760条记录)确实需要可观的离线算力,但这部分成本是一次性的,面对新任务时用户无需重复承担。
研究团队还专门测试了将RNN和Transformer纳入搜索空间是否能带来额外收益。结果发现,在168个评测场景(7个数据集×4个预测长度×3种Top-K设置×均值/中位数两种统计方式)中,MLP骨干在164个中排名第一,与仅使用MLP的搜索空间相比,扩展骨干类型带来的性能提升几乎可以忽略不计。这进一步确认了MLP作为预测骨干的稳健性,也说明TSCOMP框架本身是架构无关的,只是在当前条件下MLP确实是最佳选择。
八、组件之间的"化学反应"
研究团队还额外分析了组件之间的相互作用,以验证"主效应分析"这一核心假设是否成立。通过严格的三类ANOVA和多重比较校正,他们评估了54个成对交互和66个三阶交互组合。结果显示,30个成对交互和58个三阶交互在统计上是显著的,说明交互效应确实存在且普遍。
然而,从方差贡献角度来看,主效应依然压倒性地主导性能:单独的主效应解释了27.29%的总方差,加入成对交互后仅增加到32.56%,增量仅5.27%。最大的单个交互效应量(η?)也只有0.043,与主效应的贡献相比微不足道。其中最显著的成对交互是"注意力类型×损失函数"和"归一化方法×骨干架构";最显著的三阶交互则涉及时间戳嵌入、分解方法、序列长度等维度的组合。这些发现支持了主效应作为自动化选择和分析排名的有效近似,同时也提示在某些特定场景下,组合效应仍值得深入关注。
在直观的成对交互分析中,研究者发现了两个典型案例:简单MLP搭配稀疏特征注意力能产生出人意料的优秀表现,说明轻量骨干与显式特征相关性建模存在协同效应;另一方面,在没有序列归一化的情况下,标准MSE损失的表现尤其糟糕,揭示MSE对分布偏移缺乏鲁棒性。
说到底,TSCOMP这项研究最值得记住的信息,并不是某个新模型刷新了某个数据集的纪录,而是它改变了我们看待"怎样做好时间序列预测"这个问题的方式。长期以来,研究者们把精力集中在网络架构的创新上——更复杂的注意力机制、更深的堆叠层数、更多的参数——而这项研究用两万多次实验清晰地告诉我们:在你大费周章地设计新架构之前,先把数据预处理做好,尤其是归一化,往往能事半功倍。
这不是说架构不重要,而是说不同组件的重要性存在明显的优先级,而且这个优先级因架构类型和数据特性的不同而显著变化。把这些规律系统化、可查询化,并用一个轻量的元预测器自动完成选择,这正是TSCOMP框架的核心价值所在。对于希望在新业务场景中快速搭建预测系统的工程师来说,这套方法提供了一条比"试遍所有最新模型"更有效率的路径。对于研究者来说,这套组件级评测体系也为未来发表新方法时如何更严谨地论证其贡献提供了参考框架。
有兴趣深入了解的读者,可以通过DOI 10.1145/3770855.3817551查阅原论文,或在arXiv上搜索编号2605.26562获取预印本,完整的代码和性能语料库也已在GitHub的SUFE-AILAB/TSCOMP仓库中公开。
Q&A
Q1:TSCOMP框架是如何做到"零样本"推荐模型配置的?
A:TSCOMP先在大量历史数据集上完成了两万多次实验,建立了一个记录"哪种配置在哪类数据上效果好"的性能语料库。当遇到新数据集时,系统会用TabPFN提取该数据集的动态特征(比如它的时序规律长什么样),再用训练好的元预测器匹配最相似的历史模式,直接推荐排名最高的配置——整个过程不需要在新数据集上跑任何训练实验。
Q2:序列归一化为什么对时间序列预测这么重要?
A:时间序列数据经常出现分布漂移,也就是训练阶段和预测阶段的数据统计特性不一样(比如股价的波动幅度在不同年份差异很大)。归一化能在每次输入时动态校正这种偏差,让模型看到的数据更"标准"。实验发现,RevIN和Stationary归一化能解释高达63%的性能方差,说明预处理做好了,即便用最简单的MLP也能超越很多复杂架构。
Q3:通道独立策略什么时候会失效?
A:当多个变量之间存在强烈的相互影响时,通道独立(把每条时序单独建模)会主动丢弃变量间的关系信息,反而损害预测效果。实验证明,在高相关性数据集上,采用通道独立的模型误差显著更高。所以这个策略不是万能的,需要先判断数据中变量间的相关性强弱,再决定是否使用。





京公网安备 11011402013531号