![]()
这项由Datadog AI研究院与卡内基梅隆大学联合完成的研究,于2026年5月发布于技术报告平台,论文编号为arXiv:2605.20119v1,发布日期为2026年5月19日。有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。
**一项关于"越大越好"的追问**
每隔一段时间,技术世界都会发生一次令人侧目的范式跳跃。在自然语言处理领域,研究者们发现了一个近乎神奇的规律:当语言模型的参数量从几百万增长到几十亿,它的能力并非线性提升,而是呈现出令人惊讶的飞跃。这个"越大越强"的现象,被称为"规模化定律",它催生了GPT系列、BERT等一代代强大的语言模型。
然而,当同样的问题被抛向另一个同样重要的领域——时间序列预测——时,答案却一直是令人沮丧的"不一定"。时间序列预测,通俗地说,就是根据过去的数据变化趋势,预测未来会发生什么。股票价格明天会涨还是跌?服务器明天的负载会有多高?某个城市下周的用电量会达到多少?这些问题背后,都是时间序列预测在默默工作。
在这个领域,研究者们已经开发出了所谓的"时间序列基础模型"——类似于语言处理中GPT那样的通用大模型,试图用一个模型解决所有类型的时间序列预测问题。但长期以来,这些模型有一个让人头疼的特点:把模型做大,不一定能让它更准确。有时候,一个更大的版本反而比更小的版本表现更差。这就好比你花了更多钱买了一台更大的烤箱,却发现烤出来的蛋糕还不如小烤箱的好——这种不稳定性,严重阻碍了这个领域的发展。
Datadog AI研究院的团队决定正面回答这个问题:时间序列基础模型,到底能不能像语言模型那样,可靠地随着规模增大而变得更好?他们的答案,就是Toto 2.0。
**Toto 2.0是什么?**
Toto 2.0是一个由五个不同规模模型组成的"家族",这五个模型的参数量分别是400万、2200万、3.13亿、10亿和25亿。参数量可以粗略理解为模型的"知识容量"——参数越多,模型能记住和处理的信息就越复杂。这五个模型使用同一套训练方案,从最小的400万参数一路扩展到25亿参数,研究团队要验证的核心命题就是:每一个更大的版本,是否都比更小的版本预测得更准?
研究结果令人振奋:答案是肯定的。在研究团队评测的三个主流预测基准测试上,Toto 2.0家族不仅全面领先竞争对手,而且呈现出清晰的"越大越强"趋势。这是时间序列预测领域第一次真正意义上实现了可靠的规模化——正如研究团队在论文中所说,这标志着时间序列预测正式进入了"规模化时代"。
更令人印象深刻的是,Toto 2.0在训练时完全没有使用任何公开的时间序列数据集。它只用了Datadog公司内部的运维监控指标数据和合成生成的数据,却在通用基准测试上击败了那些大量使用公开数据训练的竞争对手。这就像一个从未读过任何烹饪书的厨师,却在厨艺大赛上赢了那些博览群书的专业厨师——这背后,必然有着独特的"秘方"。
**一、换掉"一步一步走"的老方法:并行预测的革命**
要理解Toto 2.0的第一个核心改进,先来回想一下天气预报是怎么做的。旧式的天气预报系统,先预测明天的天气,然后基于明天的预测结果,再预测后天,再基于后天预测大后天……这种"链式预测"方法有一个致命弱点:如果第一步预测有一点点偏差,这个偏差会被不断放大,最终导致一周后的预测几乎失去参考价值。
Toto 2.0的前身Toto 1.0就是用这种"一步一步走"的方式进行预测的,每次预测一个"补丁"(可以理解为一小段时间),预测完一段再预测下一段。如果需要预测1024个时间步长,就需要进行16次串行的前向计算,既慢又容易积累误差。
Toto 2.0引入了一种叫做"连续补丁掩码"(CPM)的机制,彻底改变了这个游戏规则。这个机制的核心思想是:与其一步步往前走,不如把整个未来的时间段都"盖住",然后让模型一次性把所有被盖住的部分都填上。
具体来说,在训练阶段,模型会随机将输入序列中的某些连续片段"遮住"(就像做填空题一样,把某些单词挖去),然后训练模型学会把这些空白填写完整。这种训练方式让模型学会了"整体思考"的能力——它不是被迫一步步往前推断,而是能够一次性感知整个待预测区间,然后给出一个内部一致的整体预测。
在实际预测时,模型将需要预测的整个时间段都用"掩码标记"填充,然后一次性通过模型,得到完整的预测结果。这意味着原本需要16次串行计算才能完成的1024步预测,现在只需要一次前向计算就能搞定。
研究团队还发现,对于特别长的预测任务,还可以采用"分块解码"的策略:把待预测时间段分成几个大块,每块一次完成,然后将已完成的块作为上下文输入,继续预测下一块。这种方式虽然比纯单次预测多几步,但比老式的逐步预测仍然快得多,而且对于超长预测更加稳定。
在超参数搜索中,研究团队发现最优的掩码设置是最大连续掩码长度为16个补丁、最大掩码比例为40%,这比同类方法TiRex的参数(5个补丁,25%)要宽松得多,说明Toto 2.0具备处理更长遮蔽片段的能力。
**二、换掉"测量不确定性"的旧工具:更稳定的概率预测方式**
预测未来不仅要给出一个点估计("明天气温22度"),更要给出一个概率分布("明天气温有70%的概率在20到25度之间")。这种概率化的预测在工程运维场景中尤为重要,因为运维工程师需要知道的不只是"服务器明天的负载大概是多少",还需要知道"有多大概率负载会超过警戒线"。
Toto 1.0采用了一种叫做"Student-T混合模型"的方式来生成概率预测。这种方法在小规模模型上表现良好,但当模型规模越来越大、训练数据越来越多样时,它开始出现麻烦:当激活值过大时数值不稳定,当预测值接近零时会出现数学上的奇点(类似于除以零这样的问题)。这就像一把精密的温度计,在正常温度范围内很准确,但一旦温度极端,它就开始失灵。
Toto 2.0改用了"分位数输出头"——它的工作方式更像是给出一个价格区间,而不是精确价格。模型会同时预测九个分位数:10%、20%、30%……一直到90%。这意味着,对于任何一个未来时间点,模型会告诉你:"有10%的概率这个值会低于X1,有50%的概率低于X2,有90%的概率低于X3……"
这种预测方式的训练使用了一种叫做"pinball损失"的数学目标函数。这个名字很形象——就像弹球游戏里,弹球偏左和偏右的惩罚是不对称的,同样地,预测值高于真实值和低于真实值所受到的惩罚权重,会根据你预测的是哪个分位数而有所不同。
分位数方法之所以更稳定,在于它对极端值不敏感。不管真实值是0.001还是1000000,模型只需要判断它在预测的分位数的哪一侧,梯度(训练时的调整信号)始终保持在固定的几个值之间,不会因为数值范围不同而剧烈变化。在推理时,模型还会对预测出的九个分位数进行排序,以防止出现"低分位数值反而高于高分位数值"这样自相矛盾的情况。
**三、为"sign-only梯度"量身打造的优化器:NorMuon的引入**
训练深度学习模型,本质上是在一个巨大的"误差地形"中寻找最低谷——误差最小的地方,就是模型参数的最优解。优化器就是负责引导模型在这个地形中"下山"的工具。
Toto 1.0使用的是AdamW,这是目前最流行的优化器之一,几乎所有大型语言模型都在使用它。AdamW的工作原理可以这样理解:它不仅知道应该往哪个方向走(梯度方向),还会根据过去几步走了多远(梯度的方差),来判断这一步应该迈多大。如果过去一直走得很稳定,就大步前进;如果方向一直在变,就小步谨慎。
然而,当把AdamW和分位数损失函数配合使用时,问题出现了。分位数损失函数产生的梯度非常特殊——它几乎只有"正"和"负"两种值(就像只能说"太高了"或"太低了",无法说"差了多少")。这意味着梯度只告诉模型该往哪个方向调,却不告诉模型该调多少。而AdamW的步长估计机制,很大程度上依赖于梯度的幅度变化,在这种"只有方向、没有幅度"的信号下,它的优势大打折扣。
研究团队转向了一种新兴的优化器——NorMuon。这个优化器的思路很不一样。它的前身Muon(由Jordan等人在2024年提出)的核心操作是:将梯度矩阵通过一种叫"Newton-Schulz迭代"的数学变换,使其所有"奇异值"都趋近于1。直观地说,这让每个参数方向上的更新幅度大致相等,避免了某些参数被大幅调整而其他参数几乎不动的问题。Muon在语言模型训练中已经展现出相比AdamW约2倍的计算效率优势,被Moonshot AI的Kimi K2等万亿参数级别的模型所采用。
但纯Muon有一个问题:虽然它使梯度矩阵的奇异值趋于均匀,但每行(对应神经网络中每个神经元)的L2范数仍然可能差异悬殊,导致某些神经元在每次更新中贡献远大于其他神经元。NorMuon在Muon的基础上增加了一步"按神经元归一化"的操作:为每个神经元的更新维护一个指数移动平均的平方幅度估计值,用它来缩放该神经元的更新步长。这既保留了Muon的方向优化能力,又通过类似AdamW的方差机制恢复了每个神经元级别的步长自适应能力——而且这种自适应是在神经元整体层面进行的,比AdamW逐参数的方式更有整体感。
在实际配置中,研究团队用NorMuon优化模型内部所有矩阵形状的参数,用AdamW优化输入输出投影、偏置和归一化层。此外,他们还采用了Nesterov动量、Polar Express(一种改进的矩阵正交化迭代算法,在低精度下收敛更快)、谨慎权重衰减(只对那些权重调整方向与优化器更新方向一致的参数施加衰减)等多项配套技术。
**四、其他架构改进:让模型更"感知细节"**
除了上述三大核心改变,Toto 2.0还在架构细节上做了多项优化,每一项单独看似乎不起眼,组合起来却产生了显著效果。
补丁大小从64缩减到32,这意味着模型在处理同样长度的输入时,会将其切分成更多、更细的"片段"来处理。用摄影来类比,这就像是从拍一张低分辨率全景照片,改成拍多张高分辨率局部照片——模型能够捕捉到更精细的时间序列变化模式,代价是需要更多的计算资源。
输入归一化方面,Toto 2.0引入了反双曲正弦变换(arcsinh)。这种变换的特性非常适合处理运维监控数据:当数值接近零时,它表现得像普通的线性缩放,完整保留微小变化的细节;当数值变得非常大时,它会以对数方式压缩,避免极端值主导训练过程,同时又不像对数变换那样无法处理负值。想象一根弹性橡皮筋:在中间部分,它一伸一缩都很灵敏;但当你把它拉到极限,它的阻力越来越大,不会无限延伸——arcsinh变换对数据的处理方式与此类似。
补丁嵌入层(把原始数据片段转换为模型可处理的向量表示)和输出投影层,都从简单的线性变换改成了两层带残差连接的SiLU激活网络。这相当于在数据进入主模型之前,先经过一个能学习非线性特征的预处理器,让模型能够在输入和输出两端都获得更丰富的表达能力。
注意力机制上,新增了"PerDimScale"(每维度独立的查询缩放因子),这也是TimesFM 2.5所采用的技术,能让模型更灵活地调整不同特征维度在注意力计算中的权重。同时,完全缺失观测值的补丁会被从注意力计算中屏蔽掉,避免"空数据"干扰模型的注意力分配。
**五、从"观测数据"到"合成数据":训练数据的重大转变**
Toto 1.0的训练数据由三部分构成:约1万亿个来自Datadog内部监控指标的数据点、约7800亿个合成生成的数据点,以及约5800亿个来自公开时间序列数据集的数据点,合计约2.36万亿个数据点。
Toto 2.0做了一个看似反直觉的决定:完全删除公开数据,同时大幅增加内部监控数据和合成数据。三个较大的模型(3.13亿、10亿、25亿参数)共看到约5.04万亿个数据点,其中内部监控数据约2.14万亿个,合成数据约2.90万亿个;两个较小的模型(400万、2200万参数)看到约3.40万亿个数据点,两类数据的相对比例保持不变。最终的训练混合比例是42.5%内部监控数据加上57.5%合成数据。
删除公开数据这个决定,实际上是由超参数搜索实验"发现"的——研究团队在代理模型上进行的系统性搜索表明,最优数据混合方案中公开数据的权重为零。这个结果令人出乎意料,但数据说话。研究团队的解释是:公开时间序列数据集的规模和多样性,在他们的训练规模下,相比高质量的合成数据和丰富的内部监控数据,并不能提供额外的价值。
合成数据方面,Toto 2.0从简单的随机过程升级到使用TempoPFN方法生成的合成数据。TempoPFN背后是一个叫做"先验数据拟合网络"(PFN)的框架:先设计一套丰富的数学先验(包含非平稳趋势、突变点、长程依赖等复杂特征),然后从这个先验中大量采样,得到多样化的合成时间序列。这样生成的合成数据,比简单随机过程产生的数据更贴近真实世界时间序列的复杂特性。
内部监控数据的采样频率分布也经过了重新平衡。Toto 1.0的训练数据中,78.5%是10秒采样频率的高频数据,60秒采样占16.5%,5分钟以上的长周期数据只占5%。Toto 2.0将5分钟以上的数据比例提高到35.3%,10秒数据降到47.1%,60秒数据小幅提升到17.6%。这种重新平衡使模型能够更好地学习不同时间尺度上的数据模式。
值得特别指出的是,公开数据确实在Toto 2.0的流程中出现了,但仅限于微调阶段(而非预训练阶段)。在针对GIFT-Eval基准测试进行微调时,公开数据占到了微调混合数据的45%。这说明公开数据在迁移学习场景下是有价值的,只是在大规模预训练中,高质量合成数据和内部数据的组合效果更好。
**六、超参数跨规模传递:一次调好,五个模型都受益**
训练五个不同规模的模型,面临一个实践上的巨大挑战:不同规模的模型,往往需要不同的超参数(学习率、权重衰减、批次大小等)。在标准参数化方式下,最优学习率可能随着模型宽度的增加而变化一个数量级。如果要为每个规模的模型单独进行超参数搜索,成本将极为高昂——毕竟,训练一个10亿参数的模型需要好几天时间,大规模的超参数搜索根本不可行。
研究团队的解决方案是采用u-μP(unit-scaled Maximal Update Parametrization,单位缩放最大更新参数化)技术。这是一种特殊的模型参数化方式,其核心特性是:让最优学习率与模型宽度无关。换句话说,如果你在一个小模型上找到了最优学习率,把这个学习率直接用在更大的模型上,效果同样是最优的。
这就像发现了一个"烤蛋糕的万能配方":不管你是用小烤箱还是大烤箱,这个温度设置和烘焙时间都能得到最好的效果,而不需要针对每个烤箱单独摸索。
u-μP的工作原理基于一套精心设计的参数缩放规则:每个隐藏层的权重矩阵都被重新参数化为基础权重乘以一个依赖于扇入大小的缩放因子,更新步长同样经过相应缩放,使得跨宽度的激活值和梯度方差保持一致。这是Toto研究团队所知的首次将μP应用于时间序列预测的尝试。
研究团队构建了一个1000万参数的代理模型(12层,隐藏维度256,4个注意力头)作为超参数搜索的实验对象。之所以选择256维作为最小宽度,是因为理论和实验都表明,低于这个阈值,最优超参数可能开始漂移。每次搜索实验训练30000步,使用与目标模型相同的批次大小,在配备暖机-稳定-衰减(WSD)学习率调度的情况下,每次实验只需几个小时,而不是好几天。
搜索过程被分解为四个依次进行的轮次,每轮聚焦于一组相关的决策,每轮的最优结果作为下一轮的起点。第一轮确定架构细节(注意力归一化方式、跨变量注意力层的出现频率、哪些层加偏置、CPM参数);第二轮确定数据混合比例;第三轮确定优化器超参数(学习率、权重衰减、动量系数等);第四轮确定学习率衰减调度(长度和形状)。所有四轮都使用Optuna框架中的树结构帕尔森估计(TPE)采样方法,以GIFT-Eval验证集上的MASE和CRPS指标为优化目标。
搜索结果中,第一轮确认PerDimScale优于QK归一化,跨变量注意力层放在每个堆栈的最后一层效果最好;第三轮找到的最优NorMuon学习率为0.652(在u-μP框架下这是合理范围),AdamW学习率为0.012;第四轮发现线性衰减优于1-sqrt衰减,最优衰减长度为10500步。
五个目标模型的架构配置如下:400万参数模型有4个Transformer块、隐藏维度256、4个注意力头;2200万参数模型有6个块、维度512、8个头;3.13亿参数模型有24个块、维度1024、16个头;10亿参数模型有36个块、维度1536、24个头;25亿参数模型有48个块、维度2048、32个头。所有模型的注意力头维度固定为64,处理4096步长的上下文窗口,补丁大小32,每次处理32个变量,全局批次大小64。较小的两个模型在40万步时收敛,较大的三个模型在40万步时仍在持续进步,最终训练了60.05万步。
**七、让u-μP在大规模分布式训练中真正可用**
理论上优美的东西,要在工程实践中运行,往往需要大量额外的工作。u-μP的上游开源库最初是为单GPU、非编译模式设计的,而大规模模型训练需要torch.compile(用于加速计算图的编译优化)、FSDP2(跨多GPU的参数分片技术)、数据并行和张量并行等多种分布式技术。这些技术的每一个,都可能破坏u-μP用于追踪参数缩放信息的元数据。
研究团队为此开发了dd_unit_scaling库,专门解决这些兼容性问题,并将其开源供社区使用。具体来说,他们重写了自动梯度缩放函数以消除图断点,允许在编译前缓存分布式状态;在FSDP2分片前按参数名称缓存所有μP元数据,防止它在张量替换过程中丢失;将所有批次相关的缩放因子都基于全局有效批次大小(本地批次×GPU数量×梯度累积步数)来计算,并将损失乘以GPU数量以抵消DDP的梯度平均。
对于序列长度不变性的问题,由于单位缩放的注意力机制包含依赖序列长度的缩放因子,而KV缓存在推理时会随着解码步骤改变有效序列长度,这会导致不一致。研究团队选择在注意力层和MLP激活中禁用单位缩放,但保留μP标准的1/dk注意力缩放。由此产生的残差分支方差不匹配,通过调整残差注意力比例参数来缓解,具体设置为根号(S/logS),其中S为上下文长度除以补丁大小,残差整体缩放因子设为0.75。
**八、三场考试,全部第一:Toto 2.0的成绩单**
评估一个时间序列预测模型,就像评估一个学生,需要让他接受多门不同科目的考试。研究团队选择了三个基准测试:BOOM(专注于运维监控类数据)、GIFT-Eval(通用时间序列预测的标准综合基准)和TIME(专门用于对抗"数据污染"问题的新型基准)。
在BOOM上,Toto 2.0的每一个规模都坐上了"帕累托前沿"——在相同参数量下,没有任何其他模型能打败它。以CRPS排名指标(一种衡量概率预测质量的综合分数,越低越好)为例,25亿参数模型得到3.88,10亿参数得到3.96,3.13亿参数得到4.26,这三个成绩远超排名第五的TimesFM 2.5(7.70)。2200万参数的Toto 2.0以5.53的成绩超过了Toto 1.0(6.94),实现了以约7分之一的参数量达到更高准确率的效率飞跃。400万参数的最小版本以7.17的成绩与Toto 1.0和Chronos-2(7.39)相当,却只有约38分之一的参数量,使其成为边缘部署场景下极具吸引力的选择。
在GIFT-Eval上,情况同样令人满意。这个基准横跨23个基础数据集、涵盖97个评估任务,涉及能源、零售、天气、金融等多个领域。Toto 2.0三个最大的模型分别以20.3、21.1和21.4的CRPS排名占据前三位,领先第四名PatchTST-FM r1(23.1)约1.7个排名单位。特别值得注意的是,排名第六的Chronos-2(23.5)使用了大量公开时间序列数据进行训练,而Toto 2.0在预训练阶段完全没有使用公开数据,却表现得更好。2200万参数的Toto 2.0以26.8的成绩超过Toto 1.0(35.1)超过8个排名单位。
研究团队还探索了两种进一步提升的方向:微调和集成。在微调方面,他们在25亿参数的基础模型上,使用包含GIFT-Eval训练集(15%)、GIFT-Eval预训练集(45%)、Datadog观测数据(合计30%)和合成数据(10%)的混合数据集,以显著降低的学习率(NorMuon降至0.05,AdamW降至0.001)进行10000步微调,得到Toto 2.0 2.5B-FT。在集成方面,他们构建了Toto 2.0 FnF——一个用XGBoost元学习器选择权重、对十个基础模型(五个Toto 2.0尺寸加上Chronos-2、TimesFM 2.5、TiRex、FlowState、PatchTST-FM r1)进行加权组合的集成系统。元学习器从每个输入时间窗口提取统计矩、自相关、季节性、频率、预测步长等轻量级特征,然后为每个(频率、预测期长度)组合分别学习一套权重,共20套。
这两个系统在GIFT-Eval完整排行榜(包含微调、集成、智能体方法)上位居前两名:FnF集成以所有指标第一(在原始CRPS上与TSOrchestra并列),2.5B微调版本在排名指标上第二,在原始指标上第三。
集成系统内部的权重分析揭示了一个有趣的现象:元学习器在所有预测任务上平均分配给Toto 2.0家族39%的权重,超过Chronos-2(32%)和其余四个外部模型的权重之和。这表明,当元学习器被允许自由选择如何利用所有可用模型时,它选择主要依赖Toto 2.0家族。
TIME基准测试的结果同样令人满意。这个基准特意使用了50个此前很少出现在时间序列预测研究中的"新鲜"数据集,包含98个任务,专门为了避免测试集数据在预训练期间被"见过"的污染问题。预测步长也是根据真实运营需求设定的,而非机械地分为短/中/长三档。Toto 2.0在TIME的每个指标上都拿下前三名,25亿参数版本在CRPS排名(3.43)、MASE排名(3.54)和原始CRPS(0.532)上均排第一,最强竞争对手Chronos-2排第四(CRPS排名4.03),PatchTST-FM r1排第五(5.04)。在TIME上,Toto 2.0家族内部的规模递增不像BOOM和GIFT-Eval那样完全单调:3.13亿参数版本在MASE和两个排名指标上略好于10亿参数版本,是这个家族中唯一出现的规模-质量逆转点,但即便如此,所有五个Toto 2.0模型都超过了Toto 1.0。
**九、速度革命:并行解码带来的延迟优势**
CPM不只是提高了预测质量,还带来了显著的推理速度提升。研究团队在预测长度为1024步的场景下,将Toto 2.0与Toto 1.0和Chronos-2进行了延迟对比。
对于1024步预测,Toto 1.0需要进行16次串行前向计算,而Toto 2.0只需一次。数据显示,每一个Toto 2.0模型在这个预测长度下都显著快于Toto 1.0。3.13亿参数的Toto 2.0与约1.2亿参数的Chronos-2延迟大致相当,也就是说,Toto 2.0用更大、更准确的模型,达到了比自己小得多的竞争对手的推理速度。
在预测长度与延迟的关系图中,Toto 2.0的单次前向传播模式延迟在768步以内几乎是平的(因为所有步长都在一次计算中完成),而Toto 1.0和Chronos-2的延迟随预测长度线性甚至超线性增长。在超过768步的预测长度下,Toto 2.0切换到分块解码模式,延迟随之增长,但速度仍然远超Toto 1.0。即便是在预测步长达到4096步的场景下,25亿参数Toto 2.0的单次前向传播模式延迟仍然低于Chronos-2。
**十、望向远方:超长预测的稳定性测试**
在标准基准测试中,预测步长通常在模型训练上下文窗口之内或接近边界。但实际生产场景中,有时候需要远超训练窗口的预测。研究团队用一个可视化实验来探索这种"超长预测"场景下不同规模模型的表现。
他们生成了由三种不同周期(500步、100步、20步)的正弦波叠加而成的合成信号,然后要求每个模型分别预测2048步、4096步和8192步(而模型的训练上下文窗口是4096步)。评估指标是预测值与真实值的Pearson相关系数,越接近1表示预测越准确。
结果呈现出清晰的"规模-稳定性"阶梯。400万参数的最小模型在2048步预测时相关系数就只有0.538,在8192步时降至0.173,几乎失去了捕捉信号结构的能力。2200万参数版本在2048步时相关系数为0.805,但到4096步就降至0.484,到8192步仅剩0.315。
3.13亿参数版本在2048步(0.986)和4096步(0.947)表现很好,但在8192步时降至0.681,开始失去对信号的把握。10亿参数版本在所有三个预测步长上都保持了相对稳定的相关系数:0.984、0.945、0.643,显示出对超训练窗口预测的更强鲁棒性。25亿参数版本进一步改善:0.990、0.979、0.818,即便在8192步这样极长的预测步长下,仍然保持了较强的信号追踪能力。
作为对比,Toto 1.0在2048步时相关系数为0.816,但到8192步就降至0.333;Chronos-2(尽管在更长的序列上训练过)在2048步为0.663,8192步仅剩0.310,都明显弱于Toto 2.0的大模型。研究团队明确指出,这个实验是"说明性稳定测试",而非证明模型能外推到真正新颖的动态——但即便如此,规模带来的稳定性优势也相当明显。
**归根结底,这一切意味着什么?**
说到底,Toto 2.0给时间序列预测领域带来的最大贡献,不只是几个更高的基准测试分数,而是一个可复现的"规模化配方":一套固定的训练方案,在400万到25亿参数范围内,可靠地产生随规模递增的性能提升。这在时间序列预测领域此前从未被证明过。
对于普通用户来说,这意味着未来的时间序列预测服务会越来越准确,而且不同规模的模型可以满足不同的使用场景:资源有限的边缘设备可以用400万参数的小模型,追求极致准确率的云服务可以用25亿参数的大模型。
研究团队在论文结尾也坦诚地列出了目前仍然存在的差距。即便是25亿参数的Toto 2.0,在需要非常长步长预测的任务上,仍然不如一个精心拟合的经典季节性模型。数据策划(如何选择、过滤、平衡训练数据)在时间序列领域还远不如语言模型那样系统化和成熟。评估指标是否真正捕捉到了生产场景中用户真正关心的东西,也还有探讨空间。而将时间序列数据与日志、链路追踪、告警、代码变更等其他数据类型融合起来,构建真正理解分布式系统行为的多模态模型,是研究团队描述的长远目标。
如果你对这项研究的所有细节感到好奇,完整论文可以通过arXiv编号2605.20119在arXiv平台上找到。
Q&A
Q1:Toto 2.0的五个模型规模分别是多少,各自适合什么场景?
A:Toto 2.0包含400万、2200万、3.13亿、10亿和25亿参数五个版本。400万参数版本体积极小,适合资源受限的边缘设备部署;2200万参数版本以约七分之一的参数量达到Toto 1.0的精度;三个大版本(3.13亿、10亿、25亿)则适合追求极致预测准确率的云端服务,其中25亿版本在三个主流基准测试上均排名第一。
Q2:Toto 2.0为什么训练时不用公开数据集反而效果更好?
A:这是超参数搜索实验的"意外发现"。研究团队在系统性搜索中发现,在他们的训练规模下,最优数据混合方案中公开数据的权重自动降为零。高质量的合成数据(使用TempoPFN方法生成,包含复杂趋势、突变点和长程依赖)加上Datadog丰富的内部监控数据,在预训练阶段提供了比公开数据集更有价值的训练信号。公开数据在微调阶段仍有价值,占微调数据的45%。
Q3:分位数输出头和Student-T混合模型相比有什么优势?
A:Student-T混合模型在模型规模扩大时会出现数值不稳定问题:激活值过大时可能发散,预测值接近零时会产生类似"除以零"的数学奇点。分位数输出头通过同时预测九个分位数(10%到90%)来描述预测的不确定性,其训练信号(pinball损失的梯度)始终保持在几个固定值之间,不受预测数值大小影响,因此在大规模训练中更加稳定。此外,推理时对九个分位数排序还能防止出现自相矛盾的预测结果。





京公网安备 11011402013531号