![]()
这项由慕尼黑工业大学(Technical University of Munich)与慕尼黑机器学习中心(Munich Center for Machine Learning,MCML)联合完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026,Seoul, South Korea,PMLR 306),论文编号为arXiv:2605.10315,有兴趣深入了解的读者可通过该编号查询完整论文。
一、问题从何而来:数据稀缺是个大麻烦
在医疗、金融、科学实验这些关乎真实决策的领域里,数据往往是稀缺资源。医院不能随意公开患者病历,金融机构的交易记录涉及隐私,科学实验的样本采集耗时又费钱。数据一少,训练出来的人工智能模型就像只见过几道菜谱的厨师——遇到没见过的食材,便手足无措。
于是,研究者们很自然地想到一个办法:既然真实数据不够,那就"造"一些出来用。这种"造数据"的技术,行话叫做数据增强(Data Augmentation)。方法有很多种,比如在已有数据附近做一些小幅变动,或者用生成模型学习数据的分布规律,然后凭空生成新样本。
然而问题来了。研究团队发现,现有的大多数"造数据"方法都有一个共同的毛病:它们专注于让生成出来的数据看起来"像真的",却不关心这些数据对训练AI是否真正有帮助。就好像你请一个画师临摹大师名画,画出来的确实惟妙惟肖,但如果你真正需要的是一张简笔示意图,那这幅精细的临摹毫无用处,甚至还浪费了挂画的墙壁空间。
研究团队将这个现象命名为"保真度-效用鸿沟"(Fidelity-Utility Gap),意思是:数据生成得多像真实数据(保真度高),并不等于它对下游任务多有帮助(效用高)。这两件事并不是一回事,而现有技术几乎全部盯着保真度,却忽视了效用。
为了解决这个问题,研究团队提出了一套全新的方法,命名为TAP(Tabular Augmentation Policy,表格数据增强策略)。整个研究的核心思路可以用一句话概括:不只是学"怎么造数据",更要学"造什么数据"以及"什么时候把造好的数据注入进去"。
二、鸿沟的本质:为什么好看不等于好用
要理解这个问题,不妨用一个打游戏的类比来思考。假设你在教一个新手玩家练习足球游戏,你给他看了一千场比赛录像,这些录像都是顶级球队的精彩操作,画面清晰、动作标准,可以说"保真度极高"。但问题在于:这个新手最弱的地方是边路传中配合,而那一千场录像几乎全是中路进攻。他看了再多精彩录像,那个薄弱环节还是没有得到针对性练习。
现有的数据生成模型大多是这种逻辑:努力学习真实数据的整体分布,然后从高密度区域(也就是"最常见"的地方)采样生成新数据。这些数据确实很真实,但对于AI模型来说,它们往往集中在模型已经学得差不多的区域,属于"锦上添花",而不是"雪中送炭"。
真正对AI有帮助的数据,往往藏在两类地方。一是决策边界附近,就是AI最拿不准答案、最容易出错的区域。二是被欠覆盖的子群体,就是训练数据中出现很少、导致AI对其认识不足的那部分样本。然而这两类区域恰恰都处于真实数据分布的低密度区域,传统生成模型几乎不会去那里采样。
研究团队还给这个问题做了一个数学上的形式化描述。他们定义了一个"边际效用"函数:用当前AI模型的错误率,减去把新生成的数据注入进去之后的错误率。差值越大,说明这批新数据越有价值。目标不是让生成数据像真的,而是让这个差值最大化。
然而这个目标直接优化起来极其困难,因为每次评估都需要重新训练AI模型,计算代价太高。正是这个困难,催生了TAP方法的核心设计思路:用一个轻量级的"裁判"来快速估计效用,并用强化学习的方式训练一个策略,让它学会在每个时刻选择最有价值的数据生成方式。
三、TAP是什么:一个带裁判的生成系统
TAP的工作流程可以用一个类比来理解:把整个数据增强过程想象成一家餐厅的日常运营。餐厅里有一位经验丰富的厨师(扩散模型),能做出各种风格的菜肴;有一位服务员(策略网络),负责观察当天顾客的口味偏好,告诉厨师今天该重点做什么菜;还有一位质检员(可行性门控),检查每道菜的基本质量是否合格;最后有一位主管(窗口承诺机制),决定什么时候把这批菜正式端上桌,而不是随便什么时候都往桌上放。
TAP的扩散模型骨干采用的是TabDiff,这是一种专门为表格数据设计的扩散模型,能够处理数值型和类别型混合的数据。TAP使用的生成技术叫做扩散内绘(Diffusion Inpainting),这个概念可以从图像修复类比过来理解:就好像你有一张照片,把其中一部分遮住,让AI根据其余部分来补全那被遮住的区域。应用到表格数据上,就是固定某一行数据中的部分列(比如固定患者的年龄和性别),然后让模型重新生成其余列(比如某项化验指标),生成出来的新行数据在统计上与原始数据保持一致,但又引入了适度的多样性。
这种方式有个重要优势:生成的数据天然就"长在"真实数据附近,不会凭空飞出数据分布的范围。研究团队把这称为"软可行性",也就是从设计上就保证了生成数据的基本合理性。
在此基础上,TAP还定义了三种"控制旋钮",统称为动作空间。第一个旋钮是目标条件:告诉模型要生成哪个类别(分类任务)或哪个数值区间(回归任务)的样本,这样可以精准补充AI模型最欠缺的那类样本。第二个旋钮是遮罩模板:控制表格中哪些列要被重新生成、哪些列要保持固定,有"探索型"和"保守型"两种模板选择,前者允许更大幅度的变化,后者只在紧靠原始数据的邻域内做微调。第三个旋钮是探索强度:一个从0到1的参数,控制生成出来的新数据与原始数据相差多大,越大变化越多,越小则越接近原始数据。
四、策略网络:那位观察顾客口味的服务员
TAP的策略网络是整个系统中最有特色的部分。它的工作是观察当前AI模型的"学习状态",然后决定调整三个控制旋钮该怎么拨。
策略网络的输入是一个简洁的状态向量,包含四种信息。第一种是目标缺口,也就是当前训练数据中哪些类别或数值区间的样本严重不足,这部分最需要补充。第二种是不确定性指标,记录当前AI模型在验证集上哪些样本最难以判断、最容易犯错,这些地方最需要针对性训练数据。第三种是门控通过率,记录最近每种遮罩模板生成的样本中有多大比例通过了质量检查,帮助策略网络估计不同操作的可行性。第四种是多样性得分,衡量当前候选样本与已经收录进训练集的数据有多大区别,避免重复注入高度相似的数据。
策略网络本身是一个两层的多层感知机(MLP),结构很简洁,计算代价很低。它的训练方式借鉴了强化学习中的偏好优化:每次生成一批候选数据,用快速裁判估计这批数据能带来多少效用提升,然后把估计值高于阈值的操作标记为"好",低于负阈值的操作标记为"坏",以此为信号更新策略网络的参数。
这种训练方式受到了一种叫KTO的对齐技术的启发,它只需要"好"和"坏"两种二元反馈,不需要精确的效用数值,因此对估计误差不敏感,在数据极度稀缺、效用估计噪声很大的场景下尤为适用。具体地,策略网络通过最大化"期望优势"同时最小化与保守参考策略之间的KL散度来更新,这保证了策略不会偏离参考太远,从而避免过激的生成决策带来的风险。
五、快速裁判:效用的代理评估者
前面说到,直接计算边际效用需要重新训练AI模型,代价太高。TAP使用的解决方案是引入一个"快速裁判"——TabPFN。TabPFN是一种基于先验拟合的表格数据基础模型,它不需要训练,只需要把当前的训练集当作"上下文"输入进去,就能立即对新样本给出预测。这种特性使得它非常适合做高频次的效用估计,每次前向传播只需约10毫秒,而传统方式每次评估需要重新训练约200毫秒,在一次完整的TAP运行中,这个差距积累起来非常可观。
裁判的评估方式也很精巧:它不是对整个验证集进行评估,而是专门盯着"最难的那部分"——对于分类任务,选择预测熵最高的那20%样本;对于回归任务,选择预测残差最大的那20%样本。只看这部分最难区域上的损失变化,作为效用估计的信号。这样做有两个好处:一是计算量更小,二是信号更集中,对于策略学习来说信噪比更高。
研究团队还在理论上证明了这个快速裁判的估计误差是有界的:在裁判均匀精度假设成立的前提下,裁判估计的边际效用与真实边际效用之差,不超过裁判本身预测误差的两倍。这个结论虽然是理论上的,但为后面的"窗口承诺"机制提供了重要依据。
六、两道安全闸:确保注入的数据不帮倒忙
就算前面所有机制都运转完美,还有一个关键问题需要处理:数据稀缺时,一条"有害"的训练数据产生的负面影响远大于一条"有益"数据带来的正面效果。TAP为此设计了两道安全机制。
第一道是可行性门控。每一条生成出来的候选数据,都要经过一系列硬约束检查:所有类别型特征的取值必须在真实训练集中出现过;所有数值型特征必须落在真实训练数据的1%到99%分位数范围之内;如果数据集本身有已知的逻辑约束(比如某个指标不可能为负数),也要强制检验。任何一项不过关,该候选数据直接丢弃。
第二道是窗口承诺机制。候选数据不是生成一条就立即注入训练集,而是先积累到一个临时池子里,每积累K步(默认K=20)做一次集体评估。评估的方式是:把这一批候选数据一起加入训练集,用快速裁判估计整体的效用提升是否超过阈值加上估计误差上界。如果超过了,这批数据才正式"提交"进入训练集;如果没超过,整批丢弃,重新积累下一窗口的候选数据。
研究团队从理论上证明了这个机制的安全性:如果每次提交时都要求估计效用减去估计误差上界仍然大于阈值,那么真实效用大于阈值的概率至少为1减去一个可控的小量。换句话说,只要估计误差能被校准,窗口承诺机制就能以高概率保证每次提交的数据批次是真正有帮助的。
七、实验结果:到底好用不好用?
研究团队在七个真实世界数据集上进行了大量实验,这些数据集来自医学、金融、能源、制造等领域,涵盖分类和回归两类任务。为了模拟数据稀缺场景,他们分别在只有20、50、100、200、500条训练数据的情况下测试各方法。每种设置重复5次随机分组以确保结果稳定。
对比的基线方法包括七种当前主流的数据增强方法:以插值为主的SMOTE、基于变分自编码器的TVAE、基于生成对抗网络的CTGAN、基于树模型的ARF、基于流模型的SPADA,以及两种扩散模型方法TabDDPM和TabDiff。下游评估使用了六种分类器(逻辑回归、KNN、多层感知机、随机森林、LightGBM、XGBoost)和四种回归器(KNN、随机森林、XGBoost、LightGBM),确保结论不依赖于特定下游模型。
实验结果清晰显示了TAP的优势。在分类任务中,TAP在七个数据集、五个稀缺程度上几乎全面领先,最大的提升出现在Steel数据集(金属制造缺陷检测)的最稀缺设置(只有50条训练数据):TAP达到了94.27%的准确率,而第二好的方法TabDiff只有87.81%,提升了约6.5个百分点。在MiceProtein数据集(小鼠蛋白质表达,用于唐氏综合症研究)的最稀缺设置中,TAP以44.60%的准确率超过基线方法,总体改进幅度达到15.6个百分点。
在回归任务中,TAP在Insurance数据集(保险费用预测)的改进尤为显著:在只有50条训练数据时,TAP的均方根误差(RMSE)为0.632,而第二好的方法SMOTE为0.834,改进幅度超过32%。
更值得关注的是,很多基线方法的结果甚至比"完全不用任何增强、只用真实数据训练"("Real"列)还要差,尤其在稀缺程度最高的设置中。这充分印证了"高保真不等于高效用"的核心论点。而TAP几乎在所有设置中都优于只使用真实数据,始终保持正向改进,这种稳定性正是其保守注入机制发挥作用的体现。
八、高效用样本藏在哪里?研究给出了答案
TAP的实验不只是展示了它更好,还深入探究了"为什么更好"。研究团队设计了一系列分析来揭示哪类数据对AI真正有帮助。
他们固定同一个扩散模型骨干,比较了四种不同的注入策略:全局采样(从条件生成模型直接采样,不锚定真实样本)、随机内绘(随机选一条真实数据做锚点,随机遮罩部分列)、硬性内绘(有针对性地选择AI最不确定的真实样本做锚点,用固定的保守配置一次性生成全部预算)、以及TAP(带状态条件策略、可行性门控和窗口承诺的完整系统)。结果显示,效用从全局采样到TAP依次提升,说明"怎么注入"本身就很重要,与骨干模型无关。
为了进一步理解高效用样本的特征,研究团队定义了两个事后诊断指标。"信息量"用AI模型对该样本的预测熵(分类)或邻域方差(回归)来衡量,越靠近决策边界信息量越高。"可学性"用AI模型对该样本的预测一致性来衡量,预测越准确说明这条数据越容易被学习,越难预测说明越难学。
他们把候选数据按信息量分成五个桶,在匹配信息量的前提下比较TAP和硬性内绘的可学性。结果显示:在相同信息量水平下,TAP生成的样本可学性更高。这说明TAP并不只是找到了更靠近边界的样本,而是找到了既靠近边界又不那么难以学习的"甜蜜区间"——信息量够高但不至于高到AI根本学不了。
研究团队还做了一个干预性实验:把候选数据按可学性分成五档,分别单独注入训练集,观察效用变化。结果呈现出一个倒U形曲线:最容易学的和最难学的数据效用都不高,中间那档"适度难"的数据效用最大。可学性最差的那档样本甚至带来了负效用,也就是注入这批数据反而让AI变差了。这个发现有力支持了TAP的设计原则:目标不是找最难的数据,而是找信息量高且可学的数据。
九、消融实验:每个零件都不多余
为了验证TAP每个设计选择的必要性,研究团队进行了三组消融实验,每次只去掉一个组件,其余保持不变。
第一组测试状态向量的每个组成部分是否必要。去掉多样性得分带来了最大的性能下降,平均分类准确率下降1.8%,说明避免重复注入相似数据对提升效用至关重要。去掉不确定性代理和目标缺口分别带来1.6%和1.5%的下降,说明追踪AI模型的薄弱区域同样重要。去掉门控通过率统计也有1.4%的下降。综合来看,四个状态组成部分各有其不可替代的贡献。
第二组测试动作空间中的控制旋钮。强制只使用"探索型"遮罩模板带来了3.2%的下降,强制只使用"保守型"遮罩模板带来了2.0%的下降,说明两种模板需要动态切换才能达到最优。把探索强度固定为0.2、0.5或0.8,都不如动态学习更好,且没有任何一个固定值在所有数据集上都表现最优。用随机锚点代替有针对性的锚点选择带来了1.7%的下降。这些结果都支持了"策略学习比手工固定参数更好"的结论。
第三组测试快速裁判的选择。把TabPFN替换为随机森林、逻辑回归和MLP的等权集成,分类准确率下降约1%;替换为基于真实验证集重新训练的保守估计器,下降约0.7%。两种替代方案带来的下降都不算大,说明TAP的效果并不严重依赖于TabPFN这一个特定评估器,整个框架具有一定的鲁棒性。
研究团队还专门测试了去掉可行性门控和去掉窗口承诺机制对安全性的影响。去掉门控后,胜率(产生正效用提升的运行比例)从100%急剧下降到57.3%,尾部风险(最差20%注入样本的不一致性百分位)从46.7%上升到61.9%。去掉窗口承诺则让胜率下降到85.3%。这两组数据清晰表明:在数据极度稀缺时,这两道安全机制都是不可缺少的。
十、还有什么值得关注的细节?
在计算开销方面,研究团队提供了详细的壁钟时间数据。在50条训练数据的设置下,完整TAP运行(生成500条合成数据)的时间,在MiceProtein数据集上约为417秒,在Electricity数据集上约为202秒。作为参照,扩散模型骨干的训练时间为208到380秒不等,这部分是所有扩散类方法共享的一次性开销。TAP与同等采用锚点策略的"硬性内绘"方法耗时相近,并没有引入数量级上的额外开销。
在稳定性方面,研究团队对关键超参数进行了网格搜索。对提交窗口大小K(在1到50之间测试),最坏情况下准确率下降仅为0.015;对提交阈值τ(在0到0.2之间测试),最坏情况下准确率下降仅为0.004。说明TAP对超参数选择不敏感,默认设置已经够用。
在策略学习有效性方面,研究团队将TAP与一个"冻结策略"基线(除了不进行偏好更新外其余完全相同)进行对比。在50条训练数据的设置下,随着训练窗口的推进,TAP产生有益动作的比率稳步提高到0.5到0.6,而冻结策略则徘徊在0.2到0.45,说明策略确实在学习,而非随机选择。
说到底,这项研究做的事情,是把"聪明地造数据"从一个直觉性想法变成了一个有理论支撑、有系统设计、有实验验证的完整框架。它揭示了一个在数据增强领域长期被忽视的核心矛盾——生成得真实和生成得有用是两回事——然后用一套严谨的设计回答了如何在两者之间找到正确的平衡点。对于任何面对数据稀缺问题的从业者来说,这个视角本身或许比任何具体的技术细节都更值得仔细思考。有兴趣深入了解的读者,可以通过arXiv编号2605.10315查阅完整论文。
Q&A
Q1:TAP和普通的数据增强方法有什么本质区别?
A:普通数据增强方法(如CTGAN、TabDDPM等)的目标是生成看起来像真实数据的样本,追求"保真度"。TAP的核心区别在于,它追求的是"效用"——也就是生成的数据能不能让下游AI模型在验证集上表现更好。TAP通过一个状态感知的策略网络动态决定生成什么、在哪里生成,并用保守的门控和窗口承诺机制确保只有真正有益的数据才会被注入训练集。
Q2:TAP在数据很少的情况下效果怎么样,会不会反而更差?
A:这正是TAP设计的核心场景。研究实验在只有20条训练数据的极端稀缺设置下,TAP仍能保持100%的"胜率"(即产生正效用提升),而同类方法的胜率可能低至57%。这得益于可行性门控和窗口承诺机制,它们会过滤掉有害的候选数据,确保每次提交的数据批次以高概率产生真实的正向效果。
Q3:TAP需要什么样的前提条件才能使用,普通项目能用吗?
A:TAP需要一个预训练的表格扩散模型作为生成骨干(论文使用TabDiff),以及一个能快速评估效用的轻量级评估器(论文使用TabPFN)。两者都是公开可用的工具,论文的代码也已开源。主要的限制是需要一定的计算资源(论文在A100 GPU上运行),以及TAP针对的是数据稀缺场景,在数据充足时其优势会缩小。





京公网安备 11011402013531号