原文作者:公众号“AI典型场景产品”
原文链接:https://mp.weixin.qq.com/s/zf6OJe5pM8JYkzywwlgyVQ
雷峰网转载
近日国际顶级机器学习会议 ICML 2026 公布多篇核心论文成果,清华大学自动化系团队带来全新在线样本筛选框架 UDS,彻底颠覆大模型监督微调 SFT “全量数据投喂” 的传统模式。
![]()
该技术无需完整遍历全部训练数据集,依托模型前向传播原生 logits 信息同步评判样本价值与多样性,自动过滤重复、低质量劣质样本,在不损失模型精度的前提下大幅压缩训练算力消耗,实测可实现算力成本近乎腰斩,同时提升训练吞吐量,为当下算力高企、资源紧张的 AI 行业提供轻量化微调全新解决方案,相关研究成果已由量子位等行业媒体完整披露。
行业长期存在一种固有认知,认为 SFT 阶段训练数据规模越大,模型最终效果越好,但落地工程实践早已推翻这一结论。2026 年产业调研数据显示,国内大模型训练整体算力有效利用率不足五成,大量 GPU 算力消耗在重复、低信息量、存在偏见的冗余样本之上。
全量样本训练不仅推高企业 GPU 采购、云算力租赁成本,还极易引发模型过拟合、认知偏见放大等问题,金融、医疗、工业等垂直领域企业开展定制化微调时,动辄数十万条标注数据带来极高时间与资金成本,算力浪费已经成为制约中小 AI 企业迭代模型的核心痛点。过往行业虽已意识到智能挑选样本的价值,推出 MaxLoss、MaxGrad、GREATS 等在线批次选择方案,但各类技术均存在难以调和的短板。
多数方法仅单一衡量样本训练难度,只优先选取损失值高的样本,完全忽略样本之间、样本内部的信息多样性,极易出现批量样本高度同质化,持续训练反而叠加偏差;部分方案需要额外引入验证集、外部参考模型,或是多次反向传播计算梯度,额外开销甚至超过全量训练,难以真正落地工业化场景,行业始终缺少兼顾效率、精度、轻量化的一体化筛选框架。
清华团队提出的 UDS 框架跳出传统评估思路,核心创新在于复用前向传播生成的 logits 矩阵,无需额外计算开销即可同步完成双重维度打分。一方面利用 logits 矩阵核范数计算样本内部重要性分数,量化单条文本自身的信息丰富度与训练增益;另一方面通过低维投影压缩样本特征,借助缓存缓冲区计算样本与历史训练数据的距离,保障批次内样本差异化,两套分数加权融合筛选最优样本,整套流程不依赖外部数据集与第三方模型,完美适配 LoRA 微调、全参微调、长上下文推理等全场景。
低维投影与 FIFO 内存缓存的配套设计,解决了海量 logits 矩阵存储占用内存过高的现实工程难题。若直接完整存储原始 logits 向量,千级样本就会占用数十 GB 显存,极大限制训练集群并发规模,UDS 采用随机投影算法压缩特征维度,在几乎不损失样本距离判断精度的前提下,将内存开销控制在极低水平。
消融实验清晰验证两大核心模块不可分割,单独依靠样本效用分数或是多样性距离只能小幅提升精度,二者结合后模型综合能力实现跨越式增长,充分证明双重评判机制的互补价值。研究团队选用 Llama-3.1-8B、通义千问 Qwen-2.5-7B 两大主流开源基座,在 MMLU 通用知识、ScienceQA 科学问答、GSM8K 数学推理、HumanEval 代码生成四大权威基准完成多轮对照实验。
以国产 Qwen-2.5-7B 为例,采用 UDS 筛选样本训练后,MMLU 准确率达到 63.34%,较此前最优方案 GREATS 提升 5.15 个百分点,ScienceQA、数学、代码评测同步全面领跑,并且训练吞吐量显著高于全量 SFT 模式,相同硬件条件下单位时间可处理更多有效样本,实现精度与速度双向提升。
整套技术具备极强的泛化适配能力,不受训练参数规模、上下文长度、微调模式限制。实验分别验证 8/16 不同批次大小、LoRA 低秩微调、全参数微调、2048 超长文本推理、分布外 OOD 泛化测试等多种工况,UDS 在全部测试条件下均稳定优于全量训练、随机采样、传统 loss 筛选等基线方案;同时对比离线样本筛选算法 FisherSFT,在同等样本选取比例下四大基准指标全面领先,证明在线动态筛选比事前离线过滤更贴合实时训练的真实需求。
站在产业发展视角,UDS 的落地恰逢行业算力降本增效的关键转型节点。2026 年 AI 产业竞争逻辑已经从比拼硬件算力规模,转向单位算力产出的模型效能,IDC 预测未来推理与微调算力需求将持续暴涨,HBM 高端存储、GPU 硬件成本长期维持高位,中小企业难以持续承担全量数据集训练带来的巨额开销。清华这套原生轻量化筛选框架无需改造底层算力硬件,仅通过算法优化就能砍掉半数算力消耗,大幅降低垂直行业定制模型的落地门槛,对开源大模型生态商业化普及具备深远意义。
国内开源产业迎来全新技术抓手,通义千问、Llama 系列作为国内企业微调主流基座,UDS 可直接无缝接入现有训练流水线,无需重构数据处理架构。面向政务、制造、金融等垂直服务商,企业无需囤积大规模高端算力集群,依靠少量 GPU 即可完成高质量模型微调,缩短产品迭代周期;对于算力资源有限的科研团队、初创 AI 公司,该技术大幅降低模型迭代试错成本,推动细分场景专用小模型快速落地,进一步激活国内 AI 长尾创新活力。
综合来看,清华 UDS 在 ICML 2026 交出的样本筛选方案,标志大模型监督微调正式告别 “数据堆砌” 粗放发展阶段。这套依托原生 logits、兼顾样本效用与多样性、极低额外开销的在线筛选框架,既解决全量训练算力浪费、模型过拟合等行业共性痛点,又适配国内外主流开源基座与各类工业微调场景。随着该技术逐步开源落地,大模型训练将迈入 “精准选样本、高效练模型” 的精细化时代,持续缓解全行业算力成本压力,加速人工智能技术在千行百业低成本规模化落地。
量子位
如有侵权请联系删除
![]()
市场合作
联系人 | 尚嘉俊联系电话 |13709577554
序号负责内容负责人及手机号01 产品推广&活动林驰驰
1576794977902企业出海03场景合作&推广尚嘉俊
1370957755404机器人合作&表演非诚勿扰,请根据实际需求咨询相关工作人员





京公网安备 11011402013531号