ICML26 重磅成果！清华 UDS 智能筛选训练样本，大模型微调算力直接减半

IP属地中国·北京 雷峰网 时间：2026-06-29 14:17:42

原文作者：公众号“AI典型场景产品”
原文链接：https://mp.weixin.qq.com/s/zf6OJe5pM8JYkzywwlgyVQ
雷峰网转载
近日国际顶级机器学习会议 ICML 2026 公布多篇核心论文成果，清华大学自动化系团队带来全新在线样本筛选框架 UDS，彻底颠覆大模型监督微调 SFT “全量数据投喂” 的传统模式。

该技术无需完整遍历全部训练数据集，依托模型前向传播原生 logits 信息同步评判样本价值与多样性，自动过滤重复、低质量劣质样本，在不损失模型精度的前提下大幅压缩训练算力消耗，实测可实现算力成本近乎腰斩，同时提升训练吞吐量，为当下算力高企、资源紧张的 AI 行业提供轻量化微调全新解决方案，相关研究成果已由量子位等行业媒体完整披露。
行业长期存在一种固有认知，认为 SFT 阶段训练数据规模越大，模型最终效果越好，但落地工程实践早已推翻这一结论。2026 年产业调研数据显示，国内大模型训练整体算力有效利用率不足五成，大量 GPU 算力消耗在重复、低信息量、存在偏见的冗余样本之上。
全量样本训练不仅推高企业 GPU 采购、云算力租赁成本，还极易引发模型过拟合、认知偏见放大等问题，金融、医疗、工业等垂直领域企业开展定制化微调时，动辄数十万条标注数据带来极高时间与资金成本，算力浪费已经成为制约中小 AI 企业迭代模型的核心痛点。过往行业虽已意识到智能挑选样本的价值，推出 MaxLoss、MaxGrad、GREATS 等在线批次选择方案，但各类技术均存在难以调和的短板。
多数方法仅单一衡量样本训练难度，只优先选取损失值高的样本，完全忽略样本之间、样本内部的信息多样性，极易出现批量样本高度同质化，持续训练反而叠加偏差；部分方案需要额外引入验证集、外部参考模型，或是多次反向传播计算梯度，额外开销甚至超过全量训练，难以真正落地工业化场景，行业始终缺少兼顾效率、精度、轻量化的一体化筛选框架。
清华团队提出的 UDS 框架跳出传统评估思路，核心创新在于复用前向传播生成的 logits 矩阵，无需额外计算开销即可同步完成双重维度打分。一方面利用 logits 矩阵核范数计算样本内部重要性分数，量化单条文本自身的信息丰富度与训练增益；另一方面通过低维投影压缩样本特征，借助缓存缓冲区计算样本与历史训练数据的距离，保障批次内样本差异化，两套分数加权融合筛选最优样本，整套流程不依赖外部数据集与第三方模型，完美适配 LoRA 微调、全参微调、长上下文推理等全场景。
低维投影与 FIFO 内存缓存的配套设计，解决了海量 logits 矩阵存储占用内存过高的现实工程难题。若直接完整存储原始 logits 向量，千级样本就会占用数十 GB 显存，极大限制训练集群并发规模，UDS 采用随机投影算法压缩特征维度，在几乎不损失样本距离判断精度的前提下，将内存开销控制在极低水平。
消融实验清晰验证两大核心模块不可分割，单独依靠样本效用分数或是多样性距离只能小幅提升精度，二者结合后模型综合能力实现跨越式增长，充分证明双重评判机制的互补价值。研究团队选用 Llama-3.1-8B、通义千问 Qwen-2.5-7B 两大主流开源基座，在 MMLU 通用知识、ScienceQA 科学问答、GSM8K 数学推理、HumanEval 代码生成四大权威基准完成多轮对照实验。
以国产 Qwen-2.5-7B 为例，采用 UDS 筛选样本训练后，MMLU 准确率达到 63.34%，较此前最优方案 GREATS 提升 5.15 个百分点，ScienceQA、数学、代码评测同步全面领跑，并且训练吞吐量显著高于全量 SFT 模式，相同硬件条件下单位时间可处理更多有效样本，实现精度与速度双向提升。
整套技术具备极强的泛化适配能力，不受训练参数规模、上下文长度、微调模式限制。实验分别验证 8/16 不同批次大小、LoRA 低秩微调、全参数微调、2048 超长文本推理、分布外 OOD 泛化测试等多种工况，UDS 在全部测试条件下均稳定优于全量训练、随机采样、传统 loss 筛选等基线方案；同时对比离线样本筛选算法 FisherSFT，在同等样本选取比例下四大基准指标全面领先，证明在线动态筛选比事前离线过滤更贴合实时训练的真实需求。
站在产业发展视角，UDS 的落地恰逢行业算力降本增效的关键转型节点。2026 年 AI 产业竞争逻辑已经从比拼硬件算力规模，转向单位算力产出的模型效能，IDC 预测未来推理与微调算力需求将持续暴涨，HBM 高端存储、GPU 硬件成本长期维持高位，中小企业难以持续承担全量数据集训练带来的巨额开销。清华这套原生轻量化筛选框架无需改造底层算力硬件，仅通过算法优化就能砍掉半数算力消耗，大幅降低垂直行业定制模型的落地门槛，对开源大模型生态商业化普及具备深远意义。
国内开源产业迎来全新技术抓手，通义千问、Llama 系列作为国内企业微调主流基座，UDS 可直接无缝接入现有训练流水线，无需重构数据处理架构。面向政务、制造、金融等垂直服务商，企业无需囤积大规模高端算力集群，依靠少量 GPU 即可完成高质量模型微调，缩短产品迭代周期；对于算力资源有限的科研团队、初创 AI 公司，该技术大幅降低模型迭代试错成本，推动细分场景专用小模型快速落地，进一步激活国内 AI 长尾创新活力。
综合来看，清华 UDS 在 ICML 2026 交出的样本筛选方案，标志大模型监督微调正式告别 “数据堆砌” 粗放发展阶段。这套依托原生 logits、兼顾样本效用与多样性、极低额外开销的在线筛选框架，既解决全量训练算力浪费、模型过拟合等行业共性痛点，又适配国内外主流开源基座与各类工业微调场景。随着该技术逐步开源落地，大模型训练将迈入 “精准选样本、高效练模型” 的精细化时代，持续缓解全行业算力成本压力，加速人工智能技术在千行百业低成本规模化落地。
量子位
如有侵权请联系删除

市场合作

联系人 | 尚嘉俊联系电话 |13709577554
序号负责内容负责人及手机号01 产品推广&活动林驰驰
1576794977902企业出海03场景合作&推广尚嘉俊
1370957755404机器人合作&表演非诚勿扰，请根据实际需求咨询相关工作人员

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

分拆可灵再造一个新快手？程一笑想的有点简单了

又一美国科技巨头转向中国大模型！Coinbase带头用上GLM与Kimi

首届“AI+OPC”创新发展大会在杭州举行

2027款星海V9获国际名流青睐，以实力推动20万级MPV豪华体验新跨越

马斯克Star帝国全景：太空文明的操作系统

华为解读Agentic AI时代金融科技变革路径

全站最新

分拆可灵再造一个新快手？程一笑想的有点简单了

又一美国科技巨头转向中国大模型！Coinbase带头用上GLM与Kimi

首届“AI+OPC”创新发展大会在杭州举行

2027款星海V9获国际名流青睐，以实力推动20万级MPV豪华体验新跨越

热门推荐

分拆可灵再造一个新快手？程一笑想的有点简单了

又一美国科技巨头转向中国大模型！Coinbase带头用上GLM与Kimi

首届“AI+OPC”创新发展大会在杭州举行

东方证券等在武汉成立新合伙企业出资额2.7亿

领克07GT预售：16.58万元起，这台"国产瓦罐"把配置堆满了

xAI开启“月更”模式：马斯克承诺今年每月发布一款从零训练的全新AI模型

2027款星海V9获国际名流青睐，以实力推动20万级MPV豪华体验新跨越

马斯克Star帝国全景：太空文明的操作系统

华为解读Agentic AI时代金融科技变革路径

三星、海力士、美光，遭集体诉讼

复牌“20CM”涨停背后：银河微电拟并购突围功率半导体高阶赛道，估值未定、整合前景受考验

谷歌收录一篇新文章要经历哪几个阶段——每个阶段能做什么？

豆包正内测社交功能？官方回应：与飞书确有合作，但无社交计划

“进入超级投资时代”！华尔街点评韩国重磅存储扩产计划

AI对硬件揠苗助“涨”