当前位置: 首页 » 资讯 » 科技头条 » 正文

从分布外检测到代码生成,这位博士生要让AI既可靠又好用

IP属地 中国·北京 编辑:任飞扬 DeepTech深科技 时间:2025-09-06 00:05:52

Next Gen

欢迎来到“Next Gen”。人工智能的边界每日都在被拓展,一群富有远见卓识的青年学者正站在浪潮之巅。我们追踪并报道这些 AI 领域最具潜力的明日之星,展现他们在科研前沿的突破性工作,以及对未来智能时代的独到见解。他们是谁?他们如何思考?他们又将把 AI 带向何方?与我们一同发现那些正在定义未来的 AI 新生代。

“其实最开始选择 AI,是因为想做更有势头的新兴方向。”李靖瑶回忆起本科选专业时的考虑。在 15 岁进入西交少年班后,她原本也考虑过“更稳妥”的方向,比如电气工程。这个专业在国内排名靠前,就业路径清晰,甚至可以直接进入大型国企。然而,她很快放弃了这一选择。她直言:“那样的研究空间可能已经接近饱和,能做出的提升有限。”于是,她最终选择了在当时还尚未完全大热的人工智能。对她而言,这是一个既冒险又现实的决定——冒险在于人工智能研究更新迭代太快,竞争激烈;现实在于它能真正改变生产力,带来直接价值。


图丨李靖瑶(李靖瑶)

21 岁时,她进入香港中文大学攻读博士学位,师从计算机视觉专家贾佳亚教授。不久后便迎来大语言模型(Large Language Models, LLMs)迅速崛起的阶段。她敏锐地意识到,研究如果不能与大趋势衔接,往往难以持续。也正是在这一时期,她陆续以第一作者身份在 IEEE TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)上发表了四篇论文,并在 CVPR、ICCV、NeurIPS 等国际顶级会议上接连有作品。这些成果背后所体现的研究取向,正是她学术道路的一以贯之:把人工智能一步步推向“可用”的边界。



构建可靠的认知边界

在李靖瑶看来,AI 要走向实用,首先必须解决一个基础性挑战:如何让模型在充满未知的真实世界中保持可靠。她此前的研究便聚焦于此,核心是为 AI 建立一个稳固的认知边界,让它不仅能在训练数据表现出色,更能在面对未知时做出合理判断。

李靖瑶早期的研究 MOODv2 就主要解决了一个分布外样本(Out-of-Distribution, OOD)层面的难题,即当整个输入都属于未知时,模型该如何应对?这是确保 AI 系统在开放环境中安全运行的关键 [1]。


图丨相关论文(IEEE Transactions on Pattern Analysis a)

传统的识别模型在训练时,往往会学到一种“思维捷径”。她在采访中用了一个简单的例子来解释这个问题:模型在学习区分猫和狗时,可能会发现一个简单的规律——有尖耳朵的就是猫,耳朵耷拉下来的就是狗。这个“捷径”在处理已知的猫狗图片时非常有效,但当模型遇到一只同样拥有尖耳朵的狐狸时,它会毫不犹豫地将其误判为猫,并且自信满满。

为了解决这一问题,李靖瑶和团队引入了一种截然不同的训练范式——掩码图像建模(MIM, Masked Image Modeling)。这种方法借鉴了语言模型中的完形填空思路,在训练时随机遮盖图像的一部分(比如,恰好盖住耳朵),并要求模型根据剩余的可见部分来重建被遮盖的内容。通过这种方式,模型被迫去学习图像的整体结构、纹理和上下文关系,而不能再仅仅依赖“尖耳朵”这类局部特征走捷径。


(IEEE Transactions on Pattern Analysis and Machine I)

它必须真正“理解”一张图像的构成,才能完成重建任务。这种通过重建任务学习到的特征表示,对于 ID(In-distribution,分布内)数据和 OOD 数据展现出了显著的差异。模型可以轻松地重建它所熟悉的 ID 图像,但在面对风格迥异的 OOD 图像(如素描、纹理图案)时,其重建结果会暴露出明显的“领域鸿沟”。这种重建误差的差异,成为了一个判断输入是否为“陌生”的重要信号。MOODv2 框架正是利用了这一点,在 ImageNet 等大规模数据集上取得了较大的性能提升,大幅超越了依赖分类或对比学习的传统 OOD 检测方法。

而她之后的研究 TagCLIP,则聚焦于一个更具体的场景:语义层面的未知 [2]。具体来说,在零样本语义分割任务中,模型需要分割出训练时从未见过的物体类别。当时的普遍问题是,模型倾向于将“未见类别”(unseen classes)误判为某个语义上相似的“已见类别”(seen classes)。李靖瑶在采访中举例:“比如说天空这个类别是我们学过的,然后 cloud(云)这个类别是没有学过的……它就会误把这些天空类别误判为云彩。”在实际应用中,这种混淆可能导致系统错误地识别物体,带来风险。

她将此问题归因于模型缺乏一种“我不知道”的判断机制。为此,TagCLIP 引入了一个受语言模型启发的“可信令牌”(Trust Token)。它的任务,就是在模型进行分割时,判断图像的某个区域属于“已知”还是“未知”的范畴。

在训练过程中,模型不仅要学习将像素正确匹配到“天空”等已知类别,还要学习通过这个“可信令牌”来判断哪些区域是它“不认识”的。在推理时,这个令牌会生成一张“可信度图”(Trusty Map),图中高亮的部分表示模型认为是已知类别的区域,反之则为未知类别。最终的分割结果由语义匹配的原始掩码(raw mask)和这张可信度图加权得出。


(IEEE Transactions on Pattern Analysis and Machine I)

如果一个区域被“可信令牌”判断为未知,那么即使它在语义上与某个已知类别很像,其最终属于该已知类别的概率也会被大大降低。这个简单的设计,以极小的额外开销,显著提升了模型在未见类别上的分割准确率,在 PASCAL VOC 2012 等多个基准测试中,将不可见类的交并比(Intersection over Union)提升了 7.4%。

除了在单个样本或语义层面识别未知,李靖瑶还将这种对“认知边界”的探索,延伸到了“领域鸿沟”(domain gap)问题上。

在他们发表于 TPAMI 的成果 VLPose 中,团队聚焦于人体姿态估计(HPE)的“域差”问题——即模型在真实照片上训练后,无法很好地泛化到绘画、动漫等艺术作品中。这是一个在虚拟现实、动画制作等领域普遍存在的实际瓶颈 [3]。

在 VLPose 中,她提出引入语言模型作为桥梁,让模型能够通过文本提示(prompt)获取语义先验。具体来说,VLPose 包含一个“视觉-语言关系匹配器”,它将输入的图像特征与文本描述(如“一张卡通人物的图片”)对齐,并在姿态估计的过程中引入这一额外的语义信息。为了更高效地利用这种跨模态信息,她和团队设计了双向提取—注入解码器(Dual Extractor-Injector Decoder)结构,使得视觉特征与语言特征在解码阶段能够深度融合,从而减少因域差造成的误判。


图丨相关论文(IEEE Transactions on Pattern Analysis a)

这种设计,使得模型能够在不牺牲原有性能的前提下,自适应地理解不同艺术风格的视觉特点,从而显著提升了其跨领域的泛化能力。



让 AI 成为真正的生产力

在为 AI 的认知打下可靠的泛化基础之后,李靖瑶的研究重心开始转向一个更为直接的目标:如何将大语言模型的能力,转化为在关键应用领域的实际生产力。

近年来,由于成本低廉和便于部署等优势,更小、更高效的模型逐渐兴起。让这些小型“学生模型”从大型“教师模型”中学习,即知识蒸馏(Knowledge Distillation, KD),是一个常用的方法。然而,现有方法普遍面临一个两难困境。

传统 SFT 依赖单一的“标准答案”,这虽然能保证正确性,却也限制了模型的语言多样性和对上下文细微差异的理解。例如,对于“猫在垫子上”这个事实,模型只知道“The cat is on the mat”,而无法理解“lies”、“sits”、“rests”等同样有效的表达。而知识蒸馏虽然能通过传递教师模型的 logits 来保留语言的丰富性,却又面临着教师模型自身可能出错的风险。

为此,李靖瑶和团队在其近期被 EMNLP 2025 接收的研究《基于 Logits 的微调》(Logits-Based Finetuning)中,提出了一种新的融合方案[4]。其核心方法是将二者优点结合:他们将教师模型提供的、包含丰富语言多样性的 logits 分布,与由绝对正确的“标准答案”(Ground Truth)生成的向量进行结合,共同创造出一个既正确又富有弹性的“增强学习目标”。通过这种方式训练出的学生模型,不仅能学会标准答案,还能理解各种合理的“近义表达”,从而在保证准确性的前提下,极大地提升了语言理解的深度和泛化能力。


图丨基于 logits 的知识蒸馏框架概念示意图(EMNLP 2025)

基于此方法训练的 ScienceLLaMA 系列模型,在九个数学基准测试中平均性能提升了 7.28%,在部分任务上准确率提升超过 20%,充分证明了这一思路在构建高效、紧凑模型方面的巨大潜力。

除了模型本身的能力,其工作方式——无论是学习、思考还是信息处理——也需要变得更高效、更实用。李靖瑶此前的两项工作,就主要解决了 AI 工作流中两个有关于结构与效率的问题。

她早期的工作 MoTCoder 主要关注了代码生成“可用性”的问题[5]。当时的大语言模型虽然能生成代码片段,但其产出往往是一个庞大的、缺乏结构的代码块。这种代码在真实的软件工程项目中,因其可读性、可维护性和可复用性极差,难以被有效利用。李靖瑶认为,这并非模型能力不足,而是其“思考”方式与人类专业程序员存在偏差。

MoTCoder 的核心思想,便是教会模型一种“模块化思考”的编程范式,即在生成代码前,先规划出功能模块,再逐一实现。这使得 AI 生成的代码在正确率和可维护性上都得到了提升。


(arXiv)

而她的另一项工作则主要解决了大模型在处理长篇文档时的效率和准确性瓶颈。李靖瑶从人类的认知行为中得到启发,将人类“带着问题去查阅资料”的行为模式,抽象并应用到了 QuickLLMA 中[6]。

具体来说,这个框架的核心是一种“查询感知”(Query-aware)的推理机制。当用户提出一个问题时,系统不再是将整个冗长的历史文本不加区分地塞给模型,而是先用用户的问题(Query)去“扫描”存储在 CPU 内存中的所有历史文本块(Memory Blocks),快速定位出与问题最相关的几个文本块。

然后,系统只将这几个“查询相关”的文本块,连同紧邻当前对话的“局部上下文”和一些全局信息(如系统提示),一起加载到 GPU 中,形成一个精简但高效的上下文窗口,供 LLM 进行推理。这种机制极大地减少了无关信息的干扰,显著降低了计算开销。实验证明,QuickLLaMA 能让模型在极短时间内处理数十万词的文本,并准确回答问题,在 LongBench 和 ∞-Bench 等基准上刷新了纪录。


图丨查询感知推理机制框架示意图(COLING 2025)



简单却广泛有效的想法更重要

“我逐渐觉得,如果一项工作只是在一些基准测试(Benchmark)上表现良好,那并不代表它是一项有意义的工作,”李靖瑶反思道,“它可能只是一篇学术论文,但并不会被大家真正应用到。”

这种从追求学术指标到看重实际效用的价值观转变,并非一蹴而就。她回忆起自己的研究历程:“我最初做 OOD 检测时,就选择了相对工程化的路线,通过大量实验来验证一个简单的动机(motivation)。我觉得,证明一个简单想法的广泛有效性,比直接做一个很创新但提升不大的工作更重要。”因为在她看来,简单有效的方式更能推动领域的后续进展,也更容易让别人来跟进。

她的导师贾佳亚教授,在这种价值观的形成中起到了关键作用。“他会希望我们去做一些全球顶尖的工作,关注最好的那批人和公司在做什么,把精力投入到最有用的事情上。”李靖瑶说,导师会不断地追问:“‘你做的这个东西,将来会有多少人真的去用?又有多少人会以你的工作为基础,继续往前走?’”

这种对实际影响力的追求,也影响了她未来的路径选择,“我觉得现在想要做出比较有意义、真正能够用得上的工作,还是需要跟业界有一些结合。学术界的小规模模型验证,很难说明它的规模化(scale up)能力。”也因此,她计划在毕业后进入业界,继续推动前沿技术的发展。

参考资料:

1.https://dl.acm.org/doi/abs/10.1109/TPAMI.2024.3412004

2.https://ieeexplore.ieee.org/document/10666015

3.https://ieeexplore.ieee.org/document/11122431

4.https://arxiv.org/abs/2505.24461

5.https://arxiv.org/abs/2312.15960

6.https://arxiv.org/abs/2406.07528

7.https://julietljy.github.io/

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。