当前位置: 首页 » 资讯 » 科技头条 » 正文

香港大学团队突破:机器如何学会设计自己的奖励机制

IP属地 中国·北京 科技行者 时间:2025-12-19 00:13:56


这项由香港大学计算机科学系田乐立、滑铁卢大学程思涛、香港中文大学(深圳)黄旭寒以及杜克大学殷逊健共同完成的突破性研究发表于2024年12月,论文编号为arXiv:2512.13399v1。研究团队提出了一种名为"可微分进化强化学习"(DERL)的创新框架,让人工智能系统能够自主发现最优的奖励函数,就像员工学会如何为自己设计最有效的工作激励机制一样。

想象一下,如果你是一位老师,需要设计一套评分系统来激励学生更好地学习。传统的做法是要么给出简单的对错判断(像期末考试只看总分),要么请专家花大量时间制定复杂的评分标准。但是,简单的对错判断往往太粗糙,而专家制定的标准不仅成本高昂,还可能不够灵活。现在,这个研究团队找到了第三种方法——让AI系统自己学会设计最有效的奖励机制,就像一个聪明的学生逐渐摸索出最适合自己的学习方法一样。

在人工智能领域,奖励函数就像是给AI的"工资条",决定了AI什么时候能得到"奖金",什么时候会被"扣工资"。一个好的奖励机制能让AI快速学会正确的行为,而糟糕的奖励设计则可能让AI"钻空子"——表面上完成了任务,实际上却偏离了我们的真实目标。

传统的AI训练方式面临着一个根本性的困境。一方面,最简单直接的方式是只在AI完全完成任务时给予奖励,其他时候一概不给。这就像只在学生期末考试时给成绩,平时的作业和课堂表现一概不看。这种方式虽然简单,但学生(AI)很难从中学到什么,因为反馈太少太迟。另一方面,如果要设计细致的奖励规则,就需要人类专家投入大量时间和精力,就像要为每一个小的学习环节都设计评分标准一样,成本极高且难以推广。

研究团队提出的DERL框架巧妙地解决了这个难题。它的核心思想是建立一个"双层"的学习系统。在这个系统中,有一个"元优化器"(可以理解为一位经验丰富的教学设计师),它的工作是观察学生(内层的AI策略)在不同奖励机制下的学习表现,然后不断调整和优化奖励规则。与此同时,内层的AI策略则根据当前的奖励规则进行学习和改进。

这种设计的精妙之处在于,元优化器不是随机尝试不同的奖励规则,而是能够"理解"奖励结构与最终表现之间的因果关系。就像一位经验丰富的教师能够观察到"当我这样布置作业时,学生的成绩会提高",然后有意识地调整教学方法。这种能力被研究团队称为"元梯度"——即理解如何调整奖励机制才能改善最终结果的能力。

为了验证这个理念,研究团队构建了一个具体的实现方案。他们将奖励函数设计成由多个"原子基元"组成的结构化组合。这些原子基元就像是乐高积木,每一块都有特定的功能——有的用来检查格式是否正确,有的用来验证部分目标是否达成,有的用来评估过程是否合理。元优化器的任务就是学会如何将这些积木以最有效的方式组合起来,创造出能够引导AI获得最佳表现的奖励函数。

在技术实现上,研究团队采用了一种被称为"群体相对策略优化"(GRPO)的算法作为基础。这个算法的工作原理类似于班级内的相对排名——不是看绝对成绩,而是看你在这一批同学中的相对表现。元优化器会同时生成多个不同的奖励配置,然后观察在这些不同配置下训练出来的AI策略各自的表现,通过比较这些表现来学习哪种奖励设计更有效。

整个训练过程就像是一个不断迭代的教学实验。在每一轮中,元优化器会提出几种不同的奖励方案,然后让内层的AI分别在这些方案下进行学习。学习结束后,系统会在验证集上测试这些AI的实际表现,并将这些表现作为反馈信号传递给元优化器。元优化器根据这些反馈调整自己的参数,学会生成更好的奖励配置。这个过程会持续进行,直到元优化器找到能够产生最佳AI表现的奖励机制。

这种方法的一个关键优势是它的可微分特性。与传统的进化算法不同,DERL能够利用梯度信息来指导搜索过程。传统的进化方法就像在黑暗中摸索,只能通过随机尝试来寻找更好的解决方案。而DERL则像是有了一盏明灯,能够"看到"调整的方向,知道朝哪个方向改进更有可能获得更好的结果。

为了全面验证DERL的有效性,研究团队在三个截然不同的领域进行了实验测试。第一个领域是机器人代理任务,使用了ALFWorld基准测试。这个测试模拟了家庭环境中的各种任务,比如"把苹果放到微波炉里"或"清理房间"。AI需要通过自然语言理解任务要求,然后规划和执行一系列动作来完成目标。

第二个测试领域是科学模拟,使用了ScienceWorld基准。这个环境模拟了小学科学课程的各种实验和问题,AI需要在虚拟实验室中进行推理和操作,完成像"测量物体的密度"或"观察植物生长"这样的科学任务。

第三个领域是数学推理,使用了GSM8K和MATH这两个著名的数学问题数据集。GSM8K主要包含小学水平的数学应用题,而MATH则包含了更高级的竞赛水平数学问题。

在每个测试领域中,研究团队都设计了相应的原子基元来构建搜索空间。对于机器人任务,他们设计了四个基元:二元结果奖励(任务是否完成)、以及三个过程奖励(分别对应交互过程的前期、中期和后期阶段的平均表现)。对于数学推理任务,基元包括:二元结果奖励、格式检查奖励(答案是否用正确格式给出)、步骤奖励(是否包含逐步推理)、以及软结果奖励(答案中是否包含正确数值,即使格式不对)。

为了评估DERL在不同难度和分布偏移情况下的表现,研究团队设计了三个难度级别的测试。L0级别是最简单的情况,AI在所有任务类型上都有充分的训练,然后在相似的任务上测试。L1级别增加了一些挑战,AI仍然在所有任务类型上训练,但测试时会遇到一些变种任务。L2级别是最困难的,AI只在部分任务类型上训练,然后需要在完全没见过的任务类型上进行测试,这真正考验了方法的泛化能力。

实验结果令人印象深刻。在ALFWorld任务中,DERL在所有三个难度级别上都达到了最佳性能,特别是在最困难的L2级别上,DERL达到了65%的成功率,而传统的结果奖励方法只有29.7%。在ScienceWorld任务中,DERL同样表现出色,在L2级别上达到了30.1%的成功率,相比之下传统方法只有10.9%。

更引人注目的是DERL的人口变体(DERL-pop)的表现。这个变体在每轮训练中会保留上一轮表现最好的模型作为起点,而不是每次都从头开始。这种做法类似于在教学中建立在之前成功经验基础上的累积学习。DERL-pop在ALFWorld的L2级别上达到了76.4%的惊人成功率,在ScienceWorld的L0级别上甚至达到了98.2%的近乎完美的表现。

在数学推理任务上,DERL同样证明了它的价值。在GSM8K上,DERL达到了87%的准确率,超过了所有基线方法。在更困难的MATH数据集上,DERL达到了60.2%的准确率,明显优于简单结果奖励的58.8%。这个提升可能看起来不大,但在数学推理这样的困难任务上,即使是几个百分点的提升也代表了显著的进步。

研究团队还深入分析了DERL的学习过程,发现了一些fascinating的规律。通过追踪元优化器在训练过程中生成的奖励函数结构,他们发现系统会自然而然地偏向于数学上稳定的奖励组合。在训练初期,元优化器会生成各种各样的奖励函数,其中许多是不稳定的(比如包含可能导致数值爆炸的乘法链)。但随着训练的进行,系统逐渐学会了偏爱那些数学上更稳定、更可靠的奖励结构,比如线性组合和归一化操作。

这种"自然选择"现象说明了DERL不仅仅是在搜索有效的奖励函数,它实际上在学习什么样的奖励设计原则是根本性有效的。就像一位经验丰富的教师不仅知道什么样的教学方法有效,还理解为什么这些方法有效的深层原理。

从计算效率的角度看,DERL确实需要比传统方法更多的计算资源。由于需要在每个元优化步骤中训练多个内层策略,总的计算成本大约是基线方法的n倍(其中n是每轮生成的奖励配置数量)。在研究团队的实验中,他们使用了n=8,这意味着DERL需要大约8倍的计算资源。不过,他们也提供了更高效的DERL-pop变体,它通过减少从零开始训练的次数来显著降低计算开销。

为了深入理解DERL的工作机制,研究团队还进行了一个简化的概念验证实验。他们构建了一个仅使用12个参数的图神经网络来表示元优化器,证明即使在这样简化的设置下,元优化器仍然能够发现比简单基线更好的奖励函数。这个实验表明,DERL的核心思想——利用结构化的奖励搜索空间和梯度引导的优化——是robust的,不依赖于特定的复杂实现。

研究团队还分析了DERL学习到的奖励函数的演化轨迹。他们发现,在训练早期,系统会探索各种复杂的奖励结构,其中一些包含了不稳定的数学操作。但随着训练的进行,系统逐渐收敛到更简单、更稳定的结构。最终学习到的奖励函数通常具有良好的数学性质,比如有界的输出范围和对输入变化的平滑响应。

这种演化模式与人类学习设计原则的过程有着有趣的相似性。初学者可能会尝试复杂的方案,但有经验的设计者往往偏爱简洁、可靠的解决方案。DERL似乎自发地发现了这个设计哲学。

从更广阔的角度来看,DERL代表了人工智能研究中一个重要的转向:从依赖人类先验知识向自主发现转变。传统的强化学习严重依赖人类专家来设计奖励函数,这不仅成本高昂,还可能引入人类的偏见和局限性。DERL提供了一条通往更自主的AI系统的道路,这些系统能够通过与环境的交互来发现有效的学习信号。

然而,这项研究也面临一些限制和挑战。首先是计算成本问题。虽然DERL在性能上表现出色,但它需要的计算资源确实比传统方法更多。对于资源有限的应用场景,这可能是一个重要的限制因素。

其次是原子基元的设计问题。虽然DERL可以自动组合基元来创建奖励函数,但这些基元本身仍然需要人类来定义。在某种程度上,这将设计挑战从"如何组合信号"转移到了"如何选择基元"。不过,研究团队指出,基元的设计通常比完整奖励函数的设计要简单得多,而且同一套基元可以在多个任务中重复使用。

第三个挑战是长期信用分配问题。虽然DERL生成的奖励比简单的结果奖励更密集,但它们仍然主要基于最终的验证性能。对于需要极长推理链或具有欺骗性中间目标的任务,仅依赖最终性能可能仍然不足以提供足够的学习信号。

尽管存在这些挑战,DERL的影响意义是深远的。它不仅在技术层面提供了一个新的工具,更重要的是,它展示了一种新的思维方式——让AI系统参与到自己的训练过程设计中。这种自参照的能力可能是通向更强大、更自主的AI系统的关键一步。

在实际应用前景方面,DERL的技术可能会首先在那些奖励设计特别困难的领域得到应用,比如创造性任务、复杂的游戏环境、或者需要长期规划的现实世界应用。随着计算成本的降低和算法效率的提升,这种方法可能会逐渐扩展到更广泛的应用领域。

从科学意义上讲,这项研究为理解智能系统如何学习学习提供了新的视角。它暗示着,真正的智能可能不仅仅在于解决给定的问题,还在于学会如何为自己设置有效的学习目标。这种元学习能力可能是人类智能的一个关键特征,而DERL为我们提供了一个计算框架来探索和实现这种能力。

说到底,DERL的成功证明了一个重要观点:最好的奖励函数可能不是由人类专家精心设计的,而是通过系统性的探索和优化过程发现的。就像进化过程能够产生比任何设计师都精妙的生物结构一样,自动化的奖励发现可能能够创造出比人类直觉更有效的学习信号。这不仅可能改变我们训练AI系统的方式,也可能为我们理解学习和智能本身提供新的洞察。对于普通人来说,这意味着未来的AI系统可能会变得更加自主和高效,能够在更少的人类指导下学会复杂的技能,从而为各行各业带来更广泛和深入的应用可能性。

Q&A

Q1:什么是可微分进化强化学习DERL?

A:DERL是香港大学团队开发的一种让AI自动设计奖励机制的方法。它就像让AI学会给自己制定最有效的激励制度,通过双层学习系统,让一个"元优化器"观察AI在不同奖励下的表现,然后不断调整优化奖励规则,最终找到最适合的奖励函数。

Q2:DERL相比传统方法有什么优势?

A:传统方法要么只给简单的对错奖励(太稀疏),要么需要专家费时费力设计复杂规则(成本太高)。DERL能够自动发现有效的奖励组合,在机器人、科学推理、数学等多个领域都大幅超越了传统方法,特别是在面对全新任务时表现更佳。

Q3:DERL技术什么时候能普及应用?

A:目前DERL还主要在研究阶段,因为它需要较多计算资源。不过研究团队已经开发了更高效的变体,随着计算成本降低,这种技术可能会首先在游戏、创意设计等奖励设计困难的领域应用,然后逐步扩展到更多实际场景中。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新