香港大学团队突破：机器如何学会设计自己的奖励机制

IP属地中国·北京 科技行者 时间：2025-12-19 00:13:56

这项由香港大学计算机科学系田乐立、滑铁卢大学程思涛、香港中文大学（深圳）黄旭寒以及杜克大学殷逊健共同完成的突破性研究发表于2024年12月，论文编号为arXiv:2512.13399v1。研究团队提出了一种名为"可微分进化强化学习"（DERL）的创新框架，让人工智能系统能够自主发现最优的奖励函数，就像员工学会如何为自己设计最有效的工作激励机制一样。
想象一下，如果你是一位老师，需要设计一套评分系统来激励学生更好地学习。传统的做法是要么给出简单的对错判断（像期末考试只看总分），要么请专家花大量时间制定复杂的评分标准。但是，简单的对错判断往往太粗糙，而专家制定的标准不仅成本高昂，还可能不够灵活。现在，这个研究团队找到了第三种方法——让AI系统自己学会设计最有效的奖励机制，就像一个聪明的学生逐渐摸索出最适合自己的学习方法一样。
在人工智能领域，奖励函数就像是给AI的"工资条"，决定了AI什么时候能得到"奖金"，什么时候会被"扣工资"。一个好的奖励机制能让AI快速学会正确的行为，而糟糕的奖励设计则可能让AI"钻空子"——表面上完成了任务，实际上却偏离了我们的真实目标。
传统的AI训练方式面临着一个根本性的困境。一方面，最简单直接的方式是只在AI完全完成任务时给予奖励，其他时候一概不给。这就像只在学生期末考试时给成绩，平时的作业和课堂表现一概不看。这种方式虽然简单，但学生（AI）很难从中学到什么，因为反馈太少太迟。另一方面，如果要设计细致的奖励规则，就需要人类专家投入大量时间和精力，就像要为每一个小的学习环节都设计评分标准一样，成本极高且难以推广。
研究团队提出的DERL框架巧妙地解决了这个难题。它的核心思想是建立一个"双层"的学习系统。在这个系统中，有一个"元优化器"（可以理解为一位经验丰富的教学设计师），它的工作是观察学生（内层的AI策略）在不同奖励机制下的学习表现，然后不断调整和优化奖励规则。与此同时，内层的AI策略则根据当前的奖励规则进行学习和改进。
这种设计的精妙之处在于，元优化器不是随机尝试不同的奖励规则，而是能够"理解"奖励结构与最终表现之间的因果关系。就像一位经验丰富的教师能够观察到"当我这样布置作业时，学生的成绩会提高"，然后有意识地调整教学方法。这种能力被研究团队称为"元梯度"——即理解如何调整奖励机制才能改善最终结果的能力。
为了验证这个理念，研究团队构建了一个具体的实现方案。他们将奖励函数设计成由多个"原子基元"组成的结构化组合。这些原子基元就像是乐高积木，每一块都有特定的功能——有的用来检查格式是否正确，有的用来验证部分目标是否达成，有的用来评估过程是否合理。元优化器的任务就是学会如何将这些积木以最有效的方式组合起来，创造出能够引导AI获得最佳表现的奖励函数。
在技术实现上，研究团队采用了一种被称为"群体相对策略优化"（GRPO）的算法作为基础。这个算法的工作原理类似于班级内的相对排名——不是看绝对成绩，而是看你在这一批同学中的相对表现。元优化器会同时生成多个不同的奖励配置，然后观察在这些不同配置下训练出来的AI策略各自的表现，通过比较这些表现来学习哪种奖励设计更有效。
整个训练过程就像是一个不断迭代的教学实验。在每一轮中，元优化器会提出几种不同的奖励方案，然后让内层的AI分别在这些方案下进行学习。学习结束后，系统会在验证集上测试这些AI的实际表现，并将这些表现作为反馈信号传递给元优化器。元优化器根据这些反馈调整自己的参数，学会生成更好的奖励配置。这个过程会持续进行，直到元优化器找到能够产生最佳AI表现的奖励机制。
这种方法的一个关键优势是它的可微分特性。与传统的进化算法不同，DERL能够利用梯度信息来指导搜索过程。传统的进化方法就像在黑暗中摸索，只能通过随机尝试来寻找更好的解决方案。而DERL则像是有了一盏明灯，能够"看到"调整的方向，知道朝哪个方向改进更有可能获得更好的结果。
为了全面验证DERL的有效性，研究团队在三个截然不同的领域进行了实验测试。第一个领域是机器人代理任务，使用了ALFWorld基准测试。这个测试模拟了家庭环境中的各种任务，比如"把苹果放到微波炉里"或"清理房间"。AI需要通过自然语言理解任务要求，然后规划和执行一系列动作来完成目标。
第二个测试领域是科学模拟，使用了ScienceWorld基准。这个环境模拟了小学科学课程的各种实验和问题，AI需要在虚拟实验室中进行推理和操作，完成像"测量物体的密度"或"观察植物生长"这样的科学任务。
第三个领域是数学推理，使用了GSM8K和MATH这两个著名的数学问题数据集。GSM8K主要包含小学水平的数学应用题，而MATH则包含了更高级的竞赛水平数学问题。
在每个测试领域中，研究团队都设计了相应的原子基元来构建搜索空间。对于机器人任务，他们设计了四个基元：二元结果奖励（任务是否完成）、以及三个过程奖励（分别对应交互过程的前期、中期和后期阶段的平均表现）。对于数学推理任务，基元包括：二元结果奖励、格式检查奖励（答案是否用正确格式给出）、步骤奖励（是否包含逐步推理）、以及软结果奖励（答案中是否包含正确数值，即使格式不对）。
为了评估DERL在不同难度和分布偏移情况下的表现，研究团队设计了三个难度级别的测试。L0级别是最简单的情况，AI在所有任务类型上都有充分的训练，然后在相似的任务上测试。L1级别增加了一些挑战，AI仍然在所有任务类型上训练，但测试时会遇到一些变种任务。L2级别是最困难的，AI只在部分任务类型上训练，然后需要在完全没见过的任务类型上进行测试，这真正考验了方法的泛化能力。
实验结果令人印象深刻。在ALFWorld任务中，DERL在所有三个难度级别上都达到了最佳性能，特别是在最困难的L2级别上，DERL达到了65%的成功率，而传统的结果奖励方法只有29.7%。在ScienceWorld任务中，DERL同样表现出色，在L2级别上达到了30.1%的成功率，相比之下传统方法只有10.9%。
更引人注目的是DERL的人口变体（DERL-pop）的表现。这个变体在每轮训练中会保留上一轮表现最好的模型作为起点，而不是每次都从头开始。这种做法类似于在教学中建立在之前成功经验基础上的累积学习。DERL-pop在ALFWorld的L2级别上达到了76.4%的惊人成功率，在ScienceWorld的L0级别上甚至达到了98.2%的近乎完美的表现。
在数学推理任务上，DERL同样证明了它的价值。在GSM8K上，DERL达到了87%的准确率，超过了所有基线方法。在更困难的MATH数据集上，DERL达到了60.2%的准确率，明显优于简单结果奖励的58.8%。这个提升可能看起来不大，但在数学推理这样的困难任务上，即使是几个百分点的提升也代表了显著的进步。
研究团队还深入分析了DERL的学习过程，发现了一些fascinating的规律。通过追踪元优化器在训练过程中生成的奖励函数结构，他们发现系统会自然而然地偏向于数学上稳定的奖励组合。在训练初期，元优化器会生成各种各样的奖励函数，其中许多是不稳定的（比如包含可能导致数值爆炸的乘法链）。但随着训练的进行，系统逐渐学会了偏爱那些数学上更稳定、更可靠的奖励结构，比如线性组合和归一化操作。
这种"自然选择"现象说明了DERL不仅仅是在搜索有效的奖励函数，它实际上在学习什么样的奖励设计原则是根本性有效的。就像一位经验丰富的教师不仅知道什么样的教学方法有效，还理解为什么这些方法有效的深层原理。
从计算效率的角度看，DERL确实需要比传统方法更多的计算资源。由于需要在每个元优化步骤中训练多个内层策略，总的计算成本大约是基线方法的n倍（其中n是每轮生成的奖励配置数量）。在研究团队的实验中，他们使用了n=8，这意味着DERL需要大约8倍的计算资源。不过，他们也提供了更高效的DERL-pop变体，它通过减少从零开始训练的次数来显著降低计算开销。
为了深入理解DERL的工作机制，研究团队还进行了一个简化的概念验证实验。他们构建了一个仅使用12个参数的图神经网络来表示元优化器，证明即使在这样简化的设置下，元优化器仍然能够发现比简单基线更好的奖励函数。这个实验表明，DERL的核心思想——利用结构化的奖励搜索空间和梯度引导的优化——是robust的，不依赖于特定的复杂实现。
研究团队还分析了DERL学习到的奖励函数的演化轨迹。他们发现，在训练早期，系统会探索各种复杂的奖励结构，其中一些包含了不稳定的数学操作。但随着训练的进行，系统逐渐收敛到更简单、更稳定的结构。最终学习到的奖励函数通常具有良好的数学性质，比如有界的输出范围和对输入变化的平滑响应。
这种演化模式与人类学习设计原则的过程有着有趣的相似性。初学者可能会尝试复杂的方案，但有经验的设计者往往偏爱简洁、可靠的解决方案。DERL似乎自发地发现了这个设计哲学。
从更广阔的角度来看，DERL代表了人工智能研究中一个重要的转向：从依赖人类先验知识向自主发现转变。传统的强化学习严重依赖人类专家来设计奖励函数，这不仅成本高昂，还可能引入人类的偏见和局限性。DERL提供了一条通往更自主的AI系统的道路，这些系统能够通过与环境的交互来发现有效的学习信号。
然而，这项研究也面临一些限制和挑战。首先是计算成本问题。虽然DERL在性能上表现出色，但它需要的计算资源确实比传统方法更多。对于资源有限的应用场景，这可能是一个重要的限制因素。
其次是原子基元的设计问题。虽然DERL可以自动组合基元来创建奖励函数，但这些基元本身仍然需要人类来定义。在某种程度上，这将设计挑战从"如何组合信号"转移到了"如何选择基元"。不过，研究团队指出，基元的设计通常比完整奖励函数的设计要简单得多，而且同一套基元可以在多个任务中重复使用。
第三个挑战是长期信用分配问题。虽然DERL生成的奖励比简单的结果奖励更密集，但它们仍然主要基于最终的验证性能。对于需要极长推理链或具有欺骗性中间目标的任务，仅依赖最终性能可能仍然不足以提供足够的学习信号。
尽管存在这些挑战，DERL的影响意义是深远的。它不仅在技术层面提供了一个新的工具，更重要的是，它展示了一种新的思维方式——让AI系统参与到自己的训练过程设计中。这种自参照的能力可能是通向更强大、更自主的AI系统的关键一步。
在实际应用前景方面，DERL的技术可能会首先在那些奖励设计特别困难的领域得到应用，比如创造性任务、复杂的游戏环境、或者需要长期规划的现实世界应用。随着计算成本的降低和算法效率的提升，这种方法可能会逐渐扩展到更广泛的应用领域。
从科学意义上讲，这项研究为理解智能系统如何学习学习提供了新的视角。它暗示着，真正的智能可能不仅仅在于解决给定的问题，还在于学会如何为自己设置有效的学习目标。这种元学习能力可能是人类智能的一个关键特征，而DERL为我们提供了一个计算框架来探索和实现这种能力。
说到底，DERL的成功证明了一个重要观点：最好的奖励函数可能不是由人类专家精心设计的，而是通过系统性的探索和优化过程发现的。就像进化过程能够产生比任何设计师都精妙的生物结构一样，自动化的奖励发现可能能够创造出比人类直觉更有效的学习信号。这不仅可能改变我们训练AI系统的方式，也可能为我们理解学习和智能本身提供新的洞察。对于普通人来说，这意味着未来的AI系统可能会变得更加自主和高效，能够在更少的人类指导下学会复杂的技能，从而为各行各业带来更广泛和深入的应用可能性。
Q&A
Q1：什么是可微分进化强化学习DERL？
A：DERL是香港大学团队开发的一种让AI自动设计奖励机制的方法。它就像让AI学会给自己制定最有效的激励制度，通过双层学习系统，让一个"元优化器"观察AI在不同奖励下的表现，然后不断调整优化奖励规则，最终找到最适合的奖励函数。
Q2：DERL相比传统方法有什么优势？
A：传统方法要么只给简单的对错奖励（太稀疏），要么需要专家费时费力设计复杂规则（成本太高）。DERL能够自动发现有效的奖励组合，在机器人、科学推理、数学等多个领域都大幅超越了传统方法，特别是在面对全新任务时表现更佳。
Q3：DERL技术什么时候能普及应用？
A：目前DERL还主要在研究阶段，因为它需要较多计算资源。不过研究团队已经开发了更高效的变体，随着计算成本降低，这种技术可能会首先在游戏、创意设计等奖励设计困难的领域应用，然后逐步扩展到更多实际场景中。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

疯了？马斯克要发100万颗卫星上天！网友：这是要统治宇宙吗？

值得关注的5家微信小程序定制开发公司，技术实力与口碑兼备

拒绝DeepSeek加入OpenAI，清华学霸-翁家翌的封神之路

AI太烧钱马斯克据悉正在就合并SpaceX与xAI进行深入谈判

速抢 | 就是现在！40亿红包大战！服务器崩了！你抢到多少？

伙伴聚邕城，智赋新场景！华为坤灵中国行·广西站圆满举办

全站最新

疯了？马斯克要发100万颗卫星上天！网友：这是要统治宇宙吗？

值得关注的5家微信小程序定制开发公司，技术实力与口碑兼备

拒绝DeepSeek加入OpenAI，清华学霸-翁家翌的封神之路

AI太烧钱马斯克据悉正在就合并SpaceX与xAI进行深入谈判

热门推荐

疯了？马斯克要发100万颗卫星上天！网友：这是要统治宇宙吗？

值得关注的5家微信小程序定制开发公司，技术实力与口碑兼备

拒绝DeepSeek加入OpenAI，清华学霸-翁家翌的封神之路

AI太烧钱马斯克据悉正在就合并SpaceX与xAI进行深入谈判

速抢 | 就是现在！40亿红包大战！服务器崩了！你抢到多少？

伙伴聚邕城，智赋新场景！华为坤灵中国行·广西站圆满举办

元宝能否成为腾讯的“新中枢”

科技之花蓉城绽放，英特尔亮相2026抖音生活服务城市生态大会

马斯克发18帖求救，美国认错，特朗普密会黄仁勋定下对华策略

百度等入股北京人形机器人创新中心后者增资至约6亿

模板开发vs定制开发：小程序不同开发模式优劣对比

隐身的腾讯AI

识别大模型撒谎：清华首创可解释性大模型幻觉检测

互联网大厂加入春节红包AI大战：阿里30亿、腾讯元宝10亿、百度5亿……

无锡小程序开发定制公司：综合排名榜单及推荐指数和口碑评分