![]()
这项由腾讯混元、麦吉尔大学与北京大学计算机科学学院联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),会议地点为韩国首尔,收录于PMLR 306论文集。有兴趣深入了解的读者可以通过arXiv编号2605.11711查询完整论文。
强化学习,说白了就是一种让机器通过反复试错来学会做事的技术。你可以把它理解成教一只小狗学坐下:狗每次做对了就给零食奖励,做错了就没有。机器也是这样,在虚拟环境里不断尝试、不断收到奖励或惩罚,慢慢摸索出最优的行为方式。然而,这只"数字小狗"有个让人头疼的毛病——它太笨了,需要海量的练习才能学会哪怕是简单的动作。训练一个能在模拟环境里走路的机器人,往往需要数百万次甚至数亿次的虚拟交互。如果要在真实世界中收集这些数据,代价将极其高昂,甚至根本不现实。
正因为这个瓶颈,研究人员一直在想方设法让机器"学得更快"。其中一个颇为聪明的思路,是让机器在学习动作的同时,顺带学会理解环境是如何运转的——也就是说,机器不只是背下来"这种情况做这个动作能得分",而是真正理解"我做了这个动作,世界会发生什么变化"。这种把环境知识编码进机器感知系统的方式,被称为"基于模型的表示学习"。
然而,这条看似聪明的路也藏着两个隐患。来自腾讯混元等机构的研究团队发现,现有方法在这两点上都存在偏差,最终导致机器学得并不够好。为了解决这两个问题,他们提出了一个叫做DR.Q的新算法。这个名字是"Debiased model-based Representations for Q-learning"的缩写,直译过来就是"去偏差的基于模型表示的Q学习"。下面我们就来一步步拆解,这两个隐患究竟是什么,DR.Q又是怎么把它们一一破解的。
一、为什么机器的"世界观"会出错
要理解DR.Q解决了什么问题,得先弄清楚机器是怎么认识世界的。在强化学习里,机器每时每刻都在观察当前的状态(比如机器人各个关节的角度和速度),然后决定采取什么动作(比如左腿抬多高),接着观察新的状态(动作执行之后世界变成什么样子了)。"基于模型的表示学习"就是让机器把"当前状态加上我打算做的动作"压缩成一个紧凑的内部表示,然后尝试用这个内部表示来预测"下一刻世界的样子"。
这套方法的逻辑很直觉:如果一个表示能准确预测未来,它就一定抓住了环境中最重要的信息。但研究团队指出,这里有个关键漏洞。现有方法通常通过"缩小预测结果和实际结果之间的距离"来训练这个表示——换句话说,就是让预测的"下一刻状态"在数学上尽可能接近真实的"下一刻状态"。
这听起来很合理,但问题在于:数字上距离近,不等于真正理解了对方。研究团队用一个严格的数学定理证明了这一点。考虑这样一个类比:你和朋友约定用暗语传话,你说"苹果",朋友应该回答"香蕉"。如果训练的目标只是让你说的词和朋友回答的词在某种距离度量下尽可能相近,那么最终可能的结果是,你们俩都说"橙子"——距离是缩小了,但原本的对应关系和信息传递却彻底丢失了。
更正式地说,"缩小两个向量之间的欧几里得距离"和"增加两个向量之间的互信息"是两件不同的事。互信息衡量的是两个变量之间包含了多少关于彼此的信息:如果你知道了其中一个,你对另一个的了解能增加多少。而纯粹的距离最小化,有可能通过一些"作弊"方式实现——比如把所有表示都推向同一个点,距离归零,但互信息也归零了。
DR.Q的第一个核心创新,就是在原有的"缩小距离"目标之外,额外加入了一个"最大化互信息"的目标。用一个具体的比喻来说:旧方法像是要求两个人站得尽可能近,而DR.Q的新方法是要求这两个人不仅站得近,还要真正地"心意相通"——你能从一个人的状态推断出另一个人的状态,反之亦然。通过这个补充目标,机器学到的表示不仅在数字上接近,而且在信息层面上真正相互关联,减少了冗余和无关信息的干扰。
在实现上,由于互信息在高维空间里难以直接计算,DR.Q使用了一种叫做InfoNCE的替代损失函数。这个方法的思路类似于"对比学习":对于当前的预测表示,正确的下一刻状态表示是"正样本",同一批次里其他样本的状态表示是"负样本"。算法的目标是让正样本的余弦相似度尽可能高,而负样本的余弦相似度尽可能低。这就像是在一场填词游戏里:给定一段旋律(当前状态和动作的表示),你要在一大堆歌词片段里,精准找出那段真正配得上这段旋律的歌词(下一刻的状态),而不是随便挑一个凑近乎。
二、机器为何会对"早年经历"念念不忘
解决了表示学习的质量问题,DR.Q接着要对付第二个隐患:经验回放中的偏差。
在强化学习里,机器会把自己走过的每一步都记录下来,存进一个叫做"经验回放缓冲区"的记忆库。训练时,机器会从这个记忆库里随机抽取一些记录来学习,而不是只用最新发生的事。这样做有个好处:让学习更稳定,避免被短期的偶然经历带偏。
但这里有个微妙的问题,被称为"首因偏差"。就像人类往往对童年的第一印象记忆深刻一样,强化学习机器也容易对训练初期的经验过度拟合。训练刚开始时,机器对环境一无所知,做出的都是随机行为,收集到的经验质量很差。但随着记忆库被填满,这些早期的"懵懂记忆"依然大量存在,持续影响着机器的学习。
为了应对这一问题,研究者们设计了各种策略。其中最常用的是"优先经验回放(PER)":给那些"让机器最惊讶的经验"更高的抽取概率。具体来说,如果机器预测某次动作的结果会得10分,但实际上得了100分,这个巨大的预测误差(称为"时序差分误差",TD误差)说明这条经验很有学习价值,因此应该更频繁地被复习。
另一类方法叫做"遗忘机制":给旧经验赋予越来越低的抽取权重,强迫机器更多地关注最近发生的事情,避免被早期的不成熟经历拖累。
然而,这两种方法各有局限。纯粹的优先经验回放,会让机器反复咀嚼那些"最惊讶"的经历,但这些经历可能是训练早期留下的,和当前的行为策略已经相距甚远。而纯粹的遗忘机制,则可能让机器错过一些虽然发生在过去、但仍然非常有价值的罕见经验——比如一次偶然成功的高难度动作。
DR.Q的第二个核心创新,是将这两种机制融合成一个统一的策略,称为"渐进式优先经验回放(Faded PER)"。其原理非常直观:一条经验的抽取概率,同时取决于它的TD误差大小(代表信息价值)和它在记忆库里存放的时间长短(越新的经验,衰减越少)。两个因素相乘,共同决定最终的抽取概率。
用一个图书馆的比喻来说:旧方法里的优先经验回放,像是一个图书管理员,总是把读者评分最高的书摆在最显眼的位置,不管这本书是刚出版的还是十年前的旧书。而遗忘机制则是另一个极端,总把最新出版的书放在最前面,不管内容好不好。DR.Q设计的渐进式方案,相当于一个更聪明的管理员:优先推荐那些"既是近期出版、评分又高"的书,同时给旧书的推荐权重打个折扣,但不是彻底把旧书打入冷宫——如果一本旧书确实评分极高,它依然有机会被看到。
研究团队还在数学上证明了这一策略的几个性质。其一,在TD误差相同的情况下,较新的经验一定拥有比较旧的经验更高的抽取概率。其二,任何经验被抽取的期望次数都有明确的上界,不会出现某些经验被无限反复复习的情况。其三,每条经验的期望抽取次数都大于零,不会有任何有价值的经验被完全忽略。这三条性质共同保证了训练过程的合理性。
在实际实现中,DR.Q还做了两处细心的调整。其一,使用了LAP(一种改进版的优先经验回放)来替代原始的PER,它去掉了一些不必要的修正项,并且设置TD误差的最低优先级为1,避免任何经验的抽取概率归零。其二,给遗忘权重设置了一个下限阈值,防止历史上那些真正有价值的珍贵经验因为时间太久而被彻底淡出视野。
三、DR.Q的完整"菜谱":如何把这一切组合起来
DR.Q的整体架构,沿用了之前MR.Q算法的基本框架,但在两个关键环节上做出了改进。整个训练流程可以分为两个相互配合的部分:表示学习和决策学习。
在表示学习部分,机器维护着两个编码器网络。第一个叫做"状态编码器",负责把原始的环境状态(比如一堆关节角度数字)压缩成一个精简的状态表示向量。第二个叫做"状态-动作编码器",接收状态表示和动作,输出一个状态-动作联合表示向量。此外,还有一个线性预测器,负责把状态-动作表示映射到对下一刻状态的预测,以及对即时奖励的预测。
训练这套表示学习系统,需要最小化三个损失函数的加权和。第一个是奖励预测损失:机器对即时奖励的预测应该尽可能准确。这里借鉴了DreamerV3的做法,用"两端热编码"方式表示奖励值,这种方法对奖励大小变化和稀疏奖励都有更好的鲁棒性。第二个是潜在动力学一致性损失:机器对下一刻状态表示的预测,应该尽可能接近由目标网络计算出的真实下一刻状态表示——这是继承自MR.Q的原始目标,由均方误差衡量。第三个是DR.Q新增的互信息损失:使用InfoNCE损失来最大化状态-动作表示和下一刻状态表示之间的互信息。
这三个损失函数各自承担不同的角色,互为补充。奖励损失确保表示抓住了对决策直接有用的信号,动力学一致性损失确保表示在数字上对齐了未来,而互信息损失则确保两者在信息层面上真正相互关联,不留下冗余和噪声的藏身之处。
训练是在一个展开的时间轴上进行的:每次不只看一步,而是看连续H步的交互序列,在整个序列上滚动计算上述损失,帮助表示学习捕捉更长远的动力学规律。值得一提的是,目标状态编码器的参数不是实时更新的,而是每隔固定的环境步数才从主网络同步一次,这种设计能有效稳定训练。
在决策学习部分,DR.Q使用了经典的确定性策略梯度框架。机器维护一个策略网络,根据当前状态表示直接输出动作。为了鼓励探索,动作会被加上一个小幅的高斯噪声。价值评估由两个评论家网络负责,它们接收状态-动作表示,输出对期望累积奖励的估计。DR.Q使用"截断双Q学习"策略来避免过度乐观的估值,即取两个评论家输出的较小值作为目标。此外,机器在更新价值函数时,使用多步回报而非单步,这样可以让奖励信号更快速地传播到早期的决策节点,进一步提升学习效率。
整套算法的另一个值得称道之处,是它保持了极高的简洁性。DR.Q没有引入归一化层、参数重置、隐层嵌入正则化等各种需要精细调参的技巧,也没有针对不同任务使用不同的算法配置。从MuJoCo的简单连续控制任务,到极其复杂的类人机器人全身控制任务,DR.Q使用同一套超参数,不做任何针对性调整。
四、在73个任务上的全面"大考"
研究团队用DR.Q进行了迄今为止相当全面的连续控制算法评测,横跨三大标准基准测试,共涉及73个任务环境。
第一块测试场地是MuJoCo,这是强化学习领域最经典的基准,包括五个常见的运动控制任务:蚂蚁爬行、半猎豹奔跑、单腿弹跳、类人机器人行走、双腿行走。训练预算为100万步环境交互。在这五个任务上,DR.Q的平均表现超过了MR.Q和大部分其他基线,虽然在单腿弹跳任务上表现稍逊,这也是研究团队坦承的局限之一。
第二块测试场地是DeepMind Control Suite(简称DMC),这套环境包含了21个较为简单的任务和7个高难度任务(4个四足犬任务和3个类人机器人任务)。在简单任务集上,DR.Q的平均分达到了0.886,超过了MR.Q(0.874)、SimBaV2(0.874)和FoG(0.873)等竞争对手。在高难度任务集上,DR.Q的优势更为明显,IQM得分达到了0.917,比排名第二的FoG(0.880)高出了约4个百分点,比MR.Q(0.796)高出了近13个百分点。
在高难度任务中,有一个具体成绩特别值得一提:在"四足犬奔跑"这个极具挑战性的任务上,DR.Q在100万步以内达到了平均721分的水平。研究团队表示,据他们所知,这是目前文献中在该任务1M步预算内首次超过700分的公开记录,而此前最强的FoG只达到了613分。
第三块测试场地是HumanoidBench,这是一套非常新颖的基准,使用了Unitree H1型类人机器人,要求它完成各种复杂的全身运动和操作任务。研究团队既测试了不带灵巧手的版本(14个任务),也测试了带灵巧手的更高难度版本(同样14个任务)。灵巧手版本意味着机器人的观测空间和动作空间会大幅膨胀,许多与当前任务无关的信息(比如手指关节的状态)都混入了输入中,给表示学习带来了额外挑战。
在不带手的版本上,DR.Q的IQM得分为0.864,超过了FoG(0.846)和SimBaV2(0.799)。在带手的版本上,DR.Q的优势更加突出,IQM得分达到0.452,而排名第二的SimBaV2只有0.298,FoG是0.254,MR.Q是0.286。这将近60%的领先幅度,充分说明了互信息损失在高维、信息冗余场景下的重要性。
在视觉输入任务上,研究团队还测试了12个以像素图像为输入的DMC任务(而非原始状态向量)。DR.Q在这里的IQM得分达到0.494,超过了MR.Q(0.322)、TDMPC2(0.154)等方法,领先幅度超过50%。
五、拆解验证:每个创新点到底贡献了多少
为了确认每个设计选择的实际效果,研究团队做了详细的消融实验,即系统地去掉某个组件,观察性能如何变化。
关于InfoNCE互信息损失的作用:研究团队将InfoNCE的权重设为零,得到了"不带互信息损失的DR.Q"版本,然后与完整版本和MR.Q进行对比。结果显示,在简单任务上(如HalfCheetah),移除InfoNCE损失的影响相对较小,但在高维的HumanoidBench任务(如带灵巧手的任务)上,影响非常显著。这与直觉完全吻合:输入维度越高、冗余信息越多,显式地最大化互信息就越有必要。消融实验还证实,即便去掉InfoNCE,DR.Q依然和MR.Q保持了大致相当的竞争力,说明其他改进(如渐进式经验回放)同样贡献显著。
关于渐进式经验回放的作用:研究团队分别测试了"只用遗忘机制"和"只用LAP"两个变体,与完整版DR.Q进行对比。实验结果显示,单独使用任何一种机制,都可能在某些任务上出现性能下降,而两者结合才能在各类任务上都保持最强表现。特别是在类人机器人相关任务上,移除LAP会导致严重的性能崩塌,这说明TD误差导向的优先采样对于高维复杂任务来说至关重要。
关于潜在动力学一致性损失的作用:研究团队还测试了移除这个原始MR.Q损失的版本。结果表明,在部分任务(如acrobot-swingup)上影响较小,但在带灵巧手的任务(如h1hand-stair-v0、h1hand-pole-v0)上,移除后性能显著下降。这说明互信息损失和动力学一致性损失并非相互取代的关系,而是相辅相成、各有贡献。
在表示质量的可视化层面,研究团队借助t-SNE工具,将机器学到的状态-动作表示向量绘制在二维平面上。对比DR.Q和MR.Q的可视化结果,可以明显看出:MR.Q的表示往往呈现出分散、不连续的簇状结构,中间存在明显的空白区域;而DR.Q的表示则形成了更加连续、紧凑的分布,表明它学到的内部表示更加平滑、结构化,能更好地覆盖状态空间。
此外,研究团队还通过一个有趣的实验验证了DR.Q对噪声输入的鲁棒性:在原始状态向量后面额外拼接了50维的随机高斯噪声,人为制造冗余信息。结果显示,这种干扰对MR.Q的性能造成了明显损害,而DR.Q受到的影响则小得多。这进一步印证了互信息最大化帮助机器"过滤噪声、抓住本质"的作用。
六、对比公平性的澄清与研究局限
研究团队在论文中坦诚地讨论了若干值得关注的细节和局限性。
首先,DR.Q使用了比原始MR.Q稍大的网络规模(更大的编码器隐藏维度、不同的学习率等),研究团队专门设计了对照实验,将MR.Q的超参数对齐到与DR.Q相同,结果显示网络规模确实能为MR.Q带来提升,但仍然显著落后于DR.Q。这说明DR.Q的优势并不仅仅来自更大的网络,互信息损失和渐进式经验回放本身的贡献是实质性的。
其次,DR.Q在单腿弹跳(Hopper-v4)任务上的表现相对较弱,这是使用统一超参数的代价。针对这一特定任务单独调参或许能有所改善,但研究团队认为通用性更重要。
此外,DR.Q在类人机器人视觉跑步(visual-humanoid-run)任务上同样失败,不过研究团队指出,所有参与比较的方法在1M步预算内都无法在这个任务上取得有意义的分数,DrQ-v2需要15M步才能解决这个任务,因此这并不能算DR.Q独特的弱点。
研究团队也明确指出,DR.Q目前不适用于需要复杂探索策略的任务,也不适用于非马尔可夫环境(即仅凭当前状态无法做出最优决策的情况)。DR.Q的设计重心是连续控制任务,尚未在离散动作空间的基准(如Atari游戏)上进行验证,因为这方面的实验成本极高。
归根结底,DR.Q提出的核心洞察——"让机器的感知系统不仅在数字上接近真相,还要在信息层面与真相深度关联",以及"让训练数据的选择同时考虑信息价值和时间新鲜度"——是两个相当基本且通用的原则。它们并不依赖于特定的网络架构或特定的任务类型,未来有望被整合进更广泛的强化学习系统中。
当我们每次使用一个动作灵巧的机器人、一个反应迅速的游戏AI,或者一个能自主规划路径的自动驾驶系统时,背后都有无数像DR.Q这样的研究在推动学习效率的边界。这项研究提醒我们,衡量一个表示是否"优秀",不能只盯着数字距离,还要问它是否真正传递了信息的本质;而选择用哪些经历来学习,既不能只追求"震撼",也不能只追求"新鲜",二者的平衡才是关键。对于想深入了解技术细节的读者,可通过arXiv编号2605.11711获取完整论文,相关代码也已在GitHub上公开。
Q&A
Q1:DR.Q算法里的互信息损失具体解决了什么问题?
A:DR.Q算法中的互信息损失解决了现有基于模型的表示学习只追求预测值和真实值"数字接近"、却无法保证二者"信息关联"的缺陷。简单说,两个向量数值相近,不代表你能从一个推断出另一个。互信息损失通过InfoNCE损失函数,强制要求当前状态-动作的表示和下一刻状态的表示在信息层面真正互相关联,从而让机器学到更纯粹、更有用的环境知识。
Q2:渐进式优先经验回放和普通优先经验回放有什么区别?
A:普通优先经验回放只根据预测误差(TD误差)决定哪些经历被频繁复习,会导致训练早期积累的低质量经历反复被使用。渐进式优先经验回放在此基础上引入了时间衰减机制,让每条经历的抽取概率同时受"信息价值"和"时间新鲜度"两个因素影响,既避免了旧经历的过度干扰,也不会完全丢弃历史上真正有价值的罕见经验。
Q3:DR.Q在哪类任务上效果最明显?
A:DR.Q在高维度、信息冗余的复杂控制任务上优势最突出,尤其是带灵巧手的类人机器人任务(HumanoidBench with hand),领先第二名近60%。这类任务的输入包含大量与当前目标无关的冗余信息(如手指关节状态),正是互信息损失发挥作用的最佳场景,帮助机器过滤噪声、聚焦关键信息。





京公网安备 11011402013531号