![]()
这项研究由阿里巴巴集团的研究人员完成,论文于2026年6月发表在预印本平台arXiv上,编号为arXiv:2606.20002v1,有兴趣深入了解的读者可以通过该编号查询完整论文。
**一切从一个日常困境说起**
你有没有遇到过这样的情况:每次换了一个新工作环境,就得从零开始摸索规律。哪条路上班最快、哪个同事负责什么、哪台打印机容易卡纸……这些经验日积月累,才能让你真正"得心应手"。但如果每天上班你的记忆都会清零,那不管干多久,你永远都像第一天入职的新人。
当前的大语言模型(也就是ChatGPT、通义千问这类AI助手的核心技术),面对的正是这种尴尬处境。它们每次接到一个新任务,都像一个没有工作记忆的新员工——不管之前跟同样的环境打过多少交道,它都得重新摸索。阿里巴巴集团的这支研究团队认为,这个问题必须被正面解决。于是,他们提出了一个名叫"连点成线"(CoD,Connect the Dots)的训练框架,目标是让AI学会在长期工作中积累经验、更新认知,并把这些经验真正用到下一个任务里。
**一、AI的"新员工困境":为什么现在的模型总是记不住东西**
以一个老练的侦探破案来理解这件事。一个经验丰富的侦探走进一个新城市,第一个案子可能摸不准门道,但破了几个案子之后,他对这座城市的街道、居民习惯、犯罪规律都有了感觉,接下来的案子自然越破越快、越破越准。
现在的AI模型更像是一批侦探新人——每次接到新案子,都是从零出发,完全不记得上一个案子里学到的东西。研究团队指出,现有的强化学习训练方式(让模型反复做题、不断纠错)的核心问题恰恰在这里:它训练的是"每道题独立作答"的能力,而不是"跨越多道题积累经验"的能力。这就好比一个学生每次考试前记忆都会重置,不管考了多少次,他永远都在从头复习。
研究团队因此提出一个清晰的区分:**长周期部署**(CoD-Deploy)与**标准任务训练**(Standard RL)是两种根本不同的场景。前者要求AI在同一个环境里连续处理一系列相关任务,不断更新自己对环境的认知;后者只要求AI把每道题答对。这两种目标,在设计上是错位的。
**二、"连点成线"框架:像老员工一样积累经验**
研究团队的核心提案,可以用一个侦探事务所的运作来描述。
事务所接了一批案子,都发生在同一座城市。新来的侦探(AI)接到第一个案子,开始调查、收集线索,最终无论成败,都把这次调查的心得——比如"A街的监控有盲区"、"B区的居民不配合问询"——记录下来,整理成一份简短的"城市笔记"。接下来的案子开始前,侦探先翻翻这份笔记,带着更多先验知识出发,自然能更快锁定嫌疑人。随着案子越破越多,笔记越来越丰富,侦探对这座城市的掌握也越来越深。
CoD框架的设计完全遵循这个逻辑。整个过程由两种类型的工作交替进行:一是"解题回合"(solve-task episode),AI负责尝试完成当前任务;二是"更新认知回合"(update-context episode),AI回顾刚才的表现,提炼出有价值的发现,写入"环境笔记"(context/hint)。这份笔记会在下一个任务开始时作为额外线索提供给AI,帮助它少走弯路。
值得注意的是,这套框架在训练阶段(CoD-Train)和实际部署阶段(CoD-Deploy)采用完全一样的运作模式。训练时AI在多个不同环境里练习这种"做任务→总结→再做任务"的循环,部署时则在新环境里照样运转。研究团队认为,训练方式和部署方式的对齐,是让模型真正学到"跨任务积累经验"能力的关键。
**三、强化学习的改造:如何给AI一个"长远眼光"的激励机制**
普通的强化学习训练,就像一个只按单次考试成绩发奖金的老板:你这道题答对了,给奖励;答错了,扣分。AI因此只关心眼前这道题,完全没有动力去考虑"我现在多探索一步,对下一道题有没有帮助"。
CoD框架要求AI在每一步都考虑长远收益。研究团队引入了动态规划的经典思想——每一回合的"回报"不只是当前任务的得分,而是当前任务加上未来所有任务得分的平均值。具体来说,AI在第j个位置完成的任务,其"回报"被定义为从第j个任务到最后一个任务的平均奖励。这意味着,一次好的"总结回合"如果真的帮助了后续任务,AI就能从中获得实质性的奖励信号,反之亦然。这把AI的动机从"把眼前这道题答对"推升到"让整个任务序列尽可能顺利"。
在具体算法实现上,研究团队采用了GRPO风格的训练方案(一种不需要额外"裁判模型"的强化学习算法)。为了让它适应CoD场景,他们做了一个关键改造:在同一个任务序列中,同一位置的多个轨迹被视为一组,用这一组轨迹的平均回报作为基准,算出每条轨迹相对于平均水平的优劣,再据此更新模型参数。
然而,早期实验发现,当模型在某些环境下训练时,训练过程会出现不稳定的情况——奖励曲线大幅波动,模型表现忽好忽坏。研究团队深入分析后发现,问题出在"平均优势值"持续偏负,导致正向梯度和负向梯度严重失衡。为此,他们引入了一个自适应的重新加权机制:当一批训练样本的平均优势为负时,对每个样本的权重做指数调整,使正负梯度重新达到平衡。这个机制类似于一个有经验的教练在学生状态低迷时调整训练强度,防止学生因负反馈过多而丧失信心。实验证明,这个改动显著提升了训练稳定性。
**四、专门为CoD设计的训练场:三个精心构造的环境**
要训练AI的"跨任务积累经验"能力,就不能随便找一堆普通题目来练。如果每道题都能独立解决,AI就没有理由去积累和传递经验,训练自然退化成普通的强化学习。研究团队因此专门设计了三类训练环境,每一类都有其独特的设计逻辑。
第一类叫做**FrozenLake-Obscure**(迷雾冰湖)。它的灵感来自一款经典的网格游戏:AI在一张网格地图上行走,目标是从起点走到终点,途中要绕开冰洞。这本来是一道普通的寻路题,但研究团队加了一个关键扭曲:AI可以使用的四个方向指令被替换成了A、B、C、D四个抽象符号,而这四个符号对应上下左右哪个方向,在每个新环境里都是随机打乱的,且事先未知。
这个设定的妙处在于,如果AI不知道A等于"向右"、B等于"向上",它在第一道题里撞几次墙是完全正常的——信息层面就是不可能百分之百成功。但一旦AI在前几道题里摸索出了这个对应关系,并且把它记录在"环境笔记"里,后续的题目就会变得容易很多。这就逼着AI必须学会:在解题过程中主动探索、识别规律,并在总结回合里把这些规律提炼出来、传递下去。
第二类叫做**Alchemy-Random**(随机炼金术)。每个环境里有一套随机生成的"配方"——哪两种元素组合能合成第三种元素。AI的任务是在不知道任何配方的情况下,通过实验逐步发现规律,并最终合成目标元素。与迷雾冰湖相比,这类环境的元素种类更多、任务变化更丰富,难度范围也更宽,适合更进阶的训练。一份好的"环境笔记"应该记录下已验证的配方和已知的失败组合,让AI在新任务里不必重复无效尝试。
第三类叫做**TerminalSimulator**(终端模拟器)。这个环境模拟了真实的电脑终端操作,AI需要完成文件操作、传输等日常任务。不同的操作系统、不同的文件大小,可能需要截然不同的操作策略。这个环境主要被用作跨域评估,检验AI在完全没有训练过的场景里,能否把在其他环境里学到的"积累经验"能力迁移过来。
**五、实验结果:从"一问三不知"到"越做越顺手"**
研究团队做了两组主要实验,都以阿里巴巴自家的Qwen3-8B-Instruct模型作为起点进行训练。
第一组实验只在迷雾冰湖环境里训练。训练结束后,效果非常直观:AI在没有任何背景知识的情况下解第一道题,成功率从18%提升到了45%——这个上限主要受信息论约束,因为不知道方向对应关系,纯靠猜测能达到的上限本就有限。但真正令人注目的是,AI在解同一个环境里的第四道题时,成功率从训练前的28%大幅跃升到76%。这说明AI确实学会了:在前几道题里主动摸清规律、写好笔记,到第四道题时已经胸有成竹。
更重要的是,这种能力不只在训练过的场景里奏效。研究团队把训练好的模型放到更难的迷雾冰湖变体(地图更大、任务序列更长)上测试,它依然展现出越做越好的趋势,证明这种能力可以泛化到同类更难的环境。随后,他们又把这个模型直接扔进完全没见过的炼金术环境和终端模拟器环境,结果发现,在这些跨域场景下,AI同样表现出了随任务序列推进而逐步提升的能力,尽管幅度相对较小。
第二组实验同时在迷雾冰湖和炼金术两个环境的混合数据上训练。总体趋势与第一组类似,但炼金术环境的训练曲线相对波动较大,研究团队认为这与混合训练时不同域数据交替出现、梯度方向互相干扰有关,并在附录中讨论了不同算法对训练稳定性的影响。
还有一个值得单独提出的发现。研究团队还测试了"拉尔夫循环"(Ralph-loop)场景——即AI反复尝试解决同一道题,每次尝试后更新笔记再重试。在终端模拟器的这种设定下,AI的表现随着尝试次数的增加确实在稳步提升。这说明CoD训练出来的能力,同样适用于"反复打磨同一任务"这种场景,而不仅仅是"依次处理不同任务"。
**六、AI的笔记长什么样:三类环境里的真实"经验总结"**
论文的附录里展示了几个真实的AI生成笔记,读来颇为有趣,也很直观地说明了这套机制在实践中是怎么运作的。
在迷雾冰湖环境里,AI的笔记写道:"方向1等于向右,方向2等于向上,方向3等于向下,方向4等于向左。"这四行字,就是AI在之前的任务里通过观察自己的移动结果推断出来的核心情报。有了这份笔记,下一道题就可以直接照着已知的方向对应关系规划路径,而不必再浪费步骤去摸索。
在炼金术环境里,笔记的内容更丰富:AI不仅记录了已经验证的配方(比如"元素lqlrr加上gwzzz能合成hjklt"),还记录了分层策略(先合成低层元素、再组合出高层元素),以及整条合成目标元素的完整路径。这份笔记几乎相当于一个完整的攻略手册,让AI在新任务里可以直接按图索骥。
在终端模拟器里,笔记的风格则更像操作规程:AI写道,"用scp命令把文件从远程服务器拷贝到本地,然后用unzip命令解压到指定目录,解压前先用cd命令切换到目标目录。"这些经过实战验证的命令序列,被提炼成可复用的操作知识传递下去。
**七、与已有研究的联系和区别:CoD站在哪个肩膀上**
研究团队在论文中专门梳理了CoD框架与几条已有研究脉络的关系。
从概念上看,CoD与"元强化学习"(Meta-RL)关系最近,尤其是RL?这个经典范式——让AI通过循环神经网络的隐藏状态在多个回合之间传递上下文信息。CoD的关键不同在于,它用的是大语言模型而非循环网络,这意味着"上下文笔记"可以是可读的自然语言文字,长度和内容都更加灵活,而且大模型本身具备的语言泛化能力为跨域迁移提供了更强的基础。
近期也有几项相关工作尝试把类似思路应用到大模型上,包括LaMer、MAGE和Orbit等。CoD与它们的主要区别在于场景设定和算法设计。这些工作通常假设AI在同一道题上反复尝试直到成功,而CoD的场景是AI持续面对一系列不同但相关的新任务,必须在整个序列里保持长期积累。此外,在信用分配(也就是"哪些行为应该得奖励、哪些应该被惩罚")的处理上,Orbit采用了粗粒度的方案——把整个序列的总奖励作为单一信号,这在序列较长时会大幅削弱训练效果;而CoD采用了细粒度的位置分组方案,使得即使序列很长,训练信号也能精确地传达到每一步。
CoD与"测试时计算扩展"(inference scaling)也有关联——把AI反复尝试同一任务的"拉尔夫循环"可以视为CoD的一个特例。但普通的推理扩展方法只是在推理阶段多用计算资源,并不真正训练模型学会积累经验;而CoD是把这种积累经验的能力直接训练进模型权重里。
**八、还有多少路要走:未完成的研究与开放问题**
研究团队对这项工作的局限性保持相当清醒的认识。论文明确指出,当前的算法在某些设定下仍存在不稳定性,现有的自适应重加权机制是一种工程性的启发式修补,还缺乏更严格的理论支撑。
在环境设计上,目前只有迷雾冰湖和炼金术两类主要训练环境,覆盖的场景范围还相当有限。研究团队预期,随着训练环境的种类和数量扩大,模型的跨域泛化能力有望进一步提升。
在上下文管理机制上,当前的"环境笔记"只是一段文字,以追加到系统提示词的方式传入下一个任务。这种方式简单有效,但在面对更复杂的场景时可能不够用——例如,当任务序列非常长、环境里的知识点非常多时,一段简短的文字笔记很可能无法装下所有有价值的信息。研究团队提出,未来可以引入持久化记忆库、结构化知识图谱,或者类似Anthropic"智能体技能"系统的机制,让AI的经验积累更加有条理、更易检索。
此外,研究团队也明确了CoD与现有标准强化学习训练的定位关系:两者并不互斥,而更像是相辅相成。标准的任务级强化学习擅长打磨特定领域的专业能力(比如数学推理、代码生成),而CoD训练的是跨任务的元能力——学会在新环境里快速适应和积累。把CoD作为额外的训练阶段加入现有的训练流程,或者训练一个CoD"教师模型"再用蒸馏的方式迁移给其他模型,都是值得探索的方向。
归根结底,这项研究想解决的问题其实非常朴素:我们花了大量资源训练出来的AI,凭什么每次进入一个新环境都要从零摸索?如果一个真正的专业人士在同一个项目里工作了一段时间,他对这个环境的理解是会随着时间不断加深的。让AI也拥有这种能力,或许才是让它真正"像个人"一样工作的关键一步。
现在CoD框架给出的是一个概念验证级别的答案:可行,有效,但离真正的规模化应用还有距离。至于这段距离有多长,大概只有继续做下去才知道。有兴趣深入钻研的读者,可以在arXiv上通过编号2606.20002查到完整论文,研究团队也已经在GitHub上开放了完整的代码实现。
Q&A
Q1:CoD框架和普通的强化学习训练有什么本质区别?
A:普通的强化学习训练让AI针对每道题单独学习,每道题之间没有信息传递,相当于每次都从零开始。CoD框架的核心区别在于,它训练AI在解完一道题后主动总结经验、更新"环境笔记",并在下一道题开始时把这份笔记带上。训练时的激励机制也不只看当前这道题的得分,而是把未来所有任务的平均得分都算进来,让AI有动力去做那些对以后有帮助但眼前得分不高的探索行为。
Q2:FrozenLake-Obscure环境为什么要把方向替换成A、B、C、D?
A:这个设计是为了制造一个信息不对称的障碍,强迫AI必须学会积累和传递经验。如果方向指令是正常的上下左右,AI每道题都能独立解决,就没有理由总结和传递经验了。把方向换成未知符号后,AI在第一道题里不可能百分之百成功,因为它根本不知道A对应哪个方向。只有通过观察自己的移动结果、推断出对应关系、写进笔记、带到下一道题,成功率才能真正提升。这个设定在结构上保证了"积累经验"是有实质价值的。
Q3:CoD训练出来的能力能用在真实场景里吗?
A:研究目前还处于概念验证阶段,主要在游戏类和模拟类环境里验证。不过实验结果显示,训练出来的能力可以泛化到没有见过的环境(比如从冰湖游戏迁移到炼金术,再迁移到终端模拟器),这说明AI学到的不只是某个具体环境的技巧,而是一种更通用的"进入新环境后如何积累和利用经验"的能力。研究团队认为,未来这套框架有潜力应用在个人助手、编程助手等需要长期了解用户习惯和工作环境的场景,但目前距离实际落地还需要进一步的研究和规模化验证。





京公网安备 11011402013531号