之所以智能体能够以更大的可能性,学会某一个需要多步骤才能完成的任务,是因为有了元控制器,模型隐含地学会了将长序列任务分解为可重用的子程序(如「移动到某色块」),这就让搜索空间变小,奖励也不再稀疏。 这个过程…
04/01 16:41
10/31 16:58
10/31 16:56