RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。 更重要的是,顺着自己的兴趣去做研究不仅更快乐,我也感觉自己正在打造一个…
07/09 12:23
07/09 12:22
07/09 12:21
07/09 12:20