翁家翌就是这样一位华人工程师,他的名字在OpenAI的技术致谢名单里反复出现,从ChatGPT-3.5到GPT-5的完整后训练流程,他是极少数全程参与的华人,更是OpenAI强化学习和推理基础设施的关键搭建…
如果这段解释能让新手模型在原本可能答错的情况下答对,或者增强了新手模型答对的信心,那么系统就认为这是一个高质量的解释。 通过将解释的效用量化为奖励信号,模型在训练过程中逐渐学会了生成逻辑严密、信息量大且易于…
庞天宇表示,他在加入腾讯混元团队后,主要研究方向为多模态模型的强化学习(Multimodal RL),包括生成模型(e.g.,diffusion models)和理解模型(e.g., VLMs)。 有…
进入清华大学交叉信息研究院“姚班”后,陈立杰并没有在竞赛的余晖中原地踏步,而是迅速完成了从“程序设计”到“计算机科学理论研究”的华丽转身。他与合作者发现了一条绕过“自然证明”壁垒的潜在路径,提出了“硬度放大…
10/31 16:58
10/31 16:56
10/31 16:55