现在GPT-5的迭代日志正在OpenAI内部流转,全球AI从业者都在猜下一代大模型能有什么技术突破。但大家大多把目光放在了算法创新上,很少有人留意那些不直接定义算法,却能决定模型能不能持续变好的核心人物。
翁家翌就是这样一位华人工程师,他的名字在OpenAI的技术致谢名单里反复出现,从ChatGPT-3.5到GPT-5的完整后训练流程,他是极少数全程参与的华人,更是OpenAI强化学习和推理基础设施的关键搭建者。
毕业时他放弃了DeepSeek、谷歌的offer,选择加入当时还处于发展初期的OpenAI,这个决定不仅改变了他自己的职业方向,某种程度上也影响了全球AI行业的竞争格局。
少年筑基 从奥数爱好者到编程大神
翁家翌的天赋最早是在数学上显露出来的,他跟普通孩子不一样,不只是被动接受知识,反而对逻辑推理有种天然的敏感,尤其喜欢钻奥数难题。
他自己也说过,自己学东西不算快,但理解深度比同龄人深得多,这种特质让他在数学学习里一直很突出。
初中的时候他就开始超前学,主动啃高中数学课程,初三就已经在深入研究微积分了。
他不是为了攀比成绩,更像是在给未来铺路,提前把底层逻辑摸透,后面学新东西的时候就能更轻松。这种对底层原理的执着,一直跟着他,也为后来做基础设施搭建埋下了伏笔。
真正的转折点是接触编程之后,那时候信息学竞赛还不是升学捷径,他偶然接触到编程,一下子就被这种用逻辑搭建世界的方式吸引了。
不像别人只是埋头刷题,他更痴迷计算机系统的底层架构,这份钻劲让他很快在竞赛圈站稳了脚跟。
他的竞赛之路挺不容易的,中学时代没有好的编程设备,就靠一台普通iPad练代码。那时候移动端编程环境特别差,没有自动补全功能,没有一键编译的快捷键,连基础的语法高亮都没有,用iPad写代码简直像苦行僧修行。
但这种被迫的离线练习,反而练出了他超强的人脑编译能力。写代码之前,他得在脑子里把整个逻辑框架搭好,提前想到可能出现的语法错误和性能问题,久而久之就养成了落笔就定型的编程习惯,对效率也变得格外执着。
信息学竞赛里,算法的时间复杂度是生死线,而常数优化就是高手之间的细微较量。为了让程序快上十几毫秒,他会反复研究内存对齐,琢磨CPU缓存命中率,这种对效率的极致追求,成了刻在他骨子里的工程基因。
凭着这份坚持,他在竞赛里拿了不少好成绩,2015年得了全国青少年信息学奥林匹克联赛铜牌,还有亚太信息奥林匹克中国赛区银牌,在福建竞赛圈小有名气。
虽然只是铜牌,但他展现出的工程能力已经被清华大学注意到,最后凭着60分的降分优惠,成功走进了这所全球顶尖学府之一。那时候的他大概也没想到,当年在iPad上反复打磨的代码习惯,多年后会用来支撑全球最顶尖的AI训练系统。
清华淬炼,开源先锋与强化学习初体验
2016年翁家翌进入清华大学自动化系,后来凭着优异成绩转入计算机系,最后跻身姚班。姚班可是中国计算机天才的摇篮,里面的每个人都在为GPA、竞赛奖项和科研机会拼尽全力,翁家翌却走出了一条不一样的路,他选择用开源打破大家之间的信息壁垒。
那时候校园里还流行把笔记当成私有财产,翁家翌却反其道而行之,把自己的课程作业、学习笔记、实验报告,甚至踩过的技术坑,全都传到了GitHub上。他觉得代码的价值在于流动和复用,不是锁在个人硬盘里发霉。
这份信息平权的想法,让他在清华园里得了个慈善黑客的称号,他的开源资料在学弟学妹之间广泛流传,帮很多人突破了学习瓶颈。
除了分享资料,他还带着工程洁癖改造公共系统。当时清华大学的教务选课系统又慢又多漏洞,他实在看不下去,就自己写脚本修复问题,用技术优化校园服务。
也是从这时候开始,他慢慢意识到,比起解决单个问题,搭建高效可复用的工具和系统,能创造更大的价值。
到了大二大三,翁家翌开始接触深度学习和强化学习,加入了朱军教授领导的TSAIL实验室。朱军教授团队专注于不完全信息决策问题,这正好和他对系统优化的兴趣契合,也给了他第一个施展工程能力的科研平台。
在实验室期间,他参与了ViZDoom AI比赛项目,这个项目基于游戏毁灭战士开发,要求AI在复杂不确定的环境里完成决策任务,对强化学习算法的稳定性和效率要求都很高。
靠着扎实的工程能力和对算法的理解,他所在的团队2017年第一次参赛就拿了亚军,2018年更是成功夺冠,成为这个赛事中国赛区的首个冠军队伍。
这次夺冠让他彻底看到了强化学习的潜力,也发现了当时行业的一个明显痛点。那时候强化学习在学术界发展很快,但工程界的工具却跟不上,主流的框架又大又笨重,过度封装就像个黑盒子,研究员想改一行底层逻辑都要牵动全身。
这种算法领先工具落后的现状,让他萌生了自己做一款高效简洁的强化学习框架的想法。
开源封神,天授框架
2020年春节疫情突然爆发,校园封锁让翁家翌有了充足的时间打磨想法。那个被隔离的寒假,他想着要做一把趁手的工具,就基于PyTorch重构了强化学习的训练流程,天授框架就这样诞生了。
天授这个名字取自史记,意思是能力来自天赋而非单纯学习,刚好贴合强化学习靠与环境交互自主学习的核心。
和当时的主流框架比,天授的设计理念很不一样,主打简洁高效可扩展。他放弃了复杂的类继承,用模块化设计让数据流清晰可查,以前要几千行代码才能实现的算法,在天授里几百行就够了,训练速度还大幅提升。
天授有三个很突出的优势,一是代码足够简洁,整个框架才1500行左右,却能支持多种主流强化学习算法,大大降低了研究员的学习和使用成本。二是训练效率高,通过并行采样优化和缓存设计,每秒能处理5000到6000帧数据,比同期其他框架快不少。
三是稳定性强,他创新性地把整个训练过程纳入单元测试,每次代码迭代都不会影响算法稳定性,这在当时的强化学习框架里是独一份的。
框架开源后很快就在GitHub上收获了几千星标,成了全球很多强化学习研究员的首选工具。
连图灵奖得主Yoshua Bengio的实验室都很认可,翁家翌也因此获得了大三暑假去Bengio实验室深造的机会,深入研究强化学习和自然语言处理的交叉领域。
这段经历不仅让他接触到全球顶尖学术资源,更坚定了他用工程能力赋能科研的职业方向。
除了天授,翁家翌还有个很有温度的开源项目Vaccine Hunter(退雪)。疫情期间,全球留学生都面临签证预约难的问题,美国大使馆的名额紧张,系统还不稳定,很多人因为签证据误了学业。
他就用自己的爬虫技术,做了一个实时监控美国签证预约名额的网站。这个网站界面简单但功能实用,能第一时间捕捉到名额释放信息,还会推送通知帮留学生抢机会。
高峰期的时候,网站日访问量突破百万,累计服务了上千万用户,成了很多留学生的救命工具。
退雪项目让翁家翌真切感受到技术落地的力量,代码不只是能跑通测试用例,还能实实在在影响别人的生活。
他后来在访谈里也说,用代码和工具帮别人,打破信息差,是他追求的人生意义之一。这份技术向善的想法,也成了他后来选择工作的重要标准。
跨界沉淀,CMU思考与职业抉择
2020年翁家翌从清华本科毕业,去了计算机科学的顶尖学府卡内基梅隆大学,攻读计算数据科学硕士学位,方向是系统领域。这两年的深造不只是为了拿个文凭,更多是他沉淀思考职业方向的关键时期。
疫情期间CMU的课程都是线上开展,这让他有更多时间关注工业界的动态。那时候大模型的浪潮已经初显苗头,OpenAI、DeepMind这些机构都在加速推进大规模语言模型研发,学术界和工业界的研究模式差异越来越明显。
翁家翌敏锐地察觉到,AI行业的竞争焦点正在从算法创新转向工程落地能力,单纯做学术研究已经跟不上工业界的迭代速度了。
基于这个判断,他提出了一个大胆的观点,要是想进工业界,读博可能不是最优选择。在他看来,博士阶段的研究大多聚焦细分领域的理论突破,而工业界更需要能快速搭建系统、解决实际问题的工程人才。
所以在CMU期间,他把重心放在强化工程能力和拓展行业视野上,为进入工业界最前沿做好了准备。
2022年硕士毕业时,翁家翌收到的offer堪称神仙打架,谷歌、英伟达、脸书AI研究院,还有幻方浩方也就是后来的DeepSeek,都向他伸出了橄榄枝。
其中幻方的offer很有吸引力,当时幻方正计划组建AI实验室,专注AI基础设施研发,和他的技术方向高度匹配。
在很多人看来,选幻方是更稳妥的选择,作为本土崛起的AI巨头,幻方有充足的资金和算力支持,还能给他核心研发岗位和广阔的成长空间。
翁家翌也认真考虑过这个选项,他坦言要是当时没有更好的选择,大概率会选幻方。但最后他还是拒绝了DeepSeek,选择了OpenAI。
这个决定背后,是他对顶级研究方法论的追求。在他心里,OpenAI和DeepMind是当时AI领域最强的两个实验室,这里聚集了全球最顶尖的人才,还有一套成熟的工业级研究体系。
他想要的不是高薪,而是能亲身感受世界最前沿的研究是如何系统性落地的机会。
和谷歌这些大厂比,OpenAI的非螺丝钉式工作模式更吸引他。他不想在大厂里做自己不感兴趣的前后端工作,变成庞大系统里可有可无的一员。而OpenAI的扁平化架构,还有用工程能力驱动研究的文化,刚好契合他的职业追求。
另外,当时OpenAI正在全力推进强化学习人类反馈技术研发,这和他在天授框架里积累的经验完美契合,能让他把强化学习技术用到亿级用户的产品上。
面试时的一次智力较量,更让他坚定了加入OpenAI的决心。
他的面试官是OpenAI联合创始人,也是PPO算法的发明者John Schulman,算是现代强化学习领域的奠基人。
这场面试没有考套路化的算法题,而是给了他一个开放性的全流程任务,John Schulman给了他三个小时,让他从零开始写一个完整系统。翁家翌只用了两个小时就完成了开发,演示时出现的漏洞也当场修复,整个过程流畅又高效。
John Schulman对他的表现特别认可,后来也解释过选择他的原因,一是他GitHub仓库里的代码质量很高,逻辑清晰干净,二是他相信有扎实系统工程能力的人才,能给任何研究项目带来正向增益。
这次面试不仅让他拿到了OpenAI的offer,还得到了行业泰斗的认可和指导。
OpenAI封神,基建铸炉者的技术突围
2022年7月,翁家翌正式加入OpenAI,成了当时团队里第一个硕士应届毕业生,也是最年轻的研发工程师之一。他顺利加入了John Schulman领导的强化学习团队,直接参与ChatGPT的后续研发。
那时候ChatGPT还没发布,但OpenAI已经意识到强化学习人类反馈技术的核心价值,翁家翌带来的强化学习和系统优化经验,刚好填补了团队的技术空白。
刚入职没多久,他就展现出了惊人的工程能力。他不仅熟悉各种强化学习算法,还能从系统层面优化训练流程,解决大规模分布式训练中的性能瓶颈。
在ChatGPT 3.5的后训练阶段,他主导优化了强化学习人类反馈的训练管线,大幅提升了模型的迭代速度和稳定性,为ChatGPT的成功发布打下了坚实基础。
翁家翌对John Schulman充满感激,他说John Schulman不仅给了他进入OpenAI的机会,还教会了他系统性做研究的方法。
John Schulman离职那天,他甚至关掉电脑难过了一下午,这份知遇之恩也让他更加珍惜在OpenAI的工作机会,全身心投入到技术研发中。
OpenAI核心贡献,铸造大模型成长的奠基人
如果把预训练比作让模型读完互联网上所有书籍,那后训练包括强化学习人类反馈和指令微调,就是教模型怎么像人一样交流,遵守安全规则。
翁家翌主导搭建的后训练基础设施,就是连接这两个阶段的核心桥梁。他也是极少数全程参与ChatGPT 3.5、GPT-4、GPT-4V、GPT-4o、GPT4.5、GPT-5后训练流程的工程师,OpenAI近三年来所有核心模型的研发,都有他的参与。
翁家翌核心贡献主要集中在三个方面,首先是大规模分布式训练系统的搭建。OpenAI训练模型要调动成千上万个GPU协同工作,任何一个节点出问题都可能导致整个训练中断。
通过优化节点通信协议,设计容错机制,保证了训练集群的稳定运行,大幅降低了训练中断的风险。他中学时养成的优化习惯在这里派上了大用场,靠着抠细节修漏洞,把GPU的利用率拉满,为OpenAI节省了巨额的算力成本。
其次是多模态融合基础设施的研发。随着GPT-4V、GPT-4o这些多模态模型推出,OpenAI需要同时处理文本、音频、视频等多种数据的训练。
翁家翌还带领团队重构了训练管线,实现了不同模态数据的高效融合和协同训练,解决了多模态数据处理中的延迟和一致性问题,为模型的多模态能力突破提供了技术支持。
最后是强化学习人类反馈训练流程的迭代优化。这项技术直接决定模型能不能对齐人类价值观,翁家翌通过优化奖励模型训练、策略迭代等核心环节,让模型能更快学习人类反馈,同时提升了训练过程的可解释性和稳定性。
他搭建的强化学习基础设施,成了OpenAI后续所有大模型迭代的核心支撑,也让他成了团队里不可或缺的技术核心。
翁家翌曾说过,模型公司本质上拼的是基础设施修复漏洞的速度。在他看来,AI行业从来不缺想法,缺的是能快速验证想法、把技术落地的工程能力。
每家公司的基础设施都有漏洞,谁能更快修复优化,谁就能在模型迭代中抢占先机。
其实翁家翌的封神之路,不只是一个人的成长故事,更是一代中国青年工程师在全球化技术浪潮中突围的缩影。他的经历,给无数想进入AI行业的年轻人提供了宝贵的启示。
扎实的底层能力永远是核心竞争力。从少年时代的数学和编程积累,到清华期间打磨工程能力,翁家翌的每一步都在夯实基础。现在AI行业迭代很快,算法和模型层出不穷,但底层的工程能力和逻辑思维,永远是立足的根本。





京公网安备 11011402013531号