文 | 字母AI
2026年最重要的人事变动之一,莫过于安德鲁·卡帕西(Andrej Karpathy)去了Anthropic。
就在2025年5月19日晚,卡帕西发了一条X,称他现已入职Anthropic,重新投身研发工作。
预训练的本质是让大模型对事物有基础的认知,就像咱们口中的常识一样,下雨要打伞、出门带钥匙。
后面的微调、RLHF、安全对齐、产品化,都建立在这个底座之上。
而卡帕西要做的,是让模型参与到预训练这个过程中,让AI研究AI自己。
这里可能有点绕,我尽量把它解释清楚。预训练是一个阶段,而在这个阶段里,模型需要进行多次大规模训练。
第一次大规模训练的时候,团队可能尝试某个架构和数据配比,然后根据训练的结果发现其中的问题,调整第二次大规模训练方案,然后再优化、再训练,一直往复。
研究团队在这个过程中需要做无数个决策,比如用什么数据、怎么清洗、怎么配比、用什么架构、怎么调超参数、训练过程中出问题了怎么办等等。
一个模型跑了几周的大规模训练,结果发现一开始的方向错了,那这几周的算力和时间就全部浪费了。
所以如果能在训练前,通过AI的辅助研究,排除掉一部分错误的方向,那么模型的训练效率就会更高。
那为什么这事得卡帕西来呢?
其实是因为卡帕西的身份很特殊,他的经历囊括研究员、工程师和产品经理三大板块。
他在OpenAI工作过两次,第一次是2015年作为联合创始人加入,担任研究科学家,专注于深度学习和计算机视觉,直到2017年离开加入特斯拉。
第二次是2023年回归OpenAI,参与GPT-4的改进工作,直到2024年再次离开,创办了Eureka Labs。
2017年的时候,马斯克亲自聘请卡帕西,让他领导特斯拉的计算机视觉工作。卡帕西负责特斯拉的全自动驾驶和Autopilot项目,直到2022年离开。
这些工作让卡帕西对大规模工程化这件事,有了更深刻的理解。
就拿特斯拉来说,你要把自动驾驶部署到百万辆车上。还需要它能在真实世界中工作、要处理各种极端情况、要在有限的算力和功耗下运行,没点工程手段根本拿不下来。
很多AI研究者只会做实验,发论文,但不知道怎么把模型变成产品。卡帕西是既懂AI,也懂工程,还懂产品。
所以Anthropic的这个岗位,非卡帕西莫属。
换一种思路,卡帕西的加入对Anthropic来说,也是一次重大胜利。
Anthropic计划在2026年上市。技术和产品虽然也很重要,但华尔街根本看不懂大模型,他们只看得明白你们企业有什么样的人物。
卡帕西在AI行业内显然是个图腾一样的存在。
不光是AI圈,他在教育圈也是大佬。
2015年,卡帕西和李飞飞一起设计了斯坦福大学第一门专门讲授深度学习的课程,他是主要讲师。这门课的视频网上观看次数超过了80万次。
近年来,他在YouTube上发布了大量技术讲解视频,教人们如何从零开始构建如同GPT那样的大语言模型。教学风格清晰,对问题深入浅出,能把最复杂的技术问题讲得让普通人也能理解。
我对比了一下2015年OpenAI的创立公告,发现了一个很有意思的事情。由于卡帕西加入了Anthropic,导致现在Anthropic里的OpenAI创始团队人数,已经和OpenAI打平了。
OpenAI这边有奥特曼、布鲁克曼和沃伊切赫·扎伦巴(Wojciech Zaremba),Anthropic有德克·金马(Durk Kingma)、卡帕西,还有已经离职的约翰·舒尔曼(John Schulman)。
不过,这不是说Anthropic反对OpenAI的技术路线。事实恰恰相反,Anthropic的技术路线和OpenAI非常相似,都是基于大规模语言模型,都相信scaling laws,都在追求AGI。
Anthropic反对的,是OpenAI的商业化优先策略,以及OpenAI在安全研究上的不足。
可以肯定的是,在AI编程和ToB这两个领域,Anthropic领先OpenAI太多了,以至于Codex明明体验下来要比Cowork更好,但大家仍然会选Anthropic的产品。
更重要的是,卡帕西还给Anthropic带来了名人效应。
谁会不想跟卡帕西这样的行业图腾共事呢?





京公网安备 11011402013531号