当前位置: 首页 » 资讯 » 科技头条 » 正文

280美元一单!1000名工程师教Claude写好代码

IP属地 中国·北京 新智元 时间:2026-06-06 14:19:57


新智元报道


Anthropic自家工程师早已基本不写代码了,却280美元一个任务,花钱请约1000名外部工程师,手把手教Claude Code写出好代码。喂养前沿模型的,终究还是人。

最近,一篇报道把Claude Code的「进步秘笈」摆在了台面上。

Business Insider称,Anthropic有一个专门提升Claude Code的项目,正在通过约1000名软件工程师的反馈来打磨它。

这个项目在数据公司Snorkel AI内部,代号为「Marlin」。


早在今年1月,Claude Code负责人Boris Cherny就爆料自己已经两个多月没手写过一行代码,一天就让Claude提交22个拉取请求(Pull Request),前一天则提交了27个,全是模型写的。

也有报道称,Anthropic内部代码也大部分由AI生成。

有趣的地方,正在这儿。

一边,Anthropic自家核心工程师已经把大量编码工作交给模型;另一边,它在花钱请约1000名外部工程师,手把手教Claude Code什么才叫「好代码」。

一小时280美元

买的到底是什么

按Business Insider的说法,Marlin项目请的外部工程师都有软件工程背景。他们的活儿,听上去很像一次真实的代码评审。

流程大致是这样。先从一份包含数千个仓库的清单里,选一个GitHub的代码仓库。然后建一个PR,也就是开发者提交代码修改的那一步。再写一段提示词,把任务讲清楚。

模型会生成两套代码,而这些外部工程师接下来要做的,是A/B测试:比较两套输出,选出更好的那一套。

每个任务报酬280美元,大约花一小时。有些还要和Snorkel的审核层来回好几轮。

评判的标准,是评估生产级代码的正确性、安全性、可靠性和可维护性。

举两个真实的例子。

在一个任务里,外部工程师让模型重构系统处理执行元数据(execution metadata)的方式,目标是让代码更清晰、更好维护,但不改变功能。

另一个任务中,外部工程师给MLflow这个开源机器学习平台做安全修复,针对它加载模型时下载Python包可能出现的命令注入漏洞。材料的要求十分明确:既要挡住命令注入,又不能误伤合法的pip(Python包管理器)选项。

这些任务的要求,已经超出了数据标注的范畴,更像是要让一个资深工程师,把脑子里那套「这样写更好」的判断原样拷给模型。

显然,Anthropic购买的并非代码,而是资深程序员头脑中那个如何把代码写得更安全、更干净的判断。

为什么非得是工程师

Anthropic为什么要如此大费周章?因为Claude Code早就不是一个写代码的聊天框了。

Anthropic官方把它定义为项目级的AI智能体。它能读完整个代码库,跨文件做规划,直接执行修改,跑测试,再根据失败的结果自己迭代。


Anthropic官网对Claude Code的定义:一套能读代码库、跨文件改动、跑测试、交付已提交代码的智能体。

这意味着它会真的动手改文件、跑任务,接触整个代码工程。

Anthropic自己也清楚这件事的分量,因此在工程博客里反复讲Claude Code的权限、沙箱和批准疲劳(approval fatigue)问题。

默认情况下,高风险文件修改或命令执行需要用户批准;为减少反复授权带来的 批准疲劳,Anthropic还引入了sandboxing,让Claude Code在预设文件系统和网络边界内更安全地运行。

当一个AI能跑命令、能动线上代码,犯错的代价就完全不一样了。训练目标也跟着变:从「写对」升级到「写得安全、可靠、可维护」。

这些东西,普通的代码语料喂不出来。它过去藏在资深工程师的代码审查里,是人传人的经验。现在,Anthropic想通过招募人类编程专家,把它变成可以购买的数据。

Snorkel

被低估的「数据军火商」

整件事情的真正主角是Snorkel。

这家公司2019年从斯坦福AI Lab走出来,押注的方向只有一个:真正决定机器学习成败的是数据,而不是模型或者算力。

Snorkel的两位重要创始人是Alex Ratner和他在斯坦福的导师Chris Ré,他们说Snorkel的核心学术源头。


Snorkel AI联合创始人、CEO Alex Ratner

2015年,Snorkel还只是Ratner读博时的一个「下午项目」:与其花大价钱雇人一条条标数据,不如用程序和规则做「弱监督」(weak supervision),让模型不靠人工逐条标注也能学。

靠着这套思路,Snorkel攒下60多篇论文,开源工具也被Google、Intel用了起来,直到2019年才正式拆分成公司。


Snorkel AI联合创始人,斯坦福教授Chris Ré

Ratner的导师Chris Ré也是个狠角色。

他是斯坦福教授、麦克阿瑟天才奖得主、连续创业者,参与的项目曾被苹果收购,还创办了估值一度达50亿美元的SambaNova。

最有意思的还是这家公司的转身。

Snorkel当年要破的,正是「人工标注又慢、又贵、又不稳」这个老大难,那时AI开发约80%的时间都耗在手工标注数据上,因此Snorkel最初的梦想,就是尽量把人从标注里解放出来。

可到了前沿模型时代,最稀缺、最值钱的又回到了人身上,只是换成了博士、医生、律师、资深工程师等专家的品味和判断。这家靠「少用人」起家的公司,如今最赚钱的生意反倒是组织一支昂贵的专家大军去训练前沿AI,Marlin只是其中一单。

它的工作流,刚好也呼应了Marlin项目的需求。

Snorkel官网这样描述这套工作流:先定义任务、评分标准和验证器,框定「什么算好」,再跑专家评审流水线,作者、多名评审、最终裁决者层层把关,全程留痕。


Snorkel官网示意:评审打分出现分歧后经裁决解决,并写入评分标准变更记录,每处改动都可追溯到谁、何时、依据什么。

它还会把评估环境和数据一并搭好,让同一批任务能在不同模型版本上反复跑,得出可复现、可比较的分数。而要让分数干净可比,评分的人就不能受版本干扰。这些外部工程师不知道自己评的是哪个版本,原因就在这儿。

报价也很能说明问题。

Snorkel一个公开的法律方向合同岗,每个高质量任务10到100美元;而Marlin的软件工程任务是280美元一个、约一小时,折成时薪差不多是同行的两倍半(Scale AI、Mercor给工程师开到每小时110美元)。顶尖专家周入还能超过3000美元。

Snorkel招募的这些外部工程师的反馈,是真的贵。

客户名单里有Google、Mistral、Anthropic。2025年5月,Snorkel完成D轮融资,估值13亿美元。

Anthropic营收负责人Kate Jensen表示,要把Claude的潜力完全释放出来,得靠引入领域专家和人类反馈的新评估方法,Anthropic会持续和Snorkel这样的公司合作。

Snorkel、Scale、Mercor这些公司,过去被当成「标注平台」。如今它们成了前沿模型公司背后的隐形供应链。

给最聪明的AI喂料的,就是这样一支散布全球、看不见的专家大军。

几个巨头

抢的是同一种数据

不只是Anthropic在买真实工程能力。这场竞赛,几个重磅玩家都在参与,只是打法不同。

Cursor走的是产品数据这条路。

它官方写明:用户开启隐私模式后,代码绝不会被它或第三方用于训练;只有关闭隐私模式,它才可能用代码库数据、提示词、编辑行为、代码片段,来改进AI功能、训练模型。

Cursor的Tab模型每天产出超过10亿个编辑字符,请求量比初版涨了约100倍。更进一步的Composer,通过强化学习(RL)训练,让模型在大量代码任务环境中学习调用编辑、搜索等工具,处理更长周期的工程任务。

到最新的Composer 2.5,干脆主攻需要数百步操作的长周期任务。

马斯克采用的是资本绑定/收购期权的方式。

今年2月,xAI并入SpaceX。4月底,SpaceX拿下了年内以600亿美元收购Cursor母公司Anysphere的权利,或者先付100亿美元做深度合作。马斯克看中的正是Cursor手里那份全球最活跃的真实开发者行为数据。

5月25日,马斯克在X上宣布,新一代基础模型Grok V9-Medium训练完成,参数1.5T,是当前生产模型的3倍。他特意点出,这还是没加Cursor数据补训之前的成绩,加完「编程能力会强很多」,模型预计6月中旬发布。


这样一来,V9会是第一个系统性地「吃过」真实开发者行为数据的Grok。

OpenAI后来的Codex也走上了这条路。2025年发布的Codex由codex-1驱动,OpenAI称其是在真实编码任务上通过强化学习训练的,目标是写出贴近人类风格、符合PR习惯的代码,还能反复跑测试直到通过;每个任务跑在预装了你代码库的隔离沙箱里。

如今Codex已升级为OpenAI的agentic coding平台,由其前沿编码模型驱动;据Axios报道,每周用户已超过500万。

他们争夺的,其实是同一种东西:过程数据,只是路径各不相同。

Anthropic先有模型,缺真实开发现场的反馈,就花钱请约1000名工程师,把软件工程过程拆成可学习的数据;

Cursor先有产品和真实用户行为,也有自研的Tab、Composer等编程模型。但相比OpenAI、Anthropic,它更缺的是通用基础模型底座和大规模训练算力;

马斯克缺的也是数据,干脆试图用几百亿美元去买一个持续产生开发者行为数据的产品入口;

OpenAI模型、产品两头都不缺,于是自己搭沙箱,让模型在真实编码任务里通过强化学习一遍遍试错、测试、修正、迭代。

几家打法不同,殊途同归,都在用越来越接近真实工程现场的数据,来训练自己的AI编程模型。


真正的护城河

是人的品味和判断

有一篇叫SWE-chat的论文,第一次大规模采集了真实的智能体编码会话:6000段、超过6.3万条用户prompt、35.5万次工具调用。

它得出一个扎心的数字:智能体产出的代码,只有44%最终进入了用户的提交里。有一半多的命运被人删了、改了、推翻了。


SWE-chat实测:vibe coding已占41%的会话,但智能体写的代码只有44%最终进入提交;用户在44%的交互轮次里通过纠正、报错或中断来反推模型输出。

这说明,HumanEval那类老的基准测试(benchmark)已经刷到饱和,光看跑分意义不大了。真正的战场,是真实开发过程里那些反复、试错、推翻重来的数据。

模型越强,越要花钱去买人类还没被替代的那部分东西:工程直觉。

Anthropic花280美元一个任务,请来约1000名工程师做A/B投票:这套看上去笨重的活儿,买的正是这一点。

谁能把工程现场变成模型能消化的数据,谁就握住了进入AI编程下一程的入场券。

参考资料:

https://www.businessinsider.com/anthropic-improve-claude-code-snorkel-data-training-contractors-2026-6%20

https://snorkel.ai/blog/anthropic-claude-aws-revolutionizing-pharma-data-analytics-with-snorkel-ai/

编辑:元宇


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。