![]()
在大模型圈,有几家名字人人都知道:OpenAI、Google DeepMind、Anthropic。
但在这些名字背后,还有一家几乎不做 PR、从不上头条的公司——Surge AI。
不到四年时间,这家公司用不到 100 人的团队,做到年收入超 10 亿美元;从零开始到今天,它从未融过一分钱 VC,从第一天起就盈利。
更关键的是:ChatGPT、Claude、Gemini 等一线模型,在后训练、评测、对齐阶段都不同程度地用过 Surge 的数据和工具。
这意味着,在决定“模型该长成什么样”这件事上,Surge 站在了一个极其隐蔽但关键的位置。
Surge 创始人 Edwin Chen 的身份也不典型:他不是“连续创业达人”,而是一路从 MIT 到 Google、Facebook、Twitter 做机器学习研究的学术型工程师。而当他真的创业时,他几乎把硅谷主流剧本全部按了“反选”——
不追估值、不路演、不上 PR 头条;
不疯狂扩张团队,只招少数“痴迷型”工程师和研究员;
不追风口,不 pivot,从创立那一刻起就只做一件事: 用高质量数据,教模型区分好与坏。
在一片“融资—扩张—估值”的喧嚣里,他用一套几乎反主流的选择,做出了 10 亿美元公司,也把自己定位为:与其说是创业者,不如说是“下一代 AI 的养父”。
1
“我不想上那辆硅谷跑步机”
如果要给 Edwin 的创业哲学找一句话,大概是他在访谈中的原话:
“我从来不想玩硅谷那套游戏,那太荒谬了。”
在大科技公司待过的人,大多见识过“组织臃肿”的威力;Edwin 的感觉则更极端——他曾在多家大厂工作,始终觉得:“如果裁掉 90% 的人,公司会跑得更快。”
于是到自己创办 Surge 时,他干脆把这种直觉变成公司设计原则:
团队极小,宁可保持几十人,也不为了“版图”去堆人头;
没有多层管理和复杂流程,核心工程师和研究人员直接面对客户和问题;
对招聘极其苛刻:“不要只想在简历上加一行热门公司名字的人。”
在融资问题上,他选择了更少人敢走的路:完全不融 VC。
在今天的硅谷,这几乎等于主动放弃一整套“增长加速器”:
没有风投帮你站台发声、没有估值数字帮你上头条、也没有“新一轮融资完成”的新闻推动招聘和合作。
代价是明显的:没有 PR 光环,Surge 很长时间都“名不见经传”;他们的增长,几乎完全依赖一种最原始、也最难的方式——产品好到研究员愿意口口相传。
但 Edwin 觉得,这是唯一能保证公司不被“硅谷机器”带偏的路径:
“如果你的成功建立在炒作和融资上,你就很难拒绝那些会伤害长期价值的事情。”
他不愿意把时间花在路演、处理媒体关系上,而是宁可困在数据集和实验报告里,琢磨怎么让下一版模型的行为更可靠一点。
在这种设定下,Surge 反而被迫把每一件事做到极致:你没有 VC 的背书、没有 PR 的放大器时,剩下唯一能说服前沿实验室的,只剩下结果。
1
他赌的那件事:把“高质量数据”做到极致
Edwin 的背景,决定了他赌的方向——不是做模型,而是做“模型背后的那层水”。
他从小同时迷恋数学和语言学,后来在 MIT 读书,又去了 Google、Facebook、Twitter 做机器学习研究。
在这些公司里,他一遍遍遇到同一个问题:想训练好模型,却拿不到足够好的数据。
在大多数互联网公司,所谓“数据标注”,往往意味着两件事:
用大量廉价劳动力做简单打标——“这是不是猫?”“这个框是不是车?”
用非常粗糙的规则衡量质量——“有没有填满?”“有没有按格式来?”
这套逻辑在“图像分类”时代还能凑合,
但在大模型时代,结果就是:模型在形式上合格,在内容上平庸甚至有害。
GPT-3 发布时,他意识到:如果模型真的要走向“能写论文、能做研究、能辅助科学发现”的阶段,“写得像模像样”远远不够,模型需要被教会什么是“真正好的东西”。
于是,他在 GPT-3 发布一个月后创立 Surge,给公司定的方向非常单一:只做一件事——用极高标准的人类数据,训练和评估模型。
在访谈中,他用一个小例子解释什么叫“高质量”:
如果你想训练模型写一首关于月亮的八行诗,大部分人检查的是: – 是不是八行? – 有没有提到月亮? 勾完就说“OK,这是好数据”。但我们真正想要的是诺贝尔奖级别的诗。 它是不是独特?是不是有让人意想不到的意象? 它有没有用语言做手艺?有没有真的让你感到一点东西?
为了在规模上做到这种主观要求,Surge 做了一件别人懒得做的事:给每一个标注者、每一个任务收集成千上万条行为信号。
不仅看他最后打了什么分,更看:
打字节奏、响应时间;他自己写出来的文本或代码质量;基于他数据训练后的模型,在真实任务里有没有变好。
再用一整套内部模型去判断:谁在哪些领域是真正“有品位的人”。
这听起来有点像 Google Search 的演化:先是把垃圾内容和死链全部扫掉,再在剩下的海量内容里,慢慢学会“谁是真的好页面”。
Edwin 的逻辑是:你认为什么是好数据,最终就会决定模型认为什么是“好答案”。
这不是工程细节,而是价值观问题。
1
拒绝“为小报读者优化模型”
在谈到当下大模型行业时,Edwin 的批评非常直接——他认为,很多实验室正在被错误的目标函数带偏。
第一个被点名的是各种排行榜和基准测试,尤其是 LMSys Arena 这样的“开放投票榜”。
在这类榜单上,来自全世界的用户可以对比两个模型的回答,选择“更好”的那个,以此决定排名。
在表面上,这是一套“民主评选最佳模型”的机制;但在 Edwin 眼里,它更像给模型设计的一套“标题党训练营”。
因为绝大多数投票者不会花时间做事实核查,他们只会扫两秒,就根据“看起来更厉害”的那一条点票——emoji 多一点、加粗多一点、多级标题多一点、篇幅长一点,
就比一个简洁、谨慎、老实的回答更容易获胜。
Edwin 说,Surge 自己研究 LMSys 数据后发现:
“爬榜的最快方式,就是让模型输出看起来更花哨——即便事实是错的。”
问题在于,整个商业链条都被这个榜单绑住了:
企业客户买模型时,会问:“你在 LMSys 上排第几?”
销售团队为了签单,只能把榜单当宣传单;
研究员的绩效、晋升又跟“模型进榜”挂钩——即使他们非常清楚,为这种榜单优化,会让模型在准确性和指令遵循上变差。
这条链条一路延伸下去,最后把整个行业导向了一个危险的站位:我们正在为“超市门口买小报的人”优化 AI,而不是为真理优化。
Edwin 还有另一层担忧,来自他在 Twitter、Facebook 做推荐算法的经历。
他清楚地知道,当一个系统的目标函数从“信息质量”变成“用户参与度”时,会发生什么——标题党、极端言论、猎奇图片迅速占领屏幕,因为它们最能勾起多巴胺。
而把这套逻辑移植到大模型上,就是当下你时常能看到的景象:模型疯狂夸你有多聪明、多前瞻;不断顺着你的偏见讲故事,而不是提醒你“这件事其实很复杂”;在完全不重要的小事上陪你反复打磨,消耗你大量时间。
他讲了一个很小、但很典型的例子:有一次他用 Claude 改一封邮件,改了 30 个版本,最后满意地发出去了。
然后他突然意识到——
“这是一封根本不重要的邮件,我却在这里浪费了 30 分钟人生。”
于是问题变成:你到底希望你的模型怎样对待你?
是那种永远说“太棒了,我们还能再试 20 个版本”的好好先生?
还是那种在适当时候会告诉你:“这里已经够好,快去做更重要的事”?
这背后就是不同的目标函数:前一种对“对话时长”负责,后一种对“人类的时间和生活质量”负责。
1
“公司就是你的目标函数”
如果把 Edwin 的故事压成一句话,大概是:他在用一家公司,活出自己相信的那套目标函数。
在访谈末尾,他说了一句很“反鸡汤”的话:
“我曾以为创业意味着整天看财务报表、去融资、做 PR。 后来发现,你可以完全不那样做—— 只要把一件事情做到好到不能被忽视,你一样可以建立一家成功的公司。”
对他来说,这件事情就是: 在大模型时代,认真地回答“什么是好数据、好模型、好目标函数”这几个看起来枯燥的问题,并把它们一点一点做进产品、做进客户关系、做进公司文化里。
他给创始人的建议也很简单:
不要靠不停 pivot 去“找市场”,而是先问清楚:有没有一件事,是没有你就不会有人去做的?
不要只看“什么项目现在最容易融资”,而是问:“如果十年后失败了,我是不是仍然觉得这件事值得?”
在 AGI 这场竞赛里,模型参数、算力规模、排行榜名次当然重要,但 Edwin 给出的视角更底层:
模型最终会变成什么样,很大程度上取决于: – 你喂给它什么样的数据; – 你用什么样的指标评价它; – 以及,你作为创造它的公司,真正相信的是什么。
换句话说——你就是你的目标函数,一家公司也是。
而现在,这家拒绝融资、拒绝 PR、拒绝扩张的 10 亿美元公司,正在用一种极其安静的方式, 把自己的目标函数,写进下一代 AI 的成长轨迹里。
点个“爱心”,再走 吧





京公网安备 11011402013531号