当前位置: 首页 » 资讯 » 科技头条 » 正文

Token「免费」时代来了?对话 Agnes AI 创始人,全模态免费的生意与野心

IP属地 中国·北京 极客公园 时间:2026-06-08 20:28:24


当 token 不要钱,人的野心会变大。


作者|徐珊

编辑|靖宇

过去一年真正在用 AI 的人都会有同一个感受——AI 越来越贵了。以前一个月 20 美元的订阅可能都花不完,但自从 agent 和 vibe coding 流行起来,token 就烧得像流水,一个 coding agent 挂着跑上一下午,账单金额越堆越高。于是大家慢慢学会了精打细算,这个任务值不值得让它跑、这段代码要不要让 AI 再重写一遍,很多想法刚冒出来,就被一句「这得烧多少 token」先摁了回去。

AI 本该让每个人都能尽情去创造,可用着用着,反倒成了一件需要按表计费、能省则省的事。

现在有这么一家公司,能让你不花一分钱,可以把文字、图片、视频三个 AI 模型都用个痛快。而且不是七天试用,也不是送你一笔用完即止的额度,而是管够,这是不是 AI 时代的「赛博菩萨」?

6 月 1 号,一家叫 Agnes AI 的初创团队,将旗下文本、图片、视频三个模型的 API token,全部免费。消息一出,几天之内十几个群被挤爆,在免费后的短短第一周内,Agnes-2.0-Flash 的调用量就飙升超过了 1 万亿(1T)Token;Agnes-Image-2.1-flash 生成了超过 200 万张图片;Agnes-Video-2.0 更是产出了超过 200 万秒的视频。最早涌进来的,最早涌进来的几乎全是连夜赶来「体验」的极客。

但很快,群里的画风就变了。

有人用它跑出几分钟长的视频,有人给它配上工作流做出整套素材,还有人把两个女儿一路长大的片段剪成短片、配上 AI 旁白。这种几分钟的视频,要是按过去的价格,他大概根本舍不得试。这其实正是「免费」最有意思的地方,它真正解锁的,不是省下的那点钱,而是那些你以前因为太贵、不敢试而压根没动手的念头。

更少见的是,当大多数公司都只在单一模型形态上发力时,Agnes 偏偏把文字、图片、视频三个模态一起做,并全部免费。

精彩还在继续,本周 Agnes AI 即将更新 1M 超长上下文和 4K 超清图片模型。

当然,问题也随之而来:免费,是不是意味着模型不够好?成本到底怎么压,才扛得住这么多人一起用?钱都不收了,团队又靠什么活下去?

以及最关键的,做这件事的 Agnes AI 团队,到底图什么

带着这些问题,极客公园和 Agnes AI 的创始人Bruce Yang聊了一场,以下是对话精华提要:

价格高的模型越好,价格低的模型性能不行才,这是很大的误解。DeepSeek 价格也很便宜,它在很多指标上其实不亚于很多更贵的模型。

Token 免费真正解锁的,不是省下的那点钱,而是那些你以前因为太贵、不敢试而压根没动手的念头。用户的潜力不应该被成本限制。

正因为有 Harness 这样一个约束,模型之间的差距其实也在变小。Harness 的作用,第一是弱化了模型之间的差距,第二是让模型的升级和优化变得更有方向。

我们想趁现在率先打出免费的旗帜,先上牌桌、先成为一个重要玩家。

10 年前你不会中文、英文可能是文盲;10 年之后,不懂 AI 可能就是文盲。其实不是害怕 AI,而是不懂 AI 的人怕懂 AI 的人,觉得自己随时会被替代。


Agnes AI |官网

01

模型越便宜越不行?是个误区

极客公园:先介绍一下自己和 Agnes AI 团队吧。

Bruce Yang:我先讲讲自己的经历,15 岁出国,去新加坡莱佛士书院读高中,之后考到美国加州大学伯克利分校,学计算机和数学两个专业。运气比较好,师从两位图灵奖得主 Richard Karp 和 David Patterson,当时教我们操作系统的 Ion Stoica 现在是 Databricks 的创始人。后来我在硅谷工作过,待过微软和 LinkedIn,也在硅谷创过业,回过国,现在在新加坡。中间有个契机,疫情期间国内封城,我回新加坡读了博士,在新加坡国立大学读了 School of Computing 的 AI 博士,这段经历给了我很多灵感,也是 Agnes 创始很重要的一条路线。

Agnes 真正起步大概在 2024 年底、2025 年初,是一家很年轻的公司。我们从一开始就在做模型,不过去年更多是在做应用,因为模型还没做得那么好,所以先做自己的 harness,也就是现在的 agent,再在 agent 之上慢慢优化能力。最开始更多是借助「御三家」的外部 API 来实现能力,但成本一直居高不下,尤其规模做到总用户量过千万之后,已经有点烧不起了,所以我们加速推动自研模型,做所谓的国产替代,到去年年底,故事更多还是在产品和国产替代上。

到今年年初,我们发现模型做得还不错,对比一些闭源模型,某些地方还有优势。于是我们做了个大胆的努力,今年开始不断开放模型 API,从小范围放大到全模态,现在干脆放个大招,全模态免费。从 6 月 1 号公布到现在正式运行才三天,已经有十几个群,每个群几百人,都是极客用户的。我们 token 消耗量昨天已经超过 1000 亿,三天达到这个数字还不错,到周末可能还要再翻三四倍。目前看还是在预期内的。

极客公园:不只是国内,全世界一听免费都会很兴奋。但大家也会质疑,是不是因为东西没那么厉害,所以才免费?你们这三个模型现在到底是什么水准?

Bruce Yang:我觉得这是个误区,而且不只针对免费模型,对低价、高性价比模型也都有,总觉得越贵的模型越好,越便宜的是不是性能不行才把价格降那么低。但你看 DeepSeek 价格也很便宜,它在很多指标上其实不亚于很多更贵的模型。

我们的模型虽然目前免费,但并不表示在性能上做了任何妥协。就目前的成绩看,我们的文本模型在一些 agentic 场景中,比如 PinchBench 和 ClawEval,都是全球 Lab 前十;图片和视频模型在 Artificial Analysis 这个全球最权威的盲评榜单上,也都是全球前十 AI Lab。

模型还在不断优化,本月会更新一版,之后可能每个月都更新一版。我们对自己的要求是,对最头部的 SOTA 模型不一定立刻达到同等强度,但要快速跟上,保持在一个代际之内,比如它新版本刚出来时,我们能达到它上个版本的能力。能做到这点其实也不容易,再加上免费,相信能得到很多用户的青睐。

极客公园:你对自己的模型很有信心,不如先给大家展示、讲解一下 Agnes 模型做出来的 demo。

Bruce Yang:我们模型在网上已经有蛮多测评,我们看了一下,95% 都不是我们自己提供的。宣布免费第一天后用户自发推广就很多,测评都挺中肯,也指出了我们的一些问题,但总体大家对我们的能力还是比较认可的。

比如这种粒子效果,当年 Gemini 刚出来时,是大家测文本模型能力的一个重要指标。还有一位小伙伴用文本模型做了一个操作系统,里面还有个搭飞机的小游戏。

除了文本,图片、视频也还可以,尤其是图片,我们对一些高信息密度的内容做了不错的优化。当然对比 Nano Banana、对比 GPT 的图像模型还有些距离,一些高密度的文字细节还没完全优化好,但总体在国产模型里应该算比较靠前的。

视频方面,我们支持音画同出,角色在视频里可以讲话,中文、英文都支持,有些小细节还需要优化。我们大概这个月下半月会推出下一版视频模型,目标是接近 HappyHorse 的阶段,跟 Seedance 还是有差距。但总体来说,作为商业化模型,免费并不表示它没有商业价值,我们已经达到了很多闭源模型的能力,也能释放出很多商业潜力。

极客公园:刚才展示的这几个任务,是单一模型端到端完成的,还是背后涉及多个 agent 协作?

Bruce Yang:我们提供的 API 只有三个模型,文本、图片、视频。目前还没把这三个 API 统一在一起,下周想统一发布,因为很多人在配置时会很困惑,很多 harness 不支持直接上传或者下载 图片和视频,需要作为 skill 加载进去。所以现在是三个不同的模型。你看到的这些内容,基本都是在 harness 基础上完成的。harness 可以是我们自己的 Agnes harness,也可以是 Codex、OpenClaw、Claude Code,连接我们的单一模型之后就能实现能力。

目前我们并没有用多个文本模型,或多个图片、视频模型来支持 harness 工作;但 harness 在执行过程中,可能因为自身的理解、需求和依赖关系,在某个时刻派出多个 agent 来实现,这个我们是可以支持的。

极客公园:完成刚才这些任务消耗的算力成本,和现在流行的模型、工具比,差别有多大?

Bruce Yang:先说我们的报价,虽然现在免费,但免费之前是有报价的,也仍有一个 token plan。文本模型方面,一般只有输出 token 才跟成本挂钩,输入 token 对模型公司来说基本是零成本。

我们输入 token 是 0.15 美元每百万,大概是 GPT 和 Anthropic 的 1/100,比 DeepSeek 的 flash 版大概也便宜一半,我们还是有些利润的。图片是每 1000 张 3 美元,也就是 0.003 美元一张,这个很夸张。视频实际成本每分钟大概 0.3 美元,每秒钟大致在一分钱人民币左右,按这个成本大概是市场头部模型报价的 1/100。

这是原来的报价。现在免费,大家随便白嫖,我们只是稍微限制一下 QPS(每秒查询/请求数)和 RPM(每分钟请求数),但给得还是比较多,每分钟可以 request 20 次。正常的个人开发者目前还没遇到说量不够用的情况。

极客公园:免费让人担心团队到底能不能撑住?很少有团队三个全模态都做,尤其是 Agnes 并不是一家巨型公司,为什么三类模型要一起做?

Bruce Yang:压力确实有,我们科研团队已经一百多号人了。目前在文本、图片、视频都能排进全球模型榜单前十的 Lab 的公司并不多,海外是谷歌和 OpenAI,国内可能是阿里、字节,其他三个都做的公司不多。

我们最开始也没想那么多。因为我们自己的 harness 产品本来就支持文本、图片、视频,而且从用量看还蛮平衡的,所以第一步是想做国产替代。在这个过程中,我们发现三个模型之间其实有协同。

当时 Nano Banana 出来时,他们提到一个观点,Nano Banana 的指令遵循能力之所以很强,是因为用了当时的旗舰模型 Gemini 2.5 Pro 去做视觉内容解析,反向提示词的能力就很强。视频模型也一样,真正训练过的人就知道,第一个前提就是文本、图片模型要很强。视频模型还需要大量数据,很多来自影视切片,切片之后要用文字把这部分视频很好地描述出来,这些描述内容可以用来反向训练,这个过程也很依赖文本模型。所以三个模型在训练中其实有一定的依赖关系。包括现在一些新路线,比如图片模型已经开始走 AR,要把理解能力和生成能力结合在一起。

所以总体来说是两个原因。第一,从真实使用需求出发。很多一人公司、小作坊,让他去配置三个来自不同公司的接口,是蛮有挑战的;如果能结合在一起,做一个 Omni 模式的 API,就能更好地降低使用成本和门槛。第二,训练之间有协同。越好的多模态理解文本模型,越能支持图片和视频的生成,两者相辅相成;多模态场景中还会生成很多新数据,对我们合成数据、进一步训练很有帮助,尤其图片和视频模型需要文本 harness 帮它做提示词增强。

只有把三个模型整合在一起,同时建立一个让用户不断探索的场景,才能了解下一步模型升级的方向。

从另一个角度看,同时训练三个模型和只训练一个,区别有多大,取决于每家公司的愿景和认知。像 Anthropic、OpenAI 的愿景,是用最强的文本模型尽快实现能力上的质变、实现 AGI。但我们理解的 AGI 有点不一样,我们希望我们的 AGI 是由最广泛的用户、最大的场景去使用 AI,是一个更广度的 AGI。在这样的路线下,我们可能不是每个模型都最强,但要保持在前列、可能前十,不落后一个代际;同时希望模型能力相辅相成、共同进步,也希望越来越多用户使用我们的产品,建立一个生态,让生态促进我们进步、了解市场需求、了解怎么降低使用门槛。

因为愿景、出发点、技术路线都不同,我们会选一条别人可能不会选的路线,但这不表示我们对性能有任何降级或妥协,我们依然始终保持在全球前列。

极客公园:你到底有什么魅力,能把做文本、做图片生成、做视频的人才凑到一起?

Bruce Yang:其实我们有四个队伍。文本、图片、视频各一个队伍,每个队伍十几个人,还有一个队伍专门做性能优化,怎么把成本进一步打下来。其实成本不是最好的词,效率可能更好,怎么在训练阶段和推理阶段都取得一些令人咋舌的数字,比如 1% 的 推理 成本。

我们一个很核心的逻辑是,从第一天起就在做一个有很强约束的优化问题,但我们的限制条件和别人不一样。很多人的限制条件是给你足够多的资源,怎么把能力做高;而我们在第一天,资源本身就没那么大。所以我们才需要一个横跨三个垂类、专门做性能优化的团队,无论是从 GPU、Codex 层面,还是从算法层面,用尽可能小的参数,达到用户满足度和性能的最完美匹配。刚开始做这件事时,我们心里其实是没底的。

至于你说的人格魅力,我们其实是后来者,无论是新加坡团队还是国内团队都是后来者,因为大部分模型公司都不在这两个区域。但当我们做出一点成绩苗头时,吸引了大量当地优秀的学生,新加坡的 NUS、NTU,国内团队南大、东大、中科大、浙大甚至清华的同学,都有很多选择来我们公司。

整个科研团队现在快 100 人了,都很聪明、很优秀,是为了一个伟大的愿景去奋。6 月 1 号我们放了大招,把过去积累的能力和一些科研发现都公布出来,下周还会再开源一些新发现。团队很积极向上,想在 AI 时代不只做接受者,还要成为构建者,这是我们的企业文化。

02

三天送出几千亿 token,

免费是为了先「上牌桌」

极客公园:在你看来,三类模型在哪些场景里能真正进入生产、进入商业化,接入之后就能跑起来赚钱?有没有明确的场景?

Bruce Yang:还是我刚才那个观点,付费的、贵的模型不一定更好。群里试过我们模型的同学说,不亚于任何付费的 SOTA 模型,甚至对比了 Gemini、对比了 Claude,当然我们内心知道还是有差距的。正因为有这个误区,单纯降价已经没意义了。你降价,很多人觉得是因为你性能不行,再降也不用,因为他更愿意用御三家。

打破这个僵局、改变这种刻板印象的方式,就是先让大家大胆尝试,在过程中找到一些惊喜。开放三天,十几个群、几千个小伙伴,其实远不止,只是大概只有 10% 用户会扫码进群,二维码在官网 API key 下面。

从反馈看,他们用付费高级模型的功能,绝大部分我们都能实现。即使有些欠缺,比如特别复杂的指令遵循、特别长程的 agentic 任务还有些偏差,但这些都可以弥补、下个版本可以优化,可能下下周就会优化,比如 tool calling 的一些能力。所以大逻辑是,现在大家用的 90% 场景我们都能实现。

如果非要说更侧重哪里,我们花了更多时间优化 agentic 能力,这也是我为什么会关注 PinchBench 和 ClawEval 下一个版本会更优化 coding,比如我们现在在打 SWE,做 coding 能力的升级,希望 SWE 也能成为全球前十,目前看还有机会。文本上,我们更专注用户使用量最集中的 Agent 和 Coding。图片我觉得蛮能打的,虽然跟 GPT 的图像模型有差距,但在国内模型里还可以;视频差距稍微大一点,跟 Seedance 和 HappyHorse 有差距,但无论免费还是按原价,性价比绝对 OK,可以期待这个月的下个版本,我希望能接近。

三个模型总结起来,即使跟一些 SOTA 闭源模型还有差距,我们也知道怎么去缩短距离,会一直以无限接近闭源模型的使命去推动科研工作。

极客公园:如果没有 agent 这波火热浪潮,token 这件事可能并不会让大家这么关注。但现在 token 一出来,你一下就把它花超了

Bruce Yang:对,coding 因为有 agent 的 harness,所谓的 OpenClaw、Hermes、Codex,还有 Claude Code,它们架构上其实也很类似。正因为有 harness 这样一个约束,模型之间的差距其实也在变小。

我前段时间去新疆骑马,就是想感受一下 harness,专门骑了几匹不同的马。第一匹很听话, 但跑不快;第二匹跑得很快,但不太听话,可当缰绳在我手上的时候,我发现差距不大。跑不快的,马镫踢一踢就快了;不听指令的,缰绳拉一拉就听话了。所以 harness 的作用,第一是本身就弱化了模型之间的差距,第二是让模型的升级和优化变得更有方向。

我们更需要做的,不是去训练一匹没有马具的野马,而是训练一匹带上马具的马。带上马具之后,很多方向、很多维度其实已经被压缩了,能进步的方向非常明确。还有一匹又快又听话的马我没骑,是向导在骑,那属于千里马,没我的份,相当于 SOTA 模型。我现在要做的,就是把没那么有天赋的马加在 harness 基础上去训练,让它无限接近 SOTA 模型。

极客公园:为了体验 harness, 专门跑去体验骑马, 这也很厉害。Claude Code 这么强,不仅是因为 Anthropic 的模型厉害,更因为它整个 harness 做得非常厉害,里面有特别多值得学习的地方。

Bruce Yang:对比 OpenClaw,我觉得 Claude Code 有两个更大的优势。第一是 Memory 的处理和压缩,比 OpenClaw 强很多,它做了很多长程记忆能力的优化;第二是对 KV Cache 的优化, 可以降低 token 用量、提升 token 的命中缓存。

命中缓存对模型公司来说基本是零成本,虽然给用户收费,但对模型公司零成本,输入 token 也是零成本。所以很多时候大家会看到,为什么有的公司能把命中缓存的 token、input token 价格降那么低?因为大家的成本项主要都在 output token、在输出层。

极客公园:6 月 1 号免费后建了十几个群,目前情况怎么样?用户怎么用免费 token 的?

Bruce Yang:他们帮我们找到了很多自己做产品时找不到的问题,一些压测方式、使用场景、适配不同 harness 的设置,还有错误日志等等。原来我们一个测试团队七八个人,他们捕捉不到的问题,现在群里很多活跃用户帮我们找到了,还给了非常好的建议。很多人是开发工程师、运维工程师,还指出了我们网关的一些卡点。

第二,更让我感动的是发掘了很多场景。原来我们用视频模型做的都是几十秒、5 秒、10 秒的,因为模型只支持 10 秒。但用户用他们自己的 harness、专门帮我们写的 skills,还有人做了 ComfyUI 的工作流,把几分钟、3 到 5 分钟的视频都生产出来发到群里。

我看到一个用户发了一段他两个女儿一路成长的短视频,还用 TTS 配了一段非常感人的话,把视频拼在一起。我第一反应是惊讶,这是不是我们模型做的,觉得做得还不错。很多人做 5 分钟视频,如果不用我们免费模型,可能成本上根本不愿意尝试。我们等于开放一个新场景、一种新权利。我们公司有句话,用户的潜力不应该被成本限制,我们给予了释放用户潜力的权利。

还有一点也比较感动。我们原来尝试写邮件给 OpenClaw,说你们默认接入的都是很有名的模型,我们打榜也不错,能不能把我们模型也放进去。

极客公园:OpenClaw 怎么说?

Bruce Yang:回了封邮件说,我们不允许、不会接入没有名气的模型。结果我今天在 GitHub 上搜了一下 OpenClaw 和 Agnes,从 6 月 1 号到 3 号,每天都有几十条评论问,为什么不支持 Agnes AI,为什么需要我自己来配置。所以我们给出了一些分享也得到了非常令人感动的回报。

极客公园:之前和硅基流动的杨攀聊,他给过我一个建议——订阅一个 200 美元的版本,你会发现当你拥有无限 token 时,野心会变大。

Bruce Yang:是的,这也是我们的想法。其实在推动免费这件事之前,公司内部也没完全想清楚免费之后下一步怎么做、商业模式怎么做,只有个大概概念。但我们有一个大的认知,当你把一件事做到极致,比如把价格降到免费,它一定会对整个生态开启一个新的打开模式,就是一个范式转移,会迸发出很多场景。而这些场景不需要我们现在就去想,很多用户会帮我们想得更好,因为群众的力量是无限的。这也是我们已经看到的,一些种子已经在开花了。

极客公园:你会担心有人不仅白嫖,还弄一个类似中转站的东西,把你的免费 token 转给更多人用、自己反而开始收费吗?会担心出现这种二道贩子吗?

Bruce Yang:我们限制了 RPM,也就是每分钟的请求次数,大概每分钟 20 次。对个人用户一定没问题,但对企业用户就比较困难,你把一个 20 RPM 的产品给到 10 个用户用,都会觉得捉襟见肘。所以对企业用户,未来还是可能会以收费模式,当然价格也很便宜,你可以先用免费的做 POC、做试点。

极客公园:在一个 CLI 环境里,哪些任务用付费、哪些用 Agnes 免费模型,对个人才是经济最大化?

Bruce Yang:绝大部分人,除非你是极客。我觉得有两类用户可以稍微谨慎一点。第一类是绝对的极客,比如需要多个 codex 实例、连续跑 3 到 4 个小时的,这个我们目前支持还没到位,当然我们在优化,正针对这种长程、多实例的场景,配合我们的 coding harness 一起做优化。第二类是非常专业做短剧的,不是说不能用我们,而是在某些场景,比如特别复杂的动作、特别追求一致性的场景里,可以配合一些更高端的模型一起使用。

除此以外,我们的模型目前应该能解决市场上 95% 以上的场景,这也在我们十几个微信群里得到了验证。大概 80% 的用户都会说,你们跟我们看到的其他模型差不多。还有一部分用户会提出问题,这些问题又分两类,一类是能快速解决的,另一类是暂时无解的。能快速解决的,又占了提出问题的那 10% 到 20% 用户中的 80%。这样算下来,真正既没解决、也不知道怎么解决的,大概只有 1% 左右的场景和问题。再加上我们把使用门槛降到免费,我觉得是很香、很值得尝试的一个方向。

极客公园:Agnes 怎么把三个模态模型的成本压到能支撑免费?才三天就几千亿 token 出去了。

Bruce Yang:是的。而且几千亿 token 只是我们储备卡量的 1/5,按每天的消耗量还能再乘 5 倍,我还备了第二批卡,大家可以大胆地薅,薅到我们薅不动为止。

逻辑是这样。第一,我们做的是优化问题,但限制条件跟别人不一样。主流公司大多信奉 scaling law,算力允许就让参数和数据同等提升。但它没回答边际效益有多大:很多时候参数提升 10 倍,benchmark 只涨几个百分点;而且现在大部分都在反向蒸馏,比如 Gemini 用 Pro 蒸馏 Fast,参数降 10 倍,多数榜单上差距不大。

所以我们第一天就定了个重要假设,200B 以上的模型不做,只优化 200B 以内的,在里面找合适区间。靠环境稳定性、合成数据和自己产品的线上数据不断扩充,再在榜单数据上做类似问题的扩充,这块现在很成熟,我们很快会开源一些合成数据的方式。

在这之上,我们只押两个重点:agent 和 coding,希望不亚于 SOTA 模型。其他领域战略性放弃,不是不重要,而是不是第一步要解决的。因为现在大规模消耗 token,一定是 coding harness 或白领办公 harness。

此外还有个稍微超前的尝试,我们在官网发了篇文章,讲如何不增加参数和深度,靠循环调用 Transformer 的层来逼近更大模型的效果,这叫 recurrent depth transformer。小规模验证里,一次循环PPL降了 10%,等于参数利用率提升 10%;同样一个 MoE 模型,多次调用能更好地发挥每个单位参数的能力。这是下一步要重点实验的。长期愿景就是在 200B 以内不断优化性能、接近 SOTA。资源有限,但目前看挺有效。

图片和视频不太一样,它们还没突破 scaling law,基本是数据越多、效果越好。很多产品达不到效果,不是能力问题,是数据问题,而合成数据又很复杂。比如你要 1 亿段视频,自己爬、自己截可能要几个月,等弄完这波机会已经过去了。

所以如何在最短时间内拿到你想要的数据?这份数据又通过什么样的 pipeline 去训练?如何让图片模型去赋能视频模型?过程中技术路线是选 DiT 还是 auto regression?这里面其实很多小的 know-how,比一次性的大概念升级更重要。有点像OpenAI 后训练一位负责人 Yann Dubois说的,训练模型其实更像个手艺活,不是一个能系统推导出来的结论。

过去一年多,我们上百个科研同事做了很多创新,也充分发挥了学术界和开源的力量,所以我们也在反馈给开源生态。比如上一篇关于 recurrent depth transformer 的论文已经开源;下周会开源一个我们在图片中怎么优化文字的 VAE 模块能力;后面在视频模型这边,最重要的就是怎么合成数据,我们也会逐步开源。

这个生态对我们还是很有帮助的,很多原料、很多菜其实都有了,但你有没有足够大、足够强的团队,有没有足够强的信心去投入,把这道菜烧出来?我觉得到目前为止我们烧得还不错。

极客公园:「Token 免费」背后的商业思考是怎样的?

Bruce Yang:想了个大概,但没全想完,可以分享一些。先说数字,我们几天就做了几千亿 token。我看了下,现在 OpenRouter 上排名第一的是 DeepSeek V4 Flash,大概一周是 3 万亿 token。我算了一下,如果达到这样的每周使用量,我们实际的服务器成本大概在小几百万人民币,完全不是很大的数字,一个很重要的原因就是我们把成本压缩到了极致,目前市场上我没看到谁能做到我们这样的成本,有点夸张。

这次免费希望免费到什么程度?目标是达到 OpenRouter 第一名两倍的规模。两倍之后再有新用户,可能继续支持,要看我们的融资情况;但在两倍以内,我们是完全可以支持的。目前我们的团队就是 OpenRouter 排名第一这样的规模,主要提供给个人消费者,暂时没有对企业消费者做特别大规模的宣传,你可以做 POC,但给的 RPM 没那么大。如果量达到 OpenRouter 上最大量模型两倍的规模,免费完全可以支持。因为比起把这部分成本省下来,我们希望更多用户来体验我们的模型、喜欢我们的模型、成为我们忠诚的用户,这非常值得。

下一步怎么商业化,我们有几个思路。

第一是企业用户。去做销售很累,但你开放一个免费的让他尝试,让他主动来找我们,会快很多,这是我们很重要的一条商业化路径。

第二,我们看 OpenAI 和 Anthropic 在 B 端增速最快的就是它们的 harness,也就是 Claude Code 和 Codex,所以我们很快也会推出自己的 harness 产品,这里先卖个关子,但这也是很重要的一条商业化路径。

第三,对用量特别大的极客,这不作为重点,我们再升级更好的模型,达到非常 SOTA、市场前三的时候,可以考虑小范围收费,或者优先面向付费用户,付费用一段时间后我们还可以免费。但这些都不是最高优先级,前两者优先级更高。

极客公园:今天是「Token 免费」,下一步会出现「给用户钱让他们用 Token」吗?

Bruce:有这种可能性。但总体来说,在 AI 时代,想保持一两年的门槛和壁垒是很困难的。我们现在趁着有这个能力,全模态模型都能达到可用状态、能达到全球模型榜单前十的 Lab,率先打出免费的旗帜,希望先把愿景推出来,因为这个行为背后跟我们的愿景是符合的。能完全匹配全模态、同样能力又免费的,目前市场上公司不多,大部分公司选择在某一个领域发力,其他领域虽然也在慢慢发力,但需要时间。

所以我们想借这个机会尽快先上牌桌、先成为一个重要玩家。我们后面也有后手,别人匹配我们时,我们还有别的招没出,harness 产品就是我们现在正紧锣密鼓准备的,具体什么时间点、推什么样的产品暂时还不能说,但后面还有新的增长曲线。

极客公园:大厂会跟进吗?例如把过去的模型也免费出去?

Bruce:看他们多快能匹配,我觉得有难度,毕竟已经有那么多用户在付费了。我们作为新参与者,没有那么多包袱,没有那么多企业用户和规模性付费用户,所以可以快速掉头;但对很多公司来说船大难掉头,整个规划、预算、年度计划都要调整,大公司的决策路径没有那么快。

03

AI 平权,是免费背后的底色

极客公园:刚才说到很多普通用户用免费 token 生成和女儿回忆的影像。这是不是你和团队的一种情结,希望把 AI 作为工具免费给大家,让大家释放创造力、让生活更美好?

Bruce Yang:我先介绍一下我的背景。我从小在国内一个四线城市长大,初中靠竞赛和中考成绩拿到奖学金,去了新加坡莱佛士书院,相当于新加坡最好的高中。在那里我认识了很多来自东南亚、家庭不富裕但成绩很好的同学,有了很多新认知。我参加新加坡全国的数学、物理、化学竞赛都是金牌、全国前几名,也进了学生会。靠这份经历,我拿着leadership奖学金去了 UC Berkeley 读书。

整个硅谷有两所学校,有人说富人的孩子去 Stanford,穷人的孩子去 Berkeley。Berkeley 的同学很像一个社会,不是那么标准的精英,但每个人都很聪明、有很多想法,很纯粹、很干净。

之后我在硅谷创业,这次回新加坡读博也拿了总统奖学金。我运气非常好,来自四线城市、父母也不富裕,但一路都有奖学金和支持。今天的很多成绩都是当时的积累,加上一颗不服输的心,虽是后来者,也愿意挑战现在的市场玩家。但 AI 现在变得没那么平权了,因为成本,很多有创意的人都在意 token 消耗,不敢大规模用,反而没那么有创造力、没那么有效率。

回想我的经历,无论是莱佛士那些拿奖学金的同学,还是学费不贵、让加州很多普通家庭聪明孩子都能去的 Berkeley,这颗种子是我自己得到的,我也到了一个时间点要回报社会,把火种传下去,就是平权:能力的平权、价值的平权。

在这个时代,AI 平权是最核心的。10 年前你不会中文、英文可能是文盲;10 年之后,不懂 AI 可能就是文盲。

我硅谷的朋友很多很反 AI、害怕 AI。其实不是害怕 AI,而是不懂 AI 的人怕懂 AI 的人,觉得自己随时会被替代。解决的办法不是压制 AI,而是让它变成一种更平权的能力,让每个人都知道如何借 AI 创造更多。这也是我们公司很重要的愿景,让世界级的 AI 属于每一个人。我们能做的可能微不足道,但这个愿景非常长久、持久。

极客公园:很多大厂已经不开源了,但是你们还在做开源。除了 AI 平权,背后还有哪些思考?

Bruce Yang:现在很多公司在尝试做开源,但只开源了参数、没开源方法。既开源参数又开源方法的,就是 DeepSeek,所以我对 DeepSeek 非常 respect。梁文峰确实是在做 AGI,如果你现在问我,全世界这么多做 AI 的人最崇拜谁,我肯定还是梁文峰,一年前是,现在还是,他有大局观、大格局。我们也是一样的想法。如果开源了模型,但模型太大没法自己部署,又不开源方法,那更多只是证明自己有这个能力、证明自己的模型跟别人不一样、可以被别人蒸馏调用,并没有为社区反馈太多信息。

所以我们很想做的是,如果真能做到一些别人做不到的成绩,还是想把方法论开源出去。无论是上周开源的 recurrent depth transformer,还是下周要开源的、让图片文字更清晰的 VAE,还是后面告诉大家训练视频模型最大的卡点其实是如何快速合成数据,这些能力我们都会想着分享出去。

一方面是想证明我们有能力创新,不希望大家认为我们只是个跟随者;另一方面,得益于人、也反馈于人,希望能在开源社区、开源生态里成长,也希望能反馈给社区。我们各个群里很多小伙伴都在帮我们写 skills,很多我们自己都没写,但你现在搜 GitHub「Agnes 模型」,很多 skill 都写出来了。我知道的群里小伙伴大概就写了四五个,还不断在 OpenClaw 的 issue 里催更,问为什么不支持 Agnes。

极客公园:催更 Peter(OpenClaw 创始人)是吧?

Bruce:对,催更 Peter,而且好几个还是中文的催更 Peter。这样的生态是大家比较希望看到、比较期待的,这也是为什么我觉得国内的 AI 现在在领跑全球。

极客公园:如果让你给大家传递一个信息,token 都免费了、门槛已经降到很低,普通人在这样的时代应该怎么做、应该有什么样的态度?

Bruce Yang:越早拥抱 AI,越能理解 AI 的世界,而 AI 世界和非 AI 世界是不一样的。我在 NUS 读博时上过一门机器人课,博士课程,我拿了全班第一名。教授 David 第一天就跟我们说,你们可以用 AI,但要说明自己是怎么用的,最好把提示词写出来。结果那门课,我读博时已经比同龄人大 10 岁,花的时间其实不多,但无论做项目、做研究、写论文还是做演示,我都大规模用 AI,居然在大部分同学都比我小 10 岁、可能更有精力的情况下拿了全班第一。这说明如何充分发挥 AI 很重要,AI 能发挥的维度可能远超我们的理解,尤其这波 harness、Codex,包括理解屏幕、做很多新的 skills、对接 MCP 插件,已经在完全改变这个世界了。

我身边有些朋友在做 AI 应用,我们自己也做过一段时间,现在不是公司重点。我有个很重要的观点,当一个产品越做越复杂,它就不是一个 AI native 的产品。因为 AI native 的产品大部分是越做越简单,越来越依赖模型;短期内可能会部分依赖 harness,但这种依赖会不断迭代、可能越来越少。

所以更先进的 AI 认知、更早地接触 AI 产品,再加上免费的资源让大家大胆尝试,我们就把门槛降得很低。很多人不敢尝试,就是怕费太多 token、太多时间;如果 token 都免费了,每天都可以尝试、不断和 AI 互动。AI 本身是双向的,不一定需要一份操作手册。这样你可以越来越全面地理解 AI 的每一个角落、它的边界在哪里、它的脾性在哪里,这才是新时代的 AI 平权。

有时候我们用 AI 去改造传统业务,有点像把马车装得更豪华、让马跑得更快;但真正 AI native 逻辑,其实是换一辆汽车,是彻底改变对行业的认知。这种认知有些地方比较根深蒂固,我们希望通过免费的、足够多的 token,让大家在这个转变中更快地适应新时代。

我们后面还会出大量的场景和案例,让大家快速上手,包括给没试过 vibe coding 的同学,把我们的一些提示词和生成效果都分享出来;以及如何连接大家想用的 harness。最简单的我们自己也提供了 harness,叫 Agnes super agent,现在还没做得那么好,但已经可以尝试。

如果你自己有 harness,比如 Codex、Claude Code、OpenClaw、Hermes,都可以快速对接。这些资源我们都会快速分享出来。我们的逻辑就是让大家无门槛上手,而且是真免费、没有任何套路。案例和提示词都会慢慢分享出去,让大家无论已经是极客,还是想快速开始 vibe coding,都能快速体验起来。

*头图Agnes AI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

WWDC26 开场,6 月 9 日午间 12:00,极客公园直播间带你解读:会发光的 Siri 来了,换上谷歌大脑还算苹果吗?一向把门关得最紧的苹果,为什么主动向模型厂敞开大门?库克在 AI 落后的节点交班,留给我们的又会是一个什么样的苹果?

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。