
作者|周一笑
邮箱|zhouyixiao@pingwest.com
北京时间3月20日,AI编程工具Cursor发布了自研模型Composer 2,宣称是公司首次对基座模型进行“继续预训练结合强化学习”的成果。发布博客里没提基座模型的来源,措辞像是在说,这是Cursor自己从头炼出来的。
不到两小时,一个名叫Fynn的开发者在调试Cursor的API时,截获了Composer 2的真实模型ID,kimi-k2p5-rl-0317-s515-fast。拆开来看,kimi-k2p5指向Kimi K2.5,rl是强化学习(Reinforcement Learning),后面是日期和版本号。

月之暗面预训练负责人杜宇伦第一时间发推,称团队测试了Composer 2的tokenizer,发现与Kimi的tokenizer“完全一致”,几乎可以确认“这是对我们模型的进一步微调”。他直接@了Cursor联合创始人Michael Truell,质问为什么不遵守许可证,也没有支付任何费用。这条推文随后被删除。

但火已经烧起来了。马斯克在Fynn推文下面回复了一句“Yeah, it's Kimi 2.5”,直接把事情拱上了热搜。

从“套壳”到“合作”,反转只用了几个小时
Kimi K2.5采用修改版MIT许可证,明确要求月营收超过2000万美元或月活超过1亿的商业产品,必须在用户界面上醒目标注“Kimi K2.5”。Cursor的年化收入约20亿美元,超出这条门槛8倍有余。
但就在舆论发酵的同一天,剧情反转了。月之暗面官方账号@Kimi_Moonshot发帖,口吻从质疑变成祝贺,称“我们很自豪看到Kimi K2.5为Composer 2提供了基础”,并澄清Cursor通过推理服务商Fireworks AI获得了授权使用。

Cursor联合创始人Aman Sanger随后解释说,团队对多个基座模型做了评估,Kimi K2.5是“最强的”,之后在此基础上做了额外预训练和4倍规模的强化学习。他承认没有在发布博客中提及Kimi K2.5是一个失误。

从开源协议争议到官宣合作,整个过程不到24小时。
Cursor为什么“失误”
这也不是Cursor第一次被发现“底座来自中国”。2025年11月Composer 1发布时,社区通过tokenizer分析推测它与DeepSeek高度一致,推理时偶尔还会输出中文。当时Cursor同样没有回应。
从DeepSeek到Kimi,Cursor自研模型的底座换了一轮,都指向同一个事实,全球编程能力最强的底座模型,出自中国的开源社区。
Cursor不愿公开底座来源,背后有一个更深层的结构性问题。Cursor一直以来依赖Anthropic和OpenAI的模型来驱动产品,但这两家公司现在正亲自下场做编程工具,Claude Code和Codex都在迅速铺开,不少开发者已经开始迁移。Cursor面临的悖论是,它必须依赖顶级模型来满足用户需求,但模型厂商同时也是它的直接竞争对手。如果没有自己可控的模型底座,Cursor就永远受制于人。
从这个角度看,选择中国开源模型微调几乎是一个必然的逻辑,既够强,又不会变成自己的竞争对手。但这同时也是Cursor不愿公开讲的原因,2025年它是AI编程赛道最炙手可热的明星,估值冲到293亿美元,3月12日Bloomberg报道新一轮融资目标估值约500亿美元。在这个节骨眼上承认核心模型来自中国开源社区,对估值叙事并不友好。
Composer 2在Cursor自己设计的CursorBench上拿到了61.3分,超过了Claude Opus 4.6的58.2分,不过这毕竟是一份自家出题自家考的成绩单。反过来看,如果一个基于开源模型微调的产品能在编程任务上和巨头打得有来有回,这件事本身可能比Cursor的披露失误更有意思。Hugging Face联合创始人Clément Delangue就此评价说,“中国开源现在是塑造全球AI技术栈的最大力量”。
而对月之暗面来说,这场风波的结果几乎是一次完美的品牌事件,从“被侵权方”到“合作方”,在全球开发者社区里刷了一轮存在感,最后还让Cursor亲口确认“选了Kimi K2.5因为它最强”。
Kimi的“黄金一周”
往前倒推几天,Kimi刚经历了一个密度极高的曝光周期。
3月16日,月之暗面发布了一篇纯架构层面的技术论文“Attention Residuals”(注意力残差),试图替换掉Transformer架构中一个自2015年ResNet以来就几乎没人动过的基础组件,残差连接。过去每一层的输出和输入直接相加、无差别传递,Kimi团队让每一层可以“回头看”,动态选择从前面哪些层提取信息。实验显示训练效率提升约25%,推理延迟增加不到2%。论文的共同一作之一是一位17岁的深圳高中生,和Kimi的关键研究者苏剑林、张宇并列。

论文发出当晚,马斯克在X上评价“Impressive work from Kimi”,Kimi官方回了一句“你的火箭造得也不错”。Andrej Karpathy说,“看来我们还没把'Attention is All You Need'这句话按字面意思理解透”。前OpenAI强化学习VP Jerry Tworek称之为“深度学习2.0”的开端。
第二天,3月17日,黄仁勋在GTC 2026的Keynote中多次提及中国开源模型。Kimi K2.5代替了去年的DeepSeek ,成为黄仁勋用来对全世界展示推理重要性的时候,那个作为标杆的模型。
3月18日,杨植麟更是直接登上GTC的分论坛演讲。他是嘉宾名单中唯一来自独立大模型创业公司的代表,与特斯拉AI总监、DeepMind核心架构师同列。演讲现场也座无虚席,他系统披露了Kimi K2.5背后的技术路线,将模型进化归纳为Token效率、长上下文和智能体集群三个维度。
而在DeepSeek彻底走红之前,在GTC上做分享最多的中国开源模型团队,曾经是DeepSeek。
论文、GTC、Cursor,三件事在一周内接连落地,且这些亮眼的高光里都有与DeepSeek“时代更替”的意味:曾经是DeepSeek 每篇论文都被全球技术社区和KOL大佬追捧转发,曾经GTC几乎是DeepSeek的“非官方”发布会,甚至Cursor以前“悄悄套壳”的也是DeepSeek ,而一瞬间,全部变成了月之暗面Kimi。
站在DeepSeek的位置上
这让很多人开始意识到,Kimi正在占据DeepSeek在全球AI社区中的位置。
DeepSeek R1在2025年初的爆发重塑了整个行业的认知,让“中国AI”从一个模糊的概念变成了具体的、可以运行的模型权重。但自那之后,DeepSeek相对沉寂了。社区期待已久的V4/R2一直没有发布,V3.1、V3.2等版本持续在更新,但那种“一出手就改写规则”的冲击感暂时没有重现。
Kimi恰好踩进了这个窗口期。
2025年春节后,Kimi日活一度承压,月之暗面砍掉了大笔营销预算,闭门做模型。7月,Kimi K2发布,万亿参数MoE架构。K2发布后在Hugging Face上线首日下载量超过平台上所有其他模型,Anthropic联合创始人Jack Clark评价其为“全球最好的开源权重模型”。
2026年1月底,K2.5发布,原生多模态加Agent集群架构,在多项Agent评测中拿下全球开源最佳。OpenClaw热潮到来后,Kimi Claw迅速上线。据报道,K2.5发布不到一个月,Kimi近20天累计收入就超过了2025年全年。Stripe数据显示,Kimi个人订阅用户1月支付订单环比增长8280%。
资本层面的节奏也在加快。2025年底5亿美元C轮,投后估值43亿美元;2026年2月超7亿美元,估值升至100亿美元;3月中旬新一轮10亿美元正在推进,估值已到180亿美元。同期港股上市的智谱和MiniMax,市值在3月中旬分别站上了3300亿和3800亿港元的量级,月之暗面还没进二级市场,以当前AI板块的溢价看,上市后的想象空间不小。

Kimi就这样用DeepSeek的方式夺走了DeepSeek的光环。
Kimi K2的架构直接脱胎于DeepSeek V3,MLA注意力机制、MoE专家混合框架都是DeepSeek首创或率先大规模验证的。Kimi的崛起本身就是DeepSeek技术影响力的一种继续。DeepSeek的开源策略也更为彻底,采用纯MIT许可证,没有任何营收门槛限制,这让它在全球开发者生态中积累了极高的渗透率。Kimi的修改版MIT许可证在商业使用上多了一层约束,这次Cursor事件就是一个例子。
在DeepSeek相对安静的这段时间里,Kimi接过了“中国AI开源代表”的话筒。无论是黄仁勋的演讲台、Cursor的模型底座,还是学术论文和开发者社区,Kimi正在填补一个需要持续有新鲜内容的叙事空间。
而且Kimi做的也不只是出模型,Attention Residuals论文触碰的是深度学习十年没有实质性变化的底层结构,这和DeepSeek当年做MLA是一个路数,都是在尝试重新定义行业的基础设施。
中国AI开源的故事,正在从“一个DeepSeek”变成一个不停有新的夺走光环的玩家出现的故事,这和硅谷的节奏越来越像,OpenAI之后是Google,Google之后Anthropic,然后循环。
由中国的开源模型们交替接管全球开发者们的时间线,模型能力螺旋式上升的同时,话语权不旁落:等到DeepSeek 新模型出现时,Kimi的注意力会不会被夺走;MiniMax、Qwen、智谱、阶跃以及同样来势汹汹新入局的小米们的新工作,会不会再突然夺走它们俩的主角位置,这些都在让这种螺旋交替继续下去,而这对每个中国AI参与者都是好事。





京公网安备 11011402013531号