来自广东的杨植麟,近期频繁处于AI界的话题中心。
在刚结束的中关村论坛上,杨植麟作为代表登上了《新闻联播》;在AI基建王者英伟达的年度GTC大会上,他也作为独立大模型创业公司负责人,受邀做了长达40分钟的技术分享。
![]()
1993年,杨植麟出生在广东汕头,随后走向清华、卡内基梅隆大学等名校,并曾师从苹果AI研究负责人Ruslan Salakhutdinov和谷歌首席科学家William Cohen。2023年初,大模型界风起之时,杨植麟创立了后来多次成为AI界话题中心的月之暗面kimi。
历史总是如此相似。时间拨回一年前,杨植麟的广东老乡、DeepSeek创始人梁文锋站在AI界的话题中心。当时,梁文锋的家乡——湛江吴川迎来了络绎不绝的AI观光客,许多来访者都听说了梁文锋拆装一台收音机37次来研究电路的故事。后来,那台收音机被收藏在DeepSeek总部的展示厅,迎接着更多来自世界各地的观光者。
从梁文锋到杨植麟,当两位广东人站上世界AI舞台中央时,聚光灯追逐的不仅是他们的身影,还有他们背后正在成为开源世界中流砥柱的国产模型。而这样国产模型的故事,还在绵延不绝地发生。
“中国造”模型,成为全球顶尖AI应用的地基
一段时间以来,杨植麟创立的月之暗面kimi从DeepSeek手中接过接力棒,成为全球AI的地基。
今年3月16日,月之暗面Kimi发布技术报告《Attention Residuals》,对大模型十年没有变化的核心结构残差连接行重新设计,这实现了OpenAI联合创始人Ilya Sutskever曾提出过的设想:把按时间先后顺序处理数据的LSTM网络“旋转90度”。用了这套新方法后,模型在计算时能根据需要,自由决定去提取前面哪一层的信息。
论文发出后,马斯克马上称赞“让人印象深刻”,前OpenAI研究科学家Andrej Karpathy表示该研究真正践行了"Attention is All You Need"的理念,推理之父、前OpenAI研究副总裁Jerry Tworek更是直呼“深度学习2.0来了”。
![]()
3月17日,黄仁勋在GTC 2026将中国开源模型Kimi K2.5作为展示下代芯片能力的基准模型。3月18日,杨植麟直接在GTC的分论坛上solo,成为了现场唯一来自独立大模型公司的代表,分享Kimi K2.5的进化路线,并将Kimi的进化逻辑归纳为三个维度的共振:Token效率、长上下文以及智能体集群(Agent Swarms)。
Kimi的关注度,可以说在随后的3月20日被推至最高点。当时,AI编程TOP应用Cursor发布了自研模型Composer 2,并称这是公司首次对基座模型进行“继续预训练结合强化学习”的成果。
随后,有开发者分享了自己的调试代码,称发现上述Cursor自研模型的底层模型居然是Kimi K2.5!马斯克火速加入第一现场,赶到该名开发者的博文下面,火速评价“是的,就是Kimi K2.5”,将Kimi再次拉到了聚光灯下。这件事情,以Cursor联合创始人Aman Sanger公开致歉、承认没有在发布博客中提及Kimi K2.5是失误告终。
![]()
Cursor被质疑“套壳”的相同场景,此前也在DeepSeek身上上演过。去年11月,Cursor发布新模型Composer-1时,就将其标榜为“自家首个编码模型”、“智能体编程最佳方式”。结果有网友发现,新模型干着干着活就开始说中文,有网友发现,Cursor Composer-1和DeepSeek用的是同样的分词器,因此推测所谓新模型很可能是DeepSeek的变体。
![]()
从DeepSeek到Kimi,Cursor的“自研模型”的底座换了一轮又一轮,但都出自中国。一个事实是,中国开源模型正在构成全球AI应用层的地基。Hugging Face联创和CEO克莱门特·德朗格近日就指出,中国的开源模型如今已成为塑造全球AI技术栈的最大力量。
![]()
与DeepSeek并肩“扛鼎”前,漫长的蛰伏和成长
在有能力“扛鼎”之前,所有模型都需要成长期,不管是DeepSeek,还是Kimi都不例外。别看其现在走到了聚光灯下,时间拨回一年前,Kimi同样也是在聚光灯下,但那时外界舆论的论调,全都是“Kimi为何掉队了”。
月之暗面Kimi和DeepSeek都成立于2023年,在2025年DeepSeek和梁文锋名声大噪之前,Kimi和杨植麟同样备受关注。
这些关注包括但不限于,月之暗面获得了当时国内大模型的最大单笔融资,被阿里、腾讯、红杉等著名资本争投,一度成为了当时大模型六小虎中的最好标的;而杨植麟来自清华大学、卡内基梅隆大学的技术背景,以及其博士期间作为第一作者发布的两篇享誉AI领域的论文及论文引用量,都让杨植麟被外界看作坚定的AGI信徒、有技术号召力的创始人。
转折点出现在2025年年初,梁文锋和DeepSeek自来水式的出圈,给月之暗面2024年下半年激进投流路线打上了一个问号。细扒两者的动作,也让外界对当时DeepSeek和Kimi不同命运的分野更感叹息。
比如DeepSeek发布R1引爆全网时,月之暗面Kimi也在同天发布了其多模态思考模型k1.5;比如2025年2月DeepSeek发出了一篇由梁文锋署名的注意力机制NSA的论文,同期其实月之暗面也发布了一篇有杨植麟署名的关于注意力机制的论文,且附带论文当时月之暗面还公布了相关代码,并表示那些代码已有一年的实际部署验证,有效性和稳健性都有保证。不过,在DeepSeek的阴影下,无人关注Kimi。
当年3月,月之暗面内部召开了一场沟通会,随后迅速完成战略调整,将技术和模型作为最重要的方向。随后,是当年7月Kimi新模型K2刷屏海外技术圈。而梁文锋和杨植麟之间的技术“撞车”还在继续,包括对数学推理模型的同时押注,和今年1月对视觉理解的各自聚焦。
事实上,频繁技术“撞车”,恰巧意味着两者对技术和行业有着相同的判断。比如,2025年4月中旬,Kimi推出数学推理专项模型Kimina-Prover Preview,采用了“自验证”核心方式。4月最后一天,DeepSeek也发布了数学推理模型DeepSeek-Prover-V2,通过强化学习让模型能够“自验证”推理过程的合理性。
而在今年1月,DeepSeek和Kimi继续同时关注起了视觉理解,月之暗面发布并开源新模型Kimi K2.5,杨植麟将其形容为“全能模型”,即视觉理解、代码、多模态、思考与非思考模式、Agent及Agent集群能力都被封装进了同一个模型中。同日DeepSeek也上线了新一代模型OCR-2,在视觉理解上,该模型能像人一样,根据图像内容的语义和逻辑,动态调整阅读顺序。
有了这两个广东人的示范和启发,中国会跑出更多具备全球竞争力的模型。它们将用来自东方的坚韧和聪明告诉世界,中国AI企业正在崛起,同时中国人正以独特的创造力与韧性,在全球人工智能竞技场上比拼和胜出。而据公开报道,DeepSeek V4有可能会在4月发布,一个新的改写规则的时刻,即将到来。
采写:南都N视频记者 林文琪





京公网安备 11011402013531号