当前位置: 首页 » 资讯 » 科技头条 » 正文

马斯克深夜点赞炸场!Kimi撕开Transformer十年铁幕,中国AI亮剑

IP属地 中国·北京 编辑:赵云飞 数码八叔 时间:2026-03-20 16:11:55

2026年3月17日,马斯克在X平台的一条推文打破了AI圈的平静。这位以“技术挑剔”著称的科技狂人,罕见转发并点赞了中国AI公司月之暗面(Moonlight AI)旗下Kimi团队的技术论文。更令人震动的是,这篇论文触碰的不是普通算法优化,而是深度学习领域十一年来几乎无人敢动的“禁区”——Transformer架构的残差连接机制。当整个行业沉迷于“参数竞赛”和“应用层内卷”时,Kimi团队选择扎进最底层的架构创新,这种“啃硬骨头”的尝试,不仅让马斯克放下了对中国AI的“审视滤镜”,更让全球科技界重新思考:AI的下一个突破点,或许藏在被忽视的基础角落里。

一、被触碰的“禁区”:Transformer的残差困局

要理解Kimi团队的动作为何引发震动,得先回到2015年。那年,Google团队提出的Transformer架构,凭借“注意力机制”和“残差连接”两大核心,彻底改写了自然语言处理的规则。其中,残差连接被业内称为“架构的承重墙”——它通过将每一层的输入与输出相加,解决了深层网络训练时的“梯度消失”问题,让模型能堆叠数百甚至数千层而不崩溃。

但这面“承重墙”并非完美无缺。随着模型规模从BERT的亿级参数膨胀到GPT-4的万亿级,研究者发现了一个隐蔽的问题:标准残差连接采用“加法”操作,会导致深层特征被浅层特征“稀释”,学术圈称之为“PreNorm稀释效应”。简单说,就像往一杯清水中不断加墨水,加得越多,颜色反而越淡——深层网络学到的精细特征,会被浅层的基础特征“平均化”,最终影响模型的推理精度。

过去十一年,学界并非没有察觉这个问题。2017年GPT系列问世后,OpenAI、Google等巨头曾尝试过调整残差连接的位置(如将PreNorm改为PostNorm),或加入权重系数,但都停留在“修修补补”,没人敢动“加法连接”这个底层逻辑。原因很简单:残差连接是Transformer的“地基”,任何改动都可能导致整个架构崩塌,且需要重新训练数万亿参数,成本高到难以想象。

Kimi团队却选择了“硬碰硬”。他们在论文中提出:将标准残差连接的“加法”,替换为“深度维度上的softmax注意力”。简单说,不再让所有层的特征“平等相加”,而是通过注意力机制给不同层的特征分配“权重”——重要的深层特征多保留,冗余的浅层特征少保留。为了落地这个想法,团队先设计了“全注意力残差方案”,但发现内存和通信开销过大,又进一步优化为“块注意力残差”,将特征按维度分块计算注意力,既保留了核心创新,又将计算成本降低了60%。

更关键的是,论文通过数学证明:目前所有主流的残差连接变体(包括PreNorm、PostNorm),其实都是Kimi方案在“注意力权重均匀分布”时的特例。这意味着,他们的创新不是“另起炉灶”,而是为残差连接提供了一个更通用、更灵活的理论框架。用月之暗面首席科学家张弛的话说:“我们不是要推翻Transformer,而是让它‘进化’——就像给老房子换了更坚固的钢筋,既保留结构,又提升承重。”

二、为什么是Kimi?月之暗面的破局与争议

在AI行业,“基础架构创新”向来是巨头的“专利”。OpenAI有微软撑腰,Google有DeepMind护航,而月之暗面2021年才成立,2023年推出Kimi大模型时,还被外界质疑“蹭ChatGPT热度”。如今这家公司敢动Transformer的“地基”,底气从何而来?

答案藏在两组数据里。据36氪报道,月之暗面2025年完成D轮融资,估值突破300亿人民币,投资方包括红杉中国、高瓴等顶级机构;同期收入同比增长470%,企业客户数超5000家,其中不乏字节跳动、宁德时代等头部企业。这意味着,它既有资本支持“烧钱”做基础研究,又有商业化能力支撑长期投入。

但争议也如影随形。就在马斯克点赞前一周,AI开源社区OpenClaw创始人Alex Wang公开质疑Kimi Claw(Kimi的代码解释工具)“存在数据合规风险”,称其训练数据中包含未授权的开源代码。虽然月之暗面迅速回应“所有数据均来自合规授权渠道”,但舆论场已将“技术突破”与“商业争议”捆绑解读。

这种争议反而让马斯克的点赞更具象征意义。要知道,马斯克对AI技术的表态向来“毒舌”:2023年他批评GPT-4“缺乏创新”,2024年嘲讽Google Gemini“过度营销”,却对Kimi团队的论文用了“Interesting approach(有趣的方法)”——这不是简单的客套,而是对“底层创新”的认可。正如科技博主Avi Chawla在拆解报告中写的:“当大多数中国AI公司还在‘套壳’做应用时,Kimi团队证明了:中国也能在深度学习的‘根技术’上撕开一道口子。”

三、技术突围的启示:中国AI的“深水区”探索

Kimi团队的尝试,撕开的不仅是技术禁区,更是中国AI产业的“认知茧房”。过去几年,中国AI公司在应用层表现亮眼——从短视频推荐到智能客服,场景落地速度全球领先,但在基础理论和架构创新上,始终被外界贴上“跟随者”标签。

这次Transformer残差连接的突破,提供了一个新的思路:不一定要在“参数规模”上与GPT、Gemini硬拼,而是在“架构效率”上找突破口。Kimi团队的实验显示,采用新残差方案后,在相同参数规模下,模型推理速度提升30%,训练成本降低25%——这对需要大规模部署的企业客户来说,是实实在在的“降本增效”。

当然,基础创新的风险也不容忽视。有匿名AI研究员向《财经》表示:“Kimi的方案还需要更多场景验证,比如多模态任务、长文本处理,目前论文只验证了语言模型。而且,一旦巨头跟进,凭借数据和算力优势,可能很快就能推出更成熟的版本。”

但这些风险,恰恰是“深水区”探索必须面对的。就像2015年Transformer问世时,没人想到它会颠覆NLP;2022年GPT-3.5爆火前,也没人看好大语言模型的商业化。技术的突破,往往始于少数人对“不可能”的挑战。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。