马斯克深夜点赞炸场！Kimi撕开Transformer十年铁幕，中国AI亮剑

IP属地中国·北京 编辑：赵云飞数码八叔 时间：2026-03-20 16:11:55

2026年3月17日，马斯克在X平台的一条推文打破了AI圈的平静。这位以“技术挑剔”著称的科技狂人，罕见转发并点赞了中国AI公司月之暗面（Moonlight AI）旗下Kimi团队的技术论文。更令人震动的是，这篇论文触碰的不是普通算法优化，而是深度学习领域十一年来几乎无人敢动的“禁区”——Transformer架构的残差连接机制。当整个行业沉迷于“参数竞赛”和“应用层内卷”时，Kimi团队选择扎进最底层的架构创新，这种“啃硬骨头”的尝试，不仅让马斯克放下了对中国AI的“审视滤镜”，更让全球科技界重新思考：AI的下一个突破点，或许藏在被忽视的基础角落里。
一、被触碰的“禁区”：Transformer的残差困局
要理解Kimi团队的动作为何引发震动，得先回到2015年。那年，Google团队提出的Transformer架构，凭借“注意力机制”和“残差连接”两大核心，彻底改写了自然语言处理的规则。其中，残差连接被业内称为“架构的承重墙”——它通过将每一层的输入与输出相加，解决了深层网络训练时的“梯度消失”问题，让模型能堆叠数百甚至数千层而不崩溃。
但这面“承重墙”并非完美无缺。随着模型规模从BERT的亿级参数膨胀到GPT-4的万亿级，研究者发现了一个隐蔽的问题：标准残差连接采用“加法”操作，会导致深层特征被浅层特征“稀释”，学术圈称之为“PreNorm稀释效应”。简单说，就像往一杯清水中不断加墨水，加得越多，颜色反而越淡——深层网络学到的精细特征，会被浅层的基础特征“平均化”，最终影响模型的推理精度。
过去十一年，学界并非没有察觉这个问题。2017年GPT系列问世后，OpenAI、Google等巨头曾尝试过调整残差连接的位置（如将PreNorm改为PostNorm），或加入权重系数，但都停留在“修修补补”，没人敢动“加法连接”这个底层逻辑。原因很简单：残差连接是Transformer的“地基”，任何改动都可能导致整个架构崩塌，且需要重新训练数万亿参数，成本高到难以想象。
Kimi团队却选择了“硬碰硬”。他们在论文中提出：将标准残差连接的“加法”，替换为“深度维度上的softmax注意力”。简单说，不再让所有层的特征“平等相加”，而是通过注意力机制给不同层的特征分配“权重”——重要的深层特征多保留，冗余的浅层特征少保留。为了落地这个想法，团队先设计了“全注意力残差方案”，但发现内存和通信开销过大，又进一步优化为“块注意力残差”，将特征按维度分块计算注意力，既保留了核心创新，又将计算成本降低了60%。
更关键的是，论文通过数学证明：目前所有主流的残差连接变体（包括PreNorm、PostNorm），其实都是Kimi方案在“注意力权重均匀分布”时的特例。这意味着，他们的创新不是“另起炉灶”，而是为残差连接提供了一个更通用、更灵活的理论框架。用月之暗面首席科学家张弛的话说：“我们不是要推翻Transformer，而是让它‘进化’——就像给老房子换了更坚固的钢筋，既保留结构，又提升承重。”
二、为什么是Kimi？月之暗面的破局与争议
在AI行业，“基础架构创新”向来是巨头的“专利”。OpenAI有微软撑腰，Google有DeepMind护航，而月之暗面2021年才成立，2023年推出Kimi大模型时，还被外界质疑“蹭ChatGPT热度”。如今这家公司敢动Transformer的“地基”，底气从何而来？
答案藏在两组数据里。据36氪报道，月之暗面2025年完成D轮融资，估值突破300亿人民币，投资方包括红杉中国、高瓴等顶级机构；同期收入同比增长470%，企业客户数超5000家，其中不乏字节跳动、宁德时代等头部企业。这意味着，它既有资本支持“烧钱”做基础研究，又有商业化能力支撑长期投入。
但争议也如影随形。就在马斯克点赞前一周，AI开源社区OpenClaw创始人Alex Wang公开质疑Kimi Claw（Kimi的代码解释工具）“存在数据合规风险”，称其训练数据中包含未授权的开源代码。虽然月之暗面迅速回应“所有数据均来自合规授权渠道”，但舆论场已将“技术突破”与“商业争议”捆绑解读。
这种争议反而让马斯克的点赞更具象征意义。要知道，马斯克对AI技术的表态向来“毒舌”：2023年他批评GPT-4“缺乏创新”，2024年嘲讽Google Gemini“过度营销”，却对Kimi团队的论文用了“Interesting approach（有趣的方法）”——这不是简单的客套，而是对“底层创新”的认可。正如科技博主Avi Chawla在拆解报告中写的：“当大多数中国AI公司还在‘套壳’做应用时，Kimi团队证明了：中国也能在深度学习的‘根技术’上撕开一道口子。”
三、技术突围的启示：中国AI的“深水区”探索
Kimi团队的尝试，撕开的不仅是技术禁区，更是中国AI产业的“认知茧房”。过去几年，中国AI公司在应用层表现亮眼——从短视频推荐到智能客服，场景落地速度全球领先，但在基础理论和架构创新上，始终被外界贴上“跟随者”标签。
这次Transformer残差连接的突破，提供了一个新的思路：不一定要在“参数规模”上与GPT、Gemini硬拼，而是在“架构效率”上找突破口。Kimi团队的实验显示，采用新残差方案后，在相同参数规模下，模型推理速度提升30%，训练成本降低25%——这对需要大规模部署的企业客户来说，是实实在在的“降本增效”。
当然，基础创新的风险也不容忽视。有匿名AI研究员向《财经》表示：“Kimi的方案还需要更多场景验证，比如多模态任务、长文本处理，目前论文只验证了语言模型。而且，一旦巨头跟进，凭借数据和算力优势，可能很快就能推出更成熟的版本。”
但这些风险，恰恰是“深水区”探索必须面对的。就像2015年Transformer问世时，没人想到它会颠覆NLP；2022年GPT-3.5爆火前，也没人看好大语言模型的商业化。技术的突破，往往始于少数人对“不可能”的挑战。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

龙头有色押注新能源

快乐马从AI黑马沦为电商牛马

红魔姜超称新平板会在手机之后发布，具体日期要看卡点解决进展

Fitbit要改名了！你的健康数据将由它掌管

蓝芯算力联合中国移动实现RISC-V + BC-LINUX全栈融合方案适配

科博会观察|机器人僧多粥少，务实者得

全站最新

龙头有色押注新能源

快乐马从AI黑马沦为电商牛马

红魔姜超称新平板会在手机之后发布，具体日期要看卡点解决进展

Fitbit要改名了！你的健康数据将由它掌管

热门推荐

龙头有色押注新能源

玻璃公司、马桶制造商……一文盘点：AI热潮下的“意外赢家

老登理解不了俞浩

快乐马从AI黑马沦为电商牛马

红魔姜超称新平板会在手机之后发布，具体日期要看卡点解决进展

Fitbit要改名了！你的健康数据将由它掌管

蓝芯算力联合中国移动实现RISC-V + BC-LINUX全栈融合方案适配

科博会观察|机器人僧多粥少，务实者得

黄仁勋谈“铜线不够用”，光纤迫近“CPO时刻”？

国产光纤全球爆单背后

ATK新鼠标云胭粉配色来了！

当机器学会了“手艺”：Agent Skill如何重塑世界

人事换届撕开战略拐点，苹果不再保守

秀我中国｜在科博会，看到最机甲的机器人跳最可爱的舞

英伟达今年已向AI企业投资超400亿美元，OpenAI获最大注资