环球网
3月16日,月之暗面Kimi发布了一项重磅技术报告《Attention Residuals》(注意力残差),突破大模型架构中的瓶颈,重新设计深度学习中核心的残差连接结构。该技术不仅被业界解读为下一代模型架构的预示,也获得硅谷顶级AI专家和企业家的广泛关注。马斯克评价这一研究“令人印象深刻”。
![]()
挑战10年未变的底层基础架构
过去十年,大多数大规模深度学习模型使用的“残差连接”结构基本未做过重大改变。传统的残差结构是通过对每一层的输出进行统一求和来实现信息传递,虽然这种方式在一定程度上有效,但也存在信息丢失和计算效率低下的问题。Kimi团队的最新技术报告提出一种全新方案,允许模型在每一层选择性地关注此前各层的输出,而不是简单地进行求和。这一创新不仅优化了计算效率,还显著提升了大模型的训练效果。报告显示,经过改进的48B模型训练效率提升了1.25倍。
![]()
根据报告内容,Kimi的三位联合创始人杨植麟、吴育昕、周昕宇与数十名研究员共同完成了这项技术突破。报告不仅在国内引起了广泛关注,也迅速成为全球AI领域的焦点。技术的创新性和前瞻性让许多业内专家纷纷发表评论,称其为“深度学习2.0”的开端。
从业人士高度评价
报告发布后,马斯克通过社交媒体表示:“Impressive work from Kimi”(令人印象深刻的工作),对研究给予充分认可。与此同时,OpenAI前研究副总裁、o1系列推理模型主要发明者Jerry Tworek也表示,Kimi的这一技术突破标志着“深度学习2.0”的到来,他认为这种创新将在未来的AI发展中起到至关重要的作用。
![]()
此外,前OpenAI联合创始人Andrej Karpathy也对这一研究给予了高度评价,他提到:“看来我们还没把‘Attention is All You Need’这句话按字面意思理解透。” Karpathy认为,Kimi团队的创新不仅挑战了现有的深度学习架构,还推动了注意力机制在大规模模型中的进一步应用。
![]()
技术突破或成未来AI模型架构标配
这项创新的残差连接重新设计,可能会成为未来大规模AI模型架构的标配。Kimi团队的研究成果显示,通过引入动态的、依赖输入的注意力机制,模型能够更智能地选择性关注关键信息,从而提升训练效率,减少计算资源的消耗。
业内专家普遍认为,这一技术突破可能推动更多AI公司探索新的架构设计,进而提升AI模型的普适性和灵活性,帮助大模型应用场景进一步拓展。
据悉,3月18日凌晨,Kimi创始人杨植麟将在英伟达2026年度技术大会GTC上发表演讲,介绍Kimi的技术路线和包括“注意力残差”在内的下一代模型架构。(勃潺)





京公网安备 11011402013531号