当前位置: 首页 » 资讯 » 科技头条 » 正文

DeepSeek曝V4核心机密,实习生领衔论文,国产大模型藏不住了

IP属地 中国·北京 编辑:顾雨柔 星期八的北风v 时间:2026-01-15 14:09:02

哈喽,大家好,今天小墨这篇评论,主要来分析DeepSeek新论文背后的技术突破 实习生挑大梁成行业新现象

国产大模型圈再爆猛料。1月12日晚,DeepSeek不仅开源全新项目,更发布一篇重磅论文,提出“条件记忆”机制Engram。这套机制专门解决MoE模型的效率难题,有望成为DeepSeek-V4的核心架构。

论文署名阵容亮眼,DeepSeek创始人兼CEO梁文锋领衔,北大王选计算机研究所的赵东岩、张辉帅教授共同参与。

最引人关注的是,论文第一作者程信还是北大智能学院的在读博士生,同时在DeepSeek实习,曾深度参与R1、V3等核心项目的研发。

Engram机制

Engram机制的核心思路是给大模型加一个“外接记忆库”。传统MoE模型处理信息时,会对常见名字、公式等静态知识反复计算,既耗时又耗算力。

DeepSeek的解决方案是把这些固定知识整理成可快速查询的表格,让模型把精力集中在复杂推理、长文本理解等核心任务上。

这种设计让Engram架构具备显著优势,训练计算量较MoE减少18%,在32768个token的长上下文任务中,还能在RULER基准测试中反超同参数量MoE模型。

浅层部署的记忆模块能接管局部依赖与静态知识存储,为注意力机制腾出容量专注全局推理。

即便将1000亿参数的记忆表卸载,H800推理吞吐量降幅也不足3%。DeepSeek还发现,增加记忆槽位数量能持续降低验证损失,这为大模型提供了无需增加计算量就能提升性能的可预测扩展路径。

实习生领衔核心

程信作为论文第一作者,并非个例。据科技日报2025年12月20日报道,DeepSeek长期与北大、清华等高校开展联合培养计划,程信正是通过该计划进入企业实习。

刚加入DeepSeek时,程信参与的是R1模型的参数优化工作。由于在高效参数化方法上有独到见解,他被纳入核心研发团队。在Engram机制的研发初期,团队曾因记忆模块与主干网络的适配问题陷入瓶颈。

程信结合自己的研究方向,提出分词器压缩与上下文感知门控结合的方案,连续两周泡在实验室调整参数、验证效果,最终解决了静态记忆缺乏上下文适应性的关键难题。

这种校企协同的模式让更多青年科研人员脱颖而出。目前DeepSeek的核心研发团队中,有三成成员来自高校实习转正的年轻人才。他们在学术研究与工程落地的结合中快速成长,成为国产大模型创新的重要力量。

技术落地可期

Engram机制不仅有学术价值,更具备极强的工程落地潜力。其记忆检索完全依赖输入token,实现了参数存储与计算资源的解耦,训练时可将超大嵌入表分片至多张GPU,推理时能提前预取数据避免GPU停顿。

基于自然语言的Zipf分布特性,Engram还能采用多级缓存策略,高频嵌入存于GPU或主机内存,低频嵌入置于SSD,轻松扩展至超大规模记忆,

DeepSeek在论文中明确提出,条件记忆将成为下一代稀疏模型的核心建模原语,这意味着Engram大概率会整合进DeepSeek-V4,实现知识高效检索与推理能力的飞跃。

目前,Engram的论文和项目已完全开源,开发者可通过GitHub获取相关资料。这种开放态度也让行业看到国产大模型在核心技术领域的自信,吸引更多力量参与生态建设。

总结

DeepSeek新论文的发布,不仅带来了大模型效率提升的新路径,更展现了国产大模型人才培养的新成果。从技术突破到人才崛起,国产大模型正稳步迈向高质量发展,未来值得期待。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。