DeepSeek新模型曝光:MODEL1代码预示新架构,最快有望2月发布
在这场长达两个多小时的对谈中,翁家翌披露了OpenAI内部Post-Training系统的构建逻辑,也解释了OpenAI为何能持续产出爆款模型。他说,自己的一位OpenAI同事也曾是强化学习方向的PhD,后…
谷歌新发现:DeepSeek推理分裂出多重人格,左右脑互搏越来越聪明
连线:与美国关系出现裂痕,欧洲要学中国打造自主版DeepSeek
中国开源AI模型崛起,占全球份额15%
DeepSeek震惊硅谷将满一周年 金融时报:中国将赢得AI竞争
出圈一周年,DeepSeek的变与不变
这次技术突破的直接结果相当明确:Engram-27B在多个任务上全面超越同规模纯MoE模型,扩展到40B规模后,大部分任务性能还在持续提升,训练后期损失仍在下降,说明记忆容量还有很大提升空间。以往大家都在追…
Engram机制的核心思路是给大模型加一个“外接记忆库”。 DeepSeek在论文中明确提出,条件记忆将成为下一代稀疏模型的核心建模原语,这意味着Engram大概率会整合进DeepSeek-V4,实现知识高…
10/31 16:58
10/31 16:56
10/31 16:55