这次技术突破的直接结果相当明确:Engram-27B在多个任务上全面超越同规模纯MoE模型,扩展到40B规模后,大部分任务性能还在持续提升,训练后期损失仍在下降,说明记忆容量还有很大提升空间。以往大家都在追…
06/25 00:17
06/25 00:16
06/25 00:15