财经中国

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

  • 全部
  • 财经头条
  • 科技头条
  • 财经人物
  • 金融市场
  • 财经数据
  • 股市速递
  • AI 大模型
  • 智能汽车
  • DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

    05/07
  • 摩尔线程完成DeepSeek-V4全链路工程化适配:S5000基于MUSA+SGLang实现复杂MoE模型快速落地

    05/02
  • Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

    04/20
  • 阿里黑科技炸场!0.6B 小模型“魔改”成 17B MoE,激活参数仅 5%,CPU 直接跑 30token/s!

    04/10
  • 复旦&通义万相提出ProMoE,显式路由引导打破DiT MoE scaling瓶颈

    03/31
  • 跳过88%专家,保住97%性能!MoE推理的正确玩法| CVPR’26

    03/05
  • 宣称从0构建,印度AI实验室Sarvam发布两款MoE架构LLM

    02/21
  • 无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计

    01/04
  • QwenLong-L1.5发布:让30B MoE模型长文本推理能力媲美GPT-5

    12/29
  • Mamba作者团队SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

    12/19
  • OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

    12/14
  • OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

    也就是Circuit Sparsity技术的开源实现

    12/14
  • 华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源

    11/28
  • 全球首个“纯AMD”训练MoE大模型ZAYA1 发布:14T tokens+CCA注意力,性能对标Qwen3

    11/25
  • 不用英伟达,Gemini 3是如何训练的?

    不用英伟达,Gemini 3是如何训练的?

    11/25
  • DeepSeek开源MoE新利器LPLB:基于线性规划,专攻训练动态负载不平衡

    11/20
  • EMNLP2025 | 通研院揭秘MoE可解释性,提升Context忠实性!

    11/18
  • 科大讯飞发布星火X1.5,率先在全国产算力平台攻克MoE模型全链路训练效率

    11/06
  • 全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

    10/30
  • Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE

    10/30
  •  «上一页   1   2   下一页»   共40条/2页 
    全部热门
  • 首款天玑9500s风冷手机来了!OPPO K15 Pro系列

    04/01 16:41

  • 微软在干嘛:Linux打游戏反超Windows!没有原

    04/01 16:41

  • 雷军:5小时,直播拆一台新SU7

    04/01 16:41

  • 中国联通提出新框架MeanCache,刷新多模态生成

    04/01 16:41

  • 农发行湖北省分行被罚150万,涉违反金融统计管

    10/31 16:58

  • 浙江平湖农商行被罚450万,涉关联交易管理不审

    10/31 16:58

  • 老铺黄金距离奢侈品牌有多远?

    10/31 16:56

  • 文华东方300亿元赎身,“老钱”找新路子了

    10/31 16:56

  • 思妍丽入局,美丽田园能否完成“二次蜕变”

    10/31 16:56

  • 预售比现货贵背刺“所有女生”,李佳琦们黄金

    10/31 16:56

关于我们| 联系方式| 用户协议| 隐私政策| 版权声明| 网站地图| 友情链接| 财经头条| 酒业之家
©2008-2025 DESTOON All Rights Reserved 京公网安备 11011402013531号