当前位置: 首页 » 资讯 » 科技头条 » 正文

全球首个“纯AMD”训练MoE大模型ZAYA1 发布:14T tokens+CCA注意力,性能对标Qwen3

IP属地 中国·北京 编辑:任飞扬 Chinaz 时间:2025-11-25 16:23:30

AMD携手IBM与AI初创Zyphra发布ZAYA1——全球首个全程基于AMD硬件训练的MoE基础模型,预训练14T tokens,综合性能与Qwen3系列持平,数学/STEM推理未经指令微调即可逼近Qwen3专业版。

训练规模

- 集群:IBM Cloud128节点×8张AMD Instinct MI300X,共1024卡;InfinityFabric+ROCm,峰值750PFLOPs

- 数据:14T tokens,课程学习由通用网页→数学/代码/推理;后训练版本将另行发布

架构创新

1. CCA注意力:卷积+压缩嵌入注意力头,显存占用↓32%,长上下文吞吐↑18%

2. 线性路由MoE:专家粒度细化+负载均衡正则,Top-2路由精度提升2.3pp,稀疏度达70%时仍保持高利用率

基准成绩

ZAYA1-Base(非指令版)在MMLU-Redux、GSM-8K、MATH、ScienceQA等基准与Qwen3-Base打平;CMATH与OCW-Math显著超越,验证STEM潜力。Zyphra透露,指令与RLHF版本将于2026Q1推出,并开放API与权重下载。

AMD表示,此次合作验证MI300X+ROCm在大规模MoE训练中的可行性,未来将与更多云厂商复制“纯AMD”集群方案,目标2026年训练>100B参数的MoE模型时实现与NVIDIA方案TCO持平。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。