全球首个“纯AMD”训练MoE大模型ZAYA1 发布：14T tokens+CCA注意力，性能对标Qwen3

IP属地中国·北京 编辑：任飞扬 Chinaz 时间：2025-11-25 16:23:30

AMD携手IBM与AI初创Zyphra发布ZAYA1——全球首个全程基于AMD硬件训练的MoE基础模型，预训练14T tokens，综合性能与Qwen3系列持平，数学/STEM推理未经指令微调即可逼近Qwen3专业版。
训练规模
- 集群:IBM Cloud128节点×8张AMD Instinct MI300X，共1024卡;InfinityFabric+ROCm，峰值750PFLOPs
- 数据:14T tokens，课程学习由通用网页→数学/代码/推理;后训练版本将另行发布
架构创新
1. CCA注意力:卷积+压缩嵌入注意力头，显存占用↓32%，长上下文吞吐↑18%
2. 线性路由MoE:专家粒度细化+负载均衡正则，Top-2路由精度提升2.3pp，稀疏度达70%时仍保持高利用率
基准成绩
ZAYA1-Base（非指令版）在MMLU-Redux、GSM-8K、MATH、ScienceQA等基准与Qwen3-Base打平;CMATH与OCW-Math显著超越，验证STEM潜力。Zyphra透露，指令与RLHF版本将于2026Q1推出，并开放API与权重下载。
AMD表示，此次合作验证MI300X+ROCm在大规模MoE训练中的可行性，未来将与更多云厂商复制“纯AMD”集群方案，目标2026年训练>100B参数的MoE模型时实现与NVIDIA方案TCO持平。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

字节与快手助推，漫剧今年迅速起量，引领AI变现

华为发布会直击：Mate 80系列4699元起、首搭载鸿蒙6系统，Mate X7系列价格12999元起

华为Mate 80系列上新两款麒麟处理器

中国官宣寻找"第二地球"！四颗科学卫星将发射

华为MateTV Max 110英寸正式发布！售价64999元：性能提升4.9倍

刚刚，华为麒麟9030携Mate 80王者归来，性能飙升42%，AI全面进化

全站最新

字节与快手助推，漫剧今年迅速起量，引领AI变现

华为发布会直击：Mate 80系列4699元起、首搭载鸿蒙6系统，Mate X7系列价格12999元起

华为Mate 80系列上新两款麒麟处理器

中国官宣寻找"第二地球"！四颗科学卫星将发射

热门推荐

腾讯混元OCR模型宣布开源

新加坡国家AI计划放弃Meta模型，转向阿里千问

华为已注册MATE80相关商标

华为 Mate X7 折叠屏手机发布：售价12999 元起搭载全新玄武架构

华为鸿蒙二合一平板电脑MatePad Edge发布售价 5999 元起

Tulip 收购 AI 公司 Akooda 强化工业智能运营能力

谷歌官宣时间表：Google Assistant 2026 年 3 月正式退役，Gemini 完成全端接管

韩国首尔试点 AI 交通摄像头应对交叉路口拥堵问题

Anthropic最新实验显示：教AI“奖励黑客”竟诱发破坏代码库、伪装对齐等连锁危机

字节与快手助推，漫剧今年迅速起量，引领AI变现

首次商用！华为重大发布！

华为FreeBuds Pro 5支持录音转写等AI功能

华为发布会直击：Mate 80系列4699元起、首搭载鸿蒙6系统，Mate X7系列价格12999元起

华为Mate 80系列上新两款麒麟处理器

中国官宣寻找"第二地球"！四颗科学卫星将发射