当前位置: 首页 » 资讯 » 科技头条 » 正文

DeepSeek昨天悄悄扔的炸弹,今天爆了

IP属地 中国·北京 编辑:吴婷 凤凰网科技 时间:2025-08-22 20:25:28

摘要:其实利好谁并不需要猜测,因为DeepSeek此次就是要普遍支持国产芯片生态。

科技 出品

作者|姜凡

编辑|董雨晴

DeepSeek在8月21日正式发布V3.1,一则官方补充留言激起千层浪。

是的,因为官方在V3.1的发布文章里把有关过程算力支持的描述写的太隐晦,又自己在评论区补充了一句。

一夜过去,短短的一句话,A股市场集体“开香槟”。据财联社报道,全市场超2800只个股上涨。从板块来看,算力股全线爆发,云天励飞等多股涨停。芯片股集体大涨,寒武纪涨停创历史新高,中芯国际大涨14%,海光信息涨停。

资本市场的反应并不是对一句口号的追捧,而是看到了国产芯片在算力赛道上真正切入国际前沿的可能。DeepSeek的这句话,不仅被视作一次“技术换挡”的信号,更是国内算力产业链罕见的共振时刻。

DeepSeek这枚炸弹,到底是什么?

要理解“UE8M0 FP8”为何能引发如此大的关注,必须将其拆解为两个部分:作为本体的“FP8”和作为灵魂的“UE8M0”。FP8本身是一种将数字压缩到仅用8位(bit)来存储的浮点格式,旨在用更少的数据位宽降低AI大模型训练和推理中对显存带宽的空前压力。

而DeepSeek的模型一直使用的都是这个格式,但有一个问题,国内的芯片公司只有极少数GPU厂商原生支持FP8,比如摩尔线程,其旗舰产品MTT S5000就是国内首批原生支持FP8并大规模量产的GPU。大家普遍支持的都是FP16,这使得国产芯片在跑DeepSeek的模型时,性能至少会折损一半,所以,这也解释了为什么大家还是喜欢买英伟达的芯片,因为如果是过去的国产芯片,起手就已经不是“满血”了,更别说自己在本地调配时还有可能因为水平不足再降低性能。

图|豆包AI生成

有AI infra企业告诉科技,解决方案就是在软件上做突破,国内有专门针对国产芯片做软件适配DeepSeek的企业,比如清程极智,其原则是让国产芯片在用DeepSeek的时可以提升性能。

这里补充一个知识,纯粹的FP8(如常见的E4M3或E5M2格式)在动态范围和精度上存在固有权衡,处理具有极端大小值的复杂数据时仍可能面临精度损失或数值溢出的挑战。通俗的说,就是数据会有损,就像你压缩打包一批衣服,可以压到很小,但衣服会皱的厉害。

而真正的突破来自于由Meta、谷歌等科技巨头推动的开放计算项目(OCP)所制定的MX(Microscaling)格式,其核心思想不再是整个张量共用一个大缩放因子,而是将其切分为微小的数据块,并为每个块单独配备一个轻量级的8位缩放因子,从而在保持8位存储效率的同时,动态范围扩展了数十倍。通俗说,就是把一批衣服分开打包。

回到DeepSeek这次发布的“UE8M0”,正是MX格式中为每个数据块指定的那个关键缩放因子的数据格式。它是一种极为高效的8位指数表示法:“U”代表无符号(Unsigned),意味着它永远是一个正数,无需符号位;“E8”代表8个比特全部用于表示指数(Exponent);“M0”代表没有尾数(Mantissa)。用一个比喻来形容,UE8M0就像一个 “只调档位、不调微刻度”的超级节能灯泡开关,就像AI芯片里的快进键。

这种“全指数”设计带来了两大根本性优势:其一,硬件在执行缩放(即数据还原)时异常简单快捷,只需进行简单的整数次幂运算(相当于直接移动二进制小数点),完全规避了复杂的浮点乘法与舍入操作,极大缩短了关键计算路径,提升了能效。其二,其巨大的动态范围(从2⁻¹²⁷到2¹²⁸)足以确保任何数据块都能被恰到好处地缩放至FP8的表示范围内,从而几乎完全避免了因数值过大而溢出或过小而被舍入为零的信息损失问题,错误率曲线得以从高位大幅降至一条平坦的低水平线。

所以说UE8M0 FP8是让国产芯片在跑大模型,尤其是在跑DeepSeek的模型时——更快、更省、更能扛大数。

许多现有国产AI加速器并未原生支持完整的E4M3/E5M2 FP8计算单元,但其架构正在向支持块缩放(Block Scaling)的MX格式演进。UE8M0作为缩放因子,其本身格式极简,无需复杂的专用浮点乘法器即可实现,降低了硬件实现门槛。

更重要的是,它为突破“内存墙”提供了最优解:相较于传统的为每个数据块配备一个32位FP32缩放因子,UE8M0仅需追加8位,即可高效管理32个FP8数据,带宽开销骤降75%。这对于HBM带宽仍处于追赶阶段的国产芯片而言,是一项通过数据格式创新实现“带宽减负”的架构级优化,成为了在下一代竞争中实现效能跃升的关键技术路径。因此,这不仅是单纯的技术兼容,更是一次在主流标准框架内,通过前沿设计实现差异化竞争力的精准卡位。

中国算力产业正在迎来“顿悟时刻”

从产业层面看,DeepSeek的这次表态不只是一种技术选择,更是一次产业生态的确认。想想看,中国最好用的大模型产品与英伟达如此紧密的捆绑,本身是一件不乐观的事情,DeepSeek这一次的发布,可以看作是一种渐进式的解绑,官方主动下场为国产芯片发展生态站位。

UE8M0 FP8的落地,也意味着国产算力厂商已经在浮点格式、编译器优化、训练框架适配等环节上实现全栈打通,这背后意味着长期积累的软硬件协同终于显现成果。

至于其所提到的下一代国产芯片是谁,科技此前了解到的,目前成熟的头部国产芯片公司其实都与DeepSeek有所接触。另外,有不少本身都是支持FP8的,除了摩尔线程,今天涨得最凶猛的寒武纪,旗下的思元590以及最新690系列都支持。科技还了解到,摩尔线程的MUSA架构本就原生支持硬件FP8张量加速计算,现在还能够很好地支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。

所以说,其实利好谁并不需要猜测,因为DeepSeek此次就是要普遍支持国产芯片生态。

DeepSeek一句话背后,是对未来大模型算力效率的重新定义,也是国产芯片厂商获得国际话语权的起点。资本市场的集体狂欢,既有情绪成分,更折射出一个信号:中国芯片正迎来前所未有的窗口期,而这一次,它们有机会真正站到技术潮水的前沿。

标签: 芯片 国产 算力 市场 格式 浮点 科技 凤凰网 集体 原生 厂商 硬件 中国 技术 代表 生态 路径 精度 资本 线程 效率 寒武纪 损失 动态 张量 信息 框架 产业 模型 因子 摩尔 性能 信号

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新