5月25日,华为公司董事、半导体业务部总裁何庭波在中国科学院科技论文预发布平台上发表署名论文《多层电子系统的时间缩微理论(A Time Scaling Theory for Multi-Layer Electronic Systems)》。
![]()
论文解释了今日何庭波在国际电路系统研讨会ISCAS 2026上的题为“半导体新路径探索与实践”的主旨演讲中,发表的“韬(τ)定律”如何破解摩尔定律面临的物理和经济困局。
论文还披露了未来华为部分麒麟芯片、昇腾芯片的路线规划:
麒麟2026将引入逻辑折叠架构,CPU性能核心频率提升至3.1GHz,并进入硅片验证阶段;2027年的麒麟2027将继续采用逻辑折叠,频率提升至3.39GHz;2028年的麒麟2028预计达到3.71GHz,进入硅前验证阶段;到2029年,麒麟2029的CPU性能核心频率将突破4GHz。沿此路径,麒麟SoC在典型使用场景下的效率预计将在3至5年内提升1倍以上,AI硬件集成度预计到2035年增长100倍以上。
![]()
昇腾芯片方面,2026年的昇腾950以及随后的昇腾990将采用成熟技术的组合:Chiplet、2.5D扇出和通过微凸块及标准间距混合键合的3D堆叠。到2030年前后,昇腾990将把逻辑折叠引入AI芯片类别,从那时起3D折叠成为2035年前α的主要载体。沿此路径,到2035年其硬件集成度预计将增长100倍以上。
何庭波透露,预计到2031年,基于韬定律的高端芯片晶体管密度将达到1.4纳米制程的同等水平。
以下为何庭波论文全文翻译:
多层电子系统的时间缩放理论
作者:何庭波
单位:华为
摘要:华为摘要过去六十年,摩尔定律所代表的几何缩微推动了半导体产业的持续进步。然而,这一产业共识已经难以延续:单纯依靠尺寸缩小所带来的回报趋于平缓,先进制程芯片的设计预算已经超过单颗十亿美元,最先进节点上的每晶体管成本也不再下降。
本文提出一种后摩尔时代的继任缩微原则——τ缩微。这一原则将“时间”本身,而非晶体管面积,作为衡量进步的核心指标,并以单一特征时间常数τ作为贯穿全栈的统一优化目标,覆盖从晶体管开关到数据中心工作负载约十二个量级的尺度。文章展示了两个量产级验证案例。
在移动SoC中,LogicFolding(逻辑折叠)通过把数字电路、模拟电路和存储电路分配到垂直堆叠的有源层中,在固定器件节点下实现了55%的晶体管密度跃升,以及41%的功耗能效提升。
在AI系统中,由内存语义的Unified Bus(统一总线)架构、近封装Hi-ONE光I/O以及边缘到表面的3D Folding(三维折叠)共同构成的系统堆栈,预计到2035年可推动硬件集成度增长超100倍。
更深层的主张在于方法论:τ缩放是自Dennard缩放以来,第一个能够为整个计算栈建立共同优化目标的缩微原则。导言自 20世纪60年代中期以来,半导体产业一直以纳米作为衡量进步的单位。大约每十八个月,晶体管尺寸缩小,频率上升,单位逻辑门的成本下降。
摩尔定律既是一种经验观察,也帮助建立了整个计算堆栈的一种产业共识。如今,这一产业共识已经失效。进入7nm节点之后,几何缩微不再提供历史上那样的红利。
光刻设备正在接近图形化的物理极限,EUV设备折旧主导了主导晶圆成本,单位晶体管价格曲线趋于平坦,在某些情况下甚至出现反转。对于那些先进光刻设备获取受限的组织而言,这一约束更早成为现实,也更加严峻。
因此,产业面临的核心问题已经发生变化。问题不再是“晶体管还能缩小多少”,而是“究竟应该缩小什么,又应该针对什么目标?”。
过去六年,作者所在的华为半导体团队在移动SoC、AI加速器、系统互连和封装等多个方向上,通过硅片实践研究了这一问题。得到的结论是,答案不在于另一个制程节点,也不在于另一种晶体管结构,而在于改变主要优化目标本身。
本文主张,未来十年电子系统的演进应由几何缩微转向时间缩微,即在整个技术栈中系统性降低单一特征时间常数τ,从皮秒级开关的晶体管,到秒级响应的数据中心工作负载来引导——而非几何缩微。
下文将结合2020年5月至2026年5月间进入量产的381款芯片所积累的经验基础,从科学方法论和产业路线图两个层面展开τ 缩放的论证。
1.几何时代的终结
在半导体产业的大部分历史中,它只有一个核心任务:让晶体管变得更小。
戈登·摩尔(Gordon Moore)在1965年提出,晶体管密度大约每两年翻一番。十年后,罗伯特·登纳德(Robert Dennard)提出了缩微理论,指出电压和尺寸按比例缩小时,可以维持恒定电场。几何缩放与Dennard缩放共同推动了近五十年里每瓦性能和每美元性能的指数级提升。
这一格局分两个阶段瓦解。大约在2005年,Dennard微缩率先失效:电压无法再随特征尺寸同比例下降,“暗硅”时代由此开启。几何微缩维持得更久,先后依靠FinFET和全环栅极(GAA)等器件结构继续延展。
然而,进入7nm之后,单纯依赖尺寸微缩所获得的收益已经趋于平缓。其原因已经相当明确:速度饱和使本征延迟对沟道长度的依赖从平方关系降为线性关系;局部互连中的寄生电阻和电容越来越主导标准单元延迟预算;掩膜成本、EUV折旧以及设计规则复杂度,使2nm节点的先进芯片设计预算超过单颗十亿美元。
经济后果同样无法回避。先进节点上的单位晶体管成本已经趋于平坦,在最前沿节点上甚至开始上升。过去五十年支撑产业运转的共识——每一代都能以更低成本获得更多晶体管——已经不再成立。
对于华为半导体而言,这一转变还叠加了另一项约束:获取最先进光刻设备渠道受限。继续假设“下一个节点会解决问题”已不再可行。
六年前,几何微缩路线图进入平台期,迫使团队面对一个更根本的问题。回头看,这也是整个行业迟早都必须面对的问题。
2.时间,而非空间:摩尔时代真正的货币
如果从终端用户所感知的本质影响来看,摩尔定律根本上从来都不只是关于几何尺寸。更小的晶体管之所以提升系统性能,是因为它们切换更快。更密集的互连之所以能提升性能,是因为信号传播距离更短。更高的集成度之所以能提升性能,是因为数据跨越的边界更少。
每一代技术所带来的本质,其实都是时间的压缩:在器件层面从皮秒到纳秒,在芯片层面从纳秒到微秒,在系统层面从微秒到秒。空间微缩只是压缩时间的工具。
认识到这一点后,一个显而易见的重构思路便出现了:应当把时间本身作为主要指标。在堆栈的每一层——晶体管、电路、芯片和系统——都可以定义一个特征时间常数τ,并将其缩减为统一优化目标。这样一来,几何微缩只是成为缩减τ的多种技术之一,不再是唯一途径。
这一原则被称为τ微缩。本文提出,应将其作为继几何摩尔微缩之后,指导半导体演化的新原则。形式上,τ被视为一个分层结构,可以分解为:
其中,τ_transistor、τ_circuit、τ_chip和τ_system分别表示晶体管层、电路层、芯片层和系统层的时间常数。每一层的τ都由其下层结构以及该层引入的组织和通信开销共同构成。τ的工作空间在时间上大约横跨十二个数量级,从皮秒到秒;在空间上也覆盖从纳米到千米的相似尺度。
每一层都有不同的τ降低机制:
晶体管层:核心是本征开关延迟,可通过迁移率提升、应变工程、高κ/金属栅、GAA架构等方式改善。与此同时,局部互连的寄生电阻和电容正在变得越来越重要,还需要进一步降低局部互连的寄生R和C。如今,这些寄生参数所造成的延迟已经达到本征渡越时间的数倍。
电路层:核心是信号路径上的RC传播延迟,可通过低电阻率导体、低κ介质,以及更重要的垂直集成来缩短线长。
芯片层:核心是计算延迟和存储访问延迟,可通过架构选择、流水线深度、存储层级结构和片上互连网络进行优化。
系统层:核心是端到端消息传输和同步时间,可通过互连拓扑、协议栈和网络结构设计来降低。
从这一分层表述中,可以得到一个有用的代际规则:
其中微缩因子α并非通用常数,而与应用场景相关。迄今为止的量产经验显示,在功耗受限的移动设备中,α约为每年1.3倍;在安全关键型自动驾驶系统中,α约为每年1.5倍;在AI工作负载中,α最高可达每年10倍,因为吞吐量会直接转化为经济价值。
τ之所以能够成为一个有效的核心指标,而不是对既有指标的重新命名,是因为它在整个堆栈中具有一致性。频率、延迟、带宽和吞吐量在各自层级上都受τ支配。工艺技术人员、电路设计人员和系统架构师可以围绕同一个量、用相同单位展开讨论。
τ是实现端到端全栈协同优化的共同语言。过去那种各层独立优化、时序作为残差的时代已经结束。
3.逻辑折叠:移动SoC的验证案例
τ微缩的第一个量产规模验证是在移动领域完成的。智能手机SoC是一种特殊案例:一颗芯片几乎构成了整个系统。它无法依靠多插槽并行来弥补性能短板,也无法用千节点互联架构来掩盖慢速链路。用户最终感知到的全部性能,都来自单颗芯片,同时还受几瓦功耗包络和手持设备热设计约束。
2020年以后,先进节点获取受限,实际问题变成了:在节点固定的情况下,如何继续在单颗芯片上实现代际性能改进?
由此产生的答案就是逻辑折叠(LogicFolding)。
定义:逻辑折叠是一种设计方法。它按照时间尺度微缩原则,将数字电路、模拟电路和存储电路划分到垂直堆叠的有源层中,以联合优化性能、功耗和面积。
数字电路可分为组合逻辑和时序逻辑。组合逻辑是寄存器之间的布尔网络,时序逻辑则是保持状态的触发器。数字系统的性能上限由相邻触发器阶段之间的关键路径延迟决定,而关键路径延迟又主要受到路径上的互连RC和门级数量影响。
传统优化把门电路放置在二维平面中,并通过其上方的金属层布线。线越长,寄生RC越大,关键路径越慢。
逻辑折叠放弃了平面假设。关键路径上的门电路被分布到两个,未来甚至更多个垂直堆叠的有源层中,并通过超细间距混合键合连接。
从电路设计者的视角看,这两个层表现为一个连续的布局基底,单元可以跨越晶圆边界分布,就像晶圆边界成为额外的一层金属层。信号布线显著缩短,寄生RC大幅下降,时钟偏斜收紧,同一器件节点下芯片可以更高的时钟频率运行。
为了让逻辑折叠发挥这些收益,需要使混合键合间距与顶层金属间距之间的齿轮比保持较低。实践中这一比例大致需要低于3,越低越好。
以当前约720nm的顶层金属间距为例,这意味着混合键合间距需要低于2μm,理想状态下齿轮比接近1,此时键合界面处的鸟笼式布线开销基本消失。
要达到这一间距,同时满足覆盖精度低于0.5μm、TSV缩微(CD和KOZ低于1.5μm、TSV间距低于6μm),以及通过智能冗余实现接近100%良率,需要供应商和合作伙伴生态经历多年工艺开发。
在麒麟2026上测得的结果是具体的:
·晶体管密度在一代内从155MTr/mm²阶跃式提升至238MTr/mm²。该密度按公式
计算,麒麟SoC设计的面积利用率为68%。这一提升幅度在过去通常需要三年的几何微缩才能实现。
· SoC性能核心的能效提升41%,最高时钟频率提高接近13%。
· 一个跨越上下两层构建的高速全局NoC数据通路,使数据路径占用面积降低55%,同时提升了供电稳定性。
· 后硅时钟偏斜调整方案独立贡献了超过5%的SoC性能提升。
· 在SRAM上,由于访问速度、每比特能耗和面积强烈依赖位线和字线长度,逻辑折叠缩短了关键路径,降低了每比特能耗,并使工作频率提升超过40%。
· 在一个代表性处理核心上,双层折叠架构使时钟缓冲器数量减少超过50%,时钟偏斜降低25%,线长减少约30%。
这些收益是在固定器件节点上实现的,来源并非新的光刻步骤,而是逻辑在三维空间中的拓扑重组。
麒麟2026中搭载的逻辑折叠实现有意保持保守策略。混合键合间距达到1.5μm;TSV着陆仅比顶层金属向下推进一步;折叠也只是选择性应用于关键路径,而非整个设计。即便如此,今年CPU性能核心频率已经回到3.1GHz。
未来十年,逻辑折叠预计将从局部关键路径折叠发展为全规模、多层折叠,即每个封装内包含三层、四层甚至更多有源层。这一演进将受到更低温度混合键合,以及TSV着陆从顶层金属下移至M6的支持。后者能够释放超过30% 的高层布线资源。2026年至2035年期间,晶体管密度预计将提升至400MTr/mm²及以上。
与此同时,逻辑折叠使 麒麟能够显著提高CPU核心频率,并朝4GHz及更高目标推进。该路线图在技术上可行,在成本上也具备经济合理性。
![]()
表1Kirin CPU性能核心工作频率趋势
边栏A:逻辑折叠概览
· 混合键合间距:低于2μm;Kirin2026为1.5μm;目标齿轮比约为1。
· 覆盖精度:低于0.5μm。
· TSV CD / KOZ:低于1.5μm;间距低于6μm;失效率低于100ppm;修复率99.9%。
· 良率:通过智能冗余接近100%。
· 晶体管密度:155 → 238MTr/mm²,单步实现。
· SoC性能核心能效 / 频率增益:+41% / +13%。
· SRAM工作频率:提升超过40%。
· 代表性核心上的时钟缓冲器数量 / 时钟偏斜 / 线长:-50% / -25% / -30%。
4. 从皮秒到微秒:AI数据中心中的τ缩微
一个自然的问题是,在毫瓦级智能手机场景中形成的原则,是否能够迁移到吉瓦级AI训练和推理系统中。AI工作负载位于τ光谱的另一端:它面对的并非单颗芯片,而是数百乃至数千颗芯片像一台机器一样协同运行。过去十年,AI系统的总算力大约增长了六个数量级。
答案是肯定的,前提是将τ作为系统级目标,并把它应用于整条链路,而不是局限在单个加速器内部。
两个事实塑造了AI场景中的τ论证。
其一,AI系统仍在持续扩张,从一颗芯片到数十颗、数百颗,并越来越多地走向数万颗。
其二,现代AI系统的能耗预算和材料预算主要由数据主导,而非由计算主导。在大型AI集群中,超过80% 的能量被消耗在数据移动上;超过70% 的系统成本分配给数据存储。
其含义十分直接:减少数据在芯片之间、机架之间以及封装内部传输所花费的时间,至少与减少计算本身所花费的时间同等重要。
在AI规模上,τ尺度微缩通过三个协同层实现:系统互连结构Unified Bus、近封装光引擎Hi-ONE,以及封装本身的拓扑重组3D Folding。
4.1Unified Bus:以τ为优先的系统互连架构
传统的多节点、多加速器架构需要让数据穿过多层叠加协议: PCIe连接主机,机箱内部的NVLink或专有互连,机箱之间的Ethernet或InfiniBand,以及其上的软件栈远程内存访问。每一层都会带来协议转换、额外序列化、额外DMA缓冲和进一步握手。每一次转换都会增加延迟,降低可靠性,并带来额外成本。
Unified Bus,简称UB,用单一协议取代这一堆栈。该协议可在机箱内部和机箱之间运行,是一种完全点对点的互连结构,能够在整个系统内原生暴露内存语义。数据移动被简化为内存语义层上的无转换点对点传输,并用硬件管理一致性取代软件栈消息传递。
测得收益约为两个数量级:端到端远程访问延迟从TCP/IP类协议栈中常见的数十微秒,下降到约100ns。沿主导通信轴的系统τ约降低500倍。在机架尺度上,这使系统逐渐接近一台具备结构一致性的单体机器,内部称为System-as-One-Chip(系统即单芯片)。
4.2Hi-ONE:封装级光I/O
当通信延迟被降低后,新的瓶颈会发生转移。提高单个机架内芯片密度会把功率密度和可靠性推至极限,也会把电气SerDes推至极限。在每颗AI芯片400Gb/s的速率下,铜缆仍然是成熟可靠的方案。但进入每颗芯片多Tb/s级别后,铜缆在物理上变得不切实际:SerDes传输距离缩短,线缆变得过于笨重,面板安装难以实现,散热与供电裕量也会被耗尽。
华为半导体开发的方案是 高密度光互连节点引擎Hi-ONE(High-density Optical-interconnect-Node Engine),一种近封装光引擎,每个模块可提供8Tb/s带宽,使单条光链路就能够匹配一颗AI芯片的UB带宽。它将所需SerDes传输距离从约100cm缩短至约5cm,消除了笨重线缆,并将传输距离从不足1米扩展至100米,使分布式、吉瓦级数据中心的高密度互连在物理上成为可能。
Hi-ONE背后的设计哲学本身也是一种τ尺度微缩论证。它没有采用重型DSP来追求高信号保真度,而是采用线性方案,即增强型模拟均衡驱动器和跨阻放大器,并允许UB协议容忍一个有意放宽的误码率。
协议层与物理层之间的这种跨层取舍,降低了功耗、成本和集成复杂度,也体现了以τ为优先目标的方法论所鼓励的跨层权衡。4.3N²与N的困境,以及3D Folding的必然性AI加速器不会停留在2.5D扇出封装的最深层原因是几何性的。这一点值得明确说明,因为它决定了2030年之后的路线图。
在传统2.5D AI芯片中,逻辑裸片位于封装中心,HBM堆栈和SerDes排布在边缘,电压调节器围绕封装布置。每一条内存信号、每一条互连信号以及每一安培供电电流,都必须穿过裸片边缘才能到达内部计算资源。若裸片边长为N,则:
·计算能力按N²(面积)缩微
·但内存带宽、互连和供电都沿边缘通过2.5D扇出承载,只能按N(周长)缩微。
平方增长曲线与线性增长曲线之间不断扩大的背离,构成了扇出困境。无论底层逻辑节点多么激进,2.5D微缩都会因此停滞。晶体管层面的改进无法弥补拓扑结构上的缺陷。
3D折叠通过把原本受边缘限制的资源迁移到表面来解决这一困境。供电通过背面供电和集成电压调节器实现,高速内存通过混合键合连接逻辑,光I/O通过近封装Hi-ONE实现,它们全都从周长迁移到垂直表面。一旦资源位于表面上,就可以按N²缩微,从而匹配计算能力的平方增长。封装不再是一个由内存和SerDes周边带环绕的逻辑裸片,而变成一个垂直集成的堆栈,内存、互连、供电和逻辑共同微缩。
该路线图给出了明确时间线。大约到2030年之前,AI加速器,即Ascend SuperPoD系列,包括2025年的Ascend910C、2026年的Ascend950,以及后续Ascend990,将依赖成熟技术组合:chiplet、2.5D扇出,以及基于微凸点和标准间距混合键合的3D堆叠。大约在2030年,Ascend990将把逻辑折叠引入AI加速器类别。此后,3D折叠将成为2035年之前承载 α 增长的主要机制。沿着这一路径,到2035年,硬件集成度预计增长超过100倍,τ的降低将分布在技术栈的每一层,而不再集中在器件层。
边栏B:AI系统尺度上的τ
·UB远程访问延迟:约数十μs → 约100ns(≈500倍τ缩减)
·Hi-ONE单模块带宽:8Tb/s,与单芯片UB带宽匹配。
·Hi-ONE SerDes传输距离:从约100cm缩短至约5cm;面板到面板传输距离从<1m → 100m
· 扇出困境:计算 ∝ N²,而受周边限制的带宽、I/O和供电 ∝ N。
· 3D Folding:把带宽、光I/O和供电从边缘迁移到表面,恢复N²对等增长。
· 2026年至2035年预计硬件集成度增长:超过100倍。
5. 逻辑与存储:从解耦到重新融合
τ微缩的一个含义值得单独讨论,因为它既有技术后果,也有产业后果。
在8086时代,产业通过标准化内存总线,有意将处理器和存储器解耦。解耦使两个产业能够独立微缩与演进:处理器性能沿摩尔曲线快速提升,存储厂商也在其旁边发展出一个庞大的独立市场。
AI时代正在逆转这种解耦。计算密度的持续扩张正在把储存带宽、延迟、功耗和封装推向极限。HBM、混合键合和3D堆叠SRAM都是同一底层事实的表现:对于现代AI工作负载而言,数据移动与计算本身同样关键,逻辑和存储正在重新被推向紧密的物理集成。随着二者融合,供应链中的影响力平衡也正在转向存储和封装厂商。
技术方向十分明确,但经济层面的解决方案尚未确定。AI硬件时代的长期成功,将属于那些既能在技术上融合逻辑与存储,又能建立经济合作机制、让两个产业长期共享融合收益的企业。
这不仅是一个研究问题,也是未来十年产业必须处理的结构性问题。τ微缩使每一次分离所带来的跨层成本变得可见,也使这个问题无法再被推迟。
6.开放性挑战
如果把τ微缩描述成一个完善的系统,将会产生误导。仍有若干实质问题有待解决。本文列出这些问题,既是为了说明正在推进的工作,也是在邀请合作。
工具链与方法论:今天的EDA诞生于一个将面积、时序和功耗作为三个独立轴进行优化的时代,系统τ仅作为残差。
全面逻辑折叠要求工具链把多个堆叠裸片视为一个连续设计实体,在单元粒度而非模块粒度上划分逻辑,在统一成本函数下对整个三维体积进行布局,并在跨裸片路径上完成时序收敛。垂直互连寄生参数、KOZ排斥区和晶圆间工艺变化会在这些路径上发生交互,这是传统2D工具无法充分处理的。
初步内部工具已经开发出来,并产生了有效结果。方法论细节将在未来几个月发表。面向τ的原生工具链,需要具备开放性、多物理场能力和三维原生能力,这是未来十年最重要的赋能投资。
晶圆间工艺偏差:逻辑折叠会把来自潜在不同批次,某些情况下甚至不同节点的晶圆键合在一起。晶圆间的阈值电压、驱动电流和互连RC变化显著大于晶圆内部偏差,而且最集中地影响时钟分配和保持时间裕量。智能冗余、自适应补偿和τ感知的签核流程,都是应对这一问题的必要组成部分。
垂直互连开销:每一个混合键合点和每一个TSV都会带来有限电阻和电容惩罚,TSV的KOZ还会占用标准单元区域。因此,逻辑折叠必须在每一层上通过一个简单不等式逐层证明:
![]()
这一阈值已经在移动关键路径和存储上被跨越。不同工作负载下阈值并不相同,随着键合间距缩小,这一边界还会移动。
能源:τ是时间定律,而非焦耳定律。一个运行速度快10倍但功耗高10倍的超级节点,并没有违反缩微原理,却可能超出电网承载能力。
因此,τ尺度微缩需要一个能源层面的伴侣原则:采用内存语义互连架构以消除堆栈开销,采用近封装或共封装光学器件以按数量级降低每比特皮焦能耗,采用背面供电,采用存内或近存计算,并在实践中审慎地把τ裕度转化为功耗收益。这类似于数据中心尺度上的DVFS,与智能手机延长续航的机制相同。
重要的是,τ裕度本身在被分配到能耗方向时,也会提供能源裕度。
基准测试:当前行业中的性能基准,如Linpack、MLPerf和SPEC,是为一个工作负载只需要一个标量指标的时代设计的。τ缩微所要求的产业基准应为τ剖面基准,即以向量形式暴露系统每一层的主导τ,以及该层剩余优化空间。主导τ层,按定义就是下一轮投资方向。
07.六年回顾,十年展望
2020年5月至2026年5月期间,华为半导体设计并量产了381颗芯片,服务于移动、AI、汽车、工业和基础设施市场。在整个产品组合中,τ缩微论点经受住了考验:
·在器件和电路层,晶体管密度已从155向400+MTr/mm²(到2031年)提升。
·在芯片层,LogicFolding在前沿移动SoC上已经证明,关键路径频率、功耗效率和密度可以在固定的器件节点上持续提升。
·在系统层,Unified Bus和Hi-ONE已经证明,数百微秒的通信τ可以被压缩至数百纳秒,多机架AI集群可以表现为单一的一致性机器。
展望未来,CPU性能核心频率预计到2029年将迈向4GHz及以上,麒麟SoC效率预计在三到五年内在典型使用下将提升1倍以上,AI硬件集成度预计到2035年将增长100倍以上。
超越任何单一产品的更深层主张是方法论层面的。τ缩微是自Dennard以来第一个为整个堆栈提供共享优化目标的缩微原则。
它向工艺技术人员、电路设计师、架构师、系统工程师和软件团队发出信号:这些群体现在正在以相同的单位优化相同的量,任何单层的改进必须传导至系统τ才算有效。
它也向行业战略家和资本配置者表明,下一笔投资应跟随τ而非节点——竞争性的性能不再要求常驻在光刻技术的最前沿,而封装、存储带宽和互连架构设计现在承载着此前仅由前沿逻辑节点所拥有的战略权重。
对于在成长过程中将“摩尔定律”等同于“进步”的一代工程师而言,这是一个困难的转变。几何时代事实上已经结束;否认这一事实不是可行的策略。通过缩微实现加速的时代正在让位于通过多层电子系统的τ优化实现加速的时代——而在未来六到十年中以τ为首要目标的公司、研究团体和生态系统,将决定此后十年计算的面貌。
未来十年的工作范围已经划定。许多开放问题仍然存在,没有任何单一组织可以独自解决——工具链、标准、基准、器件物理和经济模型都需要超越任何单一公司的贡献。
因此,本文既是一份来自前线的报告,也是一份邀请。前方的路线图要求苛刻,但方向是明确的。
致谢
本文汲取了华为半导体及其晶圆代工、设备、EDA和系统合作伙伴生态系统中数千名工程师六年工作的成果。作者感谢那些以耐心使这项工作成为可能的客户。
Further Reading
1. G. E. Moore, "Cramming more components onto integrated circuits," Electronics, vol. 38, no.
8,pp. 114–117, Apr. 1965 (reprinted in Proc. IEEE, vol. 86, no. 1, Jan. 1998).
2. R. H. Dennard et al., "Design of ion-implanted MOSFETs with very small physical
dimensions," IEEE J. Solid-State Circuits, vol. 9, no. 5, pp. 256–268, 1974.
3. J. L. Hennessy and D. A. Patterson, "A new golden age for computer architecture," Commun.
ACM, vol. 62, no. 2, pp. 48–60, Feb. 2019.
4. M. Horowitz, "Computing's energy problem (and what we can do about it)," ISSCC Dig. Tech.
Papers, pp. 10–14, Feb. 2014.
5. International Roadmap for Devices and Systems (IRDS) — Interconnect and More-than
Moore chapters, 2023/2024 update.
6. P. Batude et al., "3D sequential integration: a key enabling technology for heterogeneous co
integration of new functions with CMOS," IEEE J. Electron Devices Soc., vol. 3, no. 3, pp. 205–
216, 2015.
本文系观察者网独家稿件,未经授权,不得转载。





京公网安备 11011402013531号