![]()
在科技圈一直流传着一个让人浮想联翩的设想:如果有一天,AI能够自己设计出更聪明的AI,那会是什么样的景象?这听起来像是科幻电影里的桥段,但Meta公司旗下的FAIR(基础AI研究)实验室真的把这件事做成了。这项研究由Meta FAIR团队于2026年5月发布,论文编号为arXiv:2605.15871v1,发表日期是2026年5月18日。有兴趣深入研究的朋友可以通过这个编号查阅完整论文,里面有大量的技术细节和实验数据。
要理解这项研究的意义,我们可以把它想象成一场建筑设计大赛。过去,AI模型的"建筑图纸"都是由人类工程师精心绘制的——他们决定每一层楼用什么材料、放置多少房间、采用什么样的结构。但Meta的研究团队这次做了一件大胆的事:他们把AI研究员从建筑师的位置上请下来,让AI自己当建筑师,去设计一栋栋全新的"AI大楼"。结果令人惊讶——这些AI建筑师不仅设计出了能用的房子,有些设计甚至比人类专家的作品还要出色。
一、为什么我们需要让AI自己设计AI
要明白这项研究的重要性,我们得先回到当今AI世界的核心问题。现在几乎所有的大型语言模型,从ChatGPT到Gemini,都建立在一种叫"Transformer"的架构之上。把它想象成一种特别流行的房屋设计风格,就像现在城市里到处都能看到的那种现代公寓楼。这种设计很成功,但它有个明显的缺点:当房间数量增加时,房子的造价会急剧飙升。
更具体一点说,Transformer架构里有个核心组件叫"注意力机制",它的计算成本会随着处理的文本长度呈平方级增长。这就好比你想招待两个客人很容易,但当客人变成两百个时,你需要操心的事情可不只是多了一百倍——而是要照顾到每两个客人之间的关系,工作量瞬间爆炸。
为了解决这个问题,研究人员开始探索一种叫做"混合架构"的新思路。打个比方,与其建一整栋全是同样户型的公寓楼,不如把不同功能的房间巧妙组合:客厅用一种结构,卧室用另一种结构,厨房又是第三种。这样既能保留每种结构的优点,又能避免单一结构的弱点。这种思路催生了像Mamba(一种新型计算结构)这样的"建筑材料",它的成本只随长度线性增长,比传统注意力机制经济得多。
但问题来了:当可选的"建筑材料"越来越多时,怎么组合它们就成了一个让人头疼的难题。假设你有三种材料,要建一栋16层的楼,那总共有多少种组合方式呢?答案是惊人的4300万种。靠人类一个个试,恐怕一辈子都试不完。这就是研究团队希望AI能帮忙解决的问题。
二、两个互补的方法:高层规划师与底层工程师
研究团队开发了两套互补的系统,分别叫做AIRA-Compose和AIRA-Design。延续我们的建筑比喻,可以这样理解:AIRA-Compose就像是一位高层规划师,他不需要自己烧砖砌墙,而是从一堆现成的"预制构件"中挑选并组合,决定每一层应该用哪种构件。而AIRA-Design则像是一位底层工程师,他不仅要规划,还要亲手设计和制造全新的建筑构件。
这两个系统都建立在一个叫AIRS-Bench的研究平台之上。这个平台就像是一个标准化的"建筑工地",提供了统一的工具、材料和评分标准,让不同的AI建筑师可以在同样的条件下比拼实力。每个研究任务都被精确定义为"问题、数据集、评分标准"三要素的组合,确保每次比赛都公平公正。
AI建筑师们工作时有几种不同的工作方式。"草拟"模式相当于画初稿——AI根据自己的理解,凭空构想一个设计方案。"调试"模式则像是发现图纸有错误后的修改工作。"改进"模式让AI在现有方案基础上做优化,争取更好的成绩。"分析"模式则让AI回顾自己之前的工作,从中学习和总结。
研究团队主要使用了两种工作策略。"单次出手"策略就像让AI一次性交出最终答案,没有反复修改的机会。"贪婪搜索"策略则更像是真实的研发过程:AI先画出五个不同的初步方案,然后挑出最有潜力的那个继续完善,不断迭代直到时间用完。每个AI建筑师有24小时的工作时间和一块H200显卡可以使用,在这段时间里,它们能尝试100到200种不同的设计方案。
三、AIRA-Compose:让AI挑选和排列预制构件
研究团队让11个不同的AI模型(包括o3-mini、GPT-4o、gpt-oss-20b、gpt-oss-120b、CWM和GPT-5等)来扮演建筑师的角色。这些AI建筑师面对的是一个相对受限但仍然复杂的任务:从给定的几种计算"构件"中选择并排列,组装成一个16层的小型建筑模型,然后用它的表现来预测放大后的效果。
研究使用了三种基本构件。第一种是MLP(多层感知机),可以理解为最基础的"砖块",负责一般的信息处理。第二种是多头注意力机制(标记为mA),这是Transformer架构的核心组件,相当于建筑里的"中央调度系统",能让不同位置的信息相互沟通,但成本较高。第三种是Mamba2状态空间模型(标记为Mb),这是新一代的"高效传送带",能以更低的成本处理长距离信息流动。
在两种构件(仅MLP和注意力)的搜索空间中,总共有约6.5万种可能的组合方式。而扩展到三种构件后,组合数量爆炸式增长到4300万种。AI建筑师们在这片浩瀚的可能性海洋中航行,每一步都做出有理有据的选择。
这里有个特别有意思的现象。当研究人员观察GPT-5这位AI建筑师的工作过程时,发现它会在每个设计节点详细阐述自己的设计理念。比如它可能会说:"我打算设计一个倒漏斗形状的混合架构,前端密集排布Mamba构件形成处理通道,后端则用注意力机制形成级联结构,并由稀疏的MLP构件作为边界进行调节。"这种思考方式与传统的搜索算法完全不同——传统方法只是机械地尝试各种排列组合,而AI建筑师会运用自己对问题的理解,做出有目的、有逻辑的设计选择。
通过这种方式,AI建筑师们设计出了多种全新的架构。研究团队将它们归为两大家族:AIRAformers家族(使用注意力和MLP两种构件)和AIRAhybrids家族(同时使用注意力、MLP和Mamba三种构件)。
四、AIRAformers家族:六个设计师之子的诞生
在两种构件的搜索空间里,研究团队总共积累了2307种独特的设计方案,相当于探索了整个可能性空间的3.17%。经过严格的筛选和聚合,最终诞生了六个有代表性的AIRAformer架构,分别叫做A、B、C、D(其中C和D各有两种变体)。
有趣的是,尽管这些架构来自不同的聚合方法和不同的AI建筑师,它们最终却展现出了惊人的趋同性。AIRAformer A和B的注意力与MLP比例稳定在7比9,而C和D则是11比5。这就好比不同流派的建筑师,经过反复试验,最终都收敛到了某些类似的"黄金比例"。
为了验证这些设计的实际效果,研究团队把每个架构都扩展到了10亿参数规模,并用统一的375亿个文字单元(相当于读完一整座小型图书馆的文字量)对它们进行训练。结果非常有说服力。原本的Llama 3.2基准模型在六项下游任务上的平均准确率是57.5%,而最强的AIRAformer-D(Stretched变体)则达到了59.7%,这是一个显著的提升。在更全面的DCLM Core评分(涵盖14项任务)上,AIRAformer-D拿到了48.9分,比Llama 3.2的46.9分高出整整两个百分点。
除了准确率,研究团队还测试了这些架构的"扩展效率"——也就是当你投入更多计算资源时,性能能提升多快。AIRAformer-C和AIRAformer-D的Stacked变体表现出了比Llama 3.2更陡峭的扩展曲线,这意味着随着模型规模的增大,它们的优势会越来越明显。比喻地说,如果Llama 3.2是一辆普通轿车,那这些新设计就像是一辆运动跑车——起步可能差不多,但加速性能更强。
五、AIRAhybrids家族:当三种构件碰撞融合
进入三种构件的设计空间后,挑战变得更加有趣也更加复杂。研究团队让六位AI建筑师在这个广阔得多的可能性海洋中探索,最终从170次设计任务中收获了2248种独特方案——仅占整个搜索空间的0.0052%,但已经足以发现可靠的模式。
最终诞生了五个AIRAhybrid架构(A到E,部分有Stacked和Stretched两种变体)。这些设计中,AIRAhybrid-D(Stretched变体)成为了最耀眼的明星。它在10亿参数规模上取得了2.719的验证损失,是所有测试架构中最低的(损失越低代表性能越好)。在下游任务的平均准确率上,它达到了60.5%,比Llama 3.2提升了3.8个百分点。
研究中还出现了一些反直觉的发现。研究人员对比了AIRAhybrid-C这种注意力较多的设计和注意力较少的设计在不同计算预算下的表现。在固定计算预算的情况下,平衡型设计(Mamba、MLP、注意力比例较均衡)表现更好。但当我们关注扩展能力时,注意力更多的AIRAhybrid-C反而展现出了最陡峭的进步曲线(斜率比Nemotron-2陡峭0.14)。这就好像两个赛跑运动员,一个起跑快但后劲不足,另一个起跑慢但越跑越快。对于追求长期成长性的应用场景,后者反而更有价值。
更让人惊喜的是,当研究团队把模型延迟(也就是响应速度)和验证损失同时考虑时,AIRAhybrid-D的两个变体打破了之前由Composer方法建立的最优边界。它们不仅性能更好,响应速度还更快——典型的"既要又要"的好例子。
六、AIRA-Design:当AI亲自动手设计计算构件
如果说AIRA-Compose让AI扮演的是建筑师,那AIRA-Design则更进一步,让AI变成了从材料到结构都一手包办的全能工程师。在这部分研究中,AI需要从零开始编写完整的代码,实现全新的注意力机制和训练流程。
研究团队选择了两个极具挑战性的测试场景。第一个是Long Range Arena(长距离竞技场,简称LRA)基准测试。这是个专门考验AI模型处理长文本能力的标准化考场,要求AI设计出能够处理2000到4000个文字单元的高效注意力机制,而且必须避开传统注意力机制的平方级成本陷阱。第二个是Autoresearch基准测试,这是一个完全开放的优化挑战,AI需要在5分钟的训练时间预算内,把一个基础的语言模型训练得越好越好。
在LRA测试中,研究团队部署了20个不同的AI工程师,包括GPT-5、o3、Opus 4.5、Opus 4.6、Gemini 3 Pro、Gemini 3.1 Pro等当今最先进的AI模型。这些工程师面对三个具体任务:IMDB电影评论的情感分类(判断评论是正面还是负面)、ListOps数学表达式计算(处理嵌套的数学运算)、以及ACL Anthology的论文检索(判断两篇学术论文是否相关)。
Gemini 3 Pro在贪婪搜索模式下表现最为亮眼,在大多数任务上都取得了最高的平均准确率。在文本分类任务上,它达到了88%的准确率,距离人类专家创造的91%的最佳水平只差不到3个百分点。Opus 4.6在ListOps和Retrieval任务上则拔得头筹,分别达到51%和79%的准确率。
研究人员对AI工程师们设计出的方案进行了仔细分析,发现了一个有趣的现象:这些AI虽然能熟练运用各种已知技术(比如线性注意力、分层池化、块状局部注意力等),但很少能创造出真正全新的算法思想。它们更像是经验丰富的工程师,能巧妙地组合现有的技术解决具体问题,但还不能算是开创新理论的科学家。
另一个值得关注的发现是,"一次出手"模式下的AI工程师没有一个能成功提交有效解决方案。这告诉我们,对于这种复杂的代码编写任务,迭代式的反复修改和验证是必不可少的——AI也需要"试错"。
七、Autoresearch挑战:5分钟内的极限优化
Autoresearch任务可以说是整个研究中最刺激的部分。研究团队给7个AI工程师提供了一个基础的GPT语言模型训练脚本,然后让它们想尽办法在5分钟的训练时间内,把模型的"验证损失"(用一个叫做"每字节比特数"或BPB的指标衡量,越低越好)降到最低。
这就像是一场限时5分钟的烹饪比赛,AI需要决定使用什么食材(模型架构)、用什么火候(学习率)、多大的锅(批次大小),才能在5分钟内做出最好吃的菜(训练出最好的模型)。基础脚本的成绩是BPB 1.0121。
特别有意思的是,研究团队还做了一个对比实验:给一部分AI工程师额外提供了一份"参考资料",包含41篇相关研究论文的结构化摘要和14个参考代码库。这就好比在烹饪比赛中给参赛者发一本菜谱大全。结果表明,这本"菜谱"的效果因人而异——Opus 4.6看了菜谱后表现略有提升,但GPT-5和Opus 4.5在看了菜谱后反而发挥不如本来。
最终的冠军是Opus 4.5(带文献版本),它的最佳成绩是BPB 0.968,不仅超过了基础脚本,还超过了Autoresearch项目自己公布的最佳成绩0.9775。
研究人员仔细分析了Opus 4.5是如何一步步达到这个成绩的。在第一步,它把模型变深了(从8层加到10层),同时调高了嵌入学习率,并改变了训练计划。第二步是最关键的一步,它降低了模型的某些参数初始化,调整了归一化步骤,把模型变窄了一些(从64调到56),最重要的是用一种叫"focal loss"的损失函数替换了传统的交叉熵损失函数。这一步直接让损失从1.004降到0.968,是整张表中最大的单步提升。
不同AI工程师展现出了截然不同的优化风格。Opus 4.5习惯先扩大模型尺寸再做微调,Opus 4.6则倾向于一次性做多个改动然后部分回退。带文献版本的Opus 4.6表现得最有耐心,连续做了6步小幅但稳定的改进,每一步都是精雕细琢。
八、为什么这些AI建筑师还做不到全部
尽管成绩亮眼,研究团队也坦诚地指出了当前AI建筑师们的局限。在LRA任务上,AI设计出的方案大多是已有技术(比如Performer、Longformer、Conformer等)的巧妙重组,而非真正全新的理论创新。这就好比一个建筑师能够灵活运用各种现有建筑风格组合出漂亮的房子,但还不能开创一种全新的建筑流派。
另外,AI工程师们对编程语言也有偏好。研究发现它们在PyTorch(一种流行的深度学习框架)上很熟练,但在LRA测试要求的JAX/Flax框架上就有些笨拙,这影响了它们的发挥。
在Autoresearch任务上,AI工程师每次都要从头重写整个训练脚本,而不是像人类工程师那样做精准的小修改。这种"全文重写"的方式让我们很难判断到底是哪个改动起了作用——AI往往一次性修改多个变量,让因果分析变得困难。
配置灵活性的影响也很微妙。当研究团队给AI更多自由度(允许它们自己设定超参数)时,反而有些较弱的AI模型表现退步了。比如CWM和Devstral的成绩分别下降了11.5和10.8个百分点。这告诉我们,更多的自由不总是好事——只有具备足够能力的AI才能利用这些自由度,能力不足的AI反而会在更大的搜索空间中迷失方向。
九、这项研究对我们意味着什么
回到最初的问题:让AI自己设计AI,到底有什么用?
从最直接的层面看,这项研究证明了AI已经具备了协助甚至独立完成神经网络架构设计的能力。研究团队发现的AIRAformer和AIRAhybrid系列架构,在多项基准测试中超越了Llama 3.2和Nemotron等业界标杆模型。具体来说,AIRAformer-D在下游任务上比Llama 3.2提升了2.4个百分点,AIRAhybrid-D则提升了3.8个百分点。这些不是小打小闹的进步,而是足以影响实际产品性能的重要改进。
在扩展效率方面,AIRAformer-C的扩展速度比Llama 3.2快54%,比最好的Composer发现的Transformer快71%。AIRAhybrid-C则比改良版Nemotron-2快23%,比最好的Composer发现的混合架构快37%。这意味着投入同样的计算资源,新架构能训练出更强的模型,或者训练出同等性能的模型需要更少的资源——这在动辄需要数百万美元训练费用的大模型时代,是非常实际的经济价值。
从更宏观的层面看,这项研究是迈向"递归自我改进"的重要一步。这个概念意味着AI能够设计出更好的AI,而更好的AI又能设计出更好的AI,如此循环。这种循环一旦真正建立起来,AI的能力提升速度可能会大大超过完全依靠人类工程师的现有模式。
对普通用户来说,这种进步最终会以更聪明、更便宜、响应更快的AI产品的形式体现出来。今天你用的智能助手如果需要花几秒钟思考一个问题,未来同样能力的助手可能瞬间就能给你答案,而且运行成本可能只有现在的零头。
研究团队也展望了未来的发展方向。他们希望把AIRA-Compose的方法用在更先进的AI研究框架上,让多块显卡协同工作,从而能够直接在更大规模的模型上做架构搜索。他们也希望AI不仅能搜索和评估架构,还能自主地完成聚合和扩展步骤,实现端到端的自主化设计。
说到底,这项来自Meta FAIR实验室的研究告诉我们,AI正在从单纯的工具进化为能够参与自身设计的合作伙伴。这个转变虽然刚刚开始,但已经显示出了改变整个AI研究格局的潜力。下一次当你使用某个AI产品时,也许其中的一部分设计就是由另一个AI完成的——这听起来像科幻,但已经在实验室里成为现实。如果你对这种"AI设计AI"的奇妙过程感到好奇,强烈推荐去查阅原论文(arXiv编号2605.15871v1),里面有大量精彩的技术细节和实验数据,会让你对这场静悄悄发生在Meta实验室的革命有更深入的理解。
Q&A
Q1:AIRA-Compose和AIRA-Design这两个系统有什么区别?
A:可以把它们想象成两种不同层次的建筑师。AIRA-Compose像高层规划师,从预先定义好的几种构件(MLP、注意力、Mamba)中挑选并排列组合,决定怎么搭建一个16层的模型架构。AIRA-Design则像底层工程师,需要从零开始亲自编写代码,设计全新的计算构件和训练流程,挑战更大但创新空间也更大。
Q2:AIRA-Compose找到的新架构比Llama 3.2好多少?
A:在10亿参数规模、相同训练数据量的条件下,最强的AIRAformer-D在下游任务上比Llama 3.2提升了2.4个百分点,AIRAhybrid-D提升了3.8个百分点。在扩展效率上,AIRAformer-C比Llama 3.2快54%,AIRAhybrid-C比改良版Nemotron-2快23%。这些数字意味着用同样的计算资源能训练出明显更强的模型。
Q3:让AI设计AI已经能完全取代人类研究员了吗?
A:还远远不能。研究发现,AI虽然擅长组合现有技术解决问题,但还不能创造真正全新的理论。它们设计出的方案大多是Performer、Longformer等已有技术的巧妙重组。AI在工程实现层面表现出色,但在原创性科学发现上还需要人类研究员的指导。这项研究更应该被看作是人机协作的新模式,而非完全替代。





京公网安备 11011402013531号