美西时间12月2日早8点,“云计算春晚”亚马逊云科技 re:Invent 2025大会迎来重磅环节,亚马逊云科技首席执行官 Matt Garman在两个小时的高强度输出中,发布了一系列产品和服务。
自研AI芯片Trainium和Nova模型都足够引人注目,这也是行业行尤为关注的两个极端,上至模型,下至芯片,模型天梯榜上你方唱罢我登场,AI芯片前有英伟达后有谷歌TPU等,然而行业往往容易忽略一个关键的事实:
仅靠模型和芯片无法跑通大模型商业化的正循环,真正让大模型的价值落地,需要在硬件与软件的每一层进行优化,芯片和模型是其中的重要组成,但不是全部。
“而这正是只有亚马逊云科技能做到的。事实证明,没有捷径可走。”Matt Garman如此表示。
Matt Garman的自信,从哪来的?
Matt Garman的三个问题,AI产业的真正拐点
不论是推出第一个产品S3的时候,还是AI正在重塑一切的当下,亚马逊云科技都保持着第一性原理。
Matt Garman表示,每天驱动我们的,是让所有人都拥有自由创新的能力。这从亚马逊云科技诞生的第一天起就是我们的使命。我们希望让宿舍里的学生、车库里的发明者,都能够访问所需的技术、基础设施和能力,从而构建他们所想象的一切。
在20年前,这几乎是不可能的。开发者无法在不投入大量时间和资金的情况下获得所需的服务器或算力,而那时他们花了太多时间在采购服务器、管理基础设施上,却没能真正用在构建创新上。
![]()
“为什么开发者不能专注于构建,而不是花时间在基础设施上?为什么不能把实验所需的时间和成本降到接近零?为什么不能让每一个想法都成为可能?”Matt Garman这三个问题,就是亚马逊云科技一直以来要回答的核心问题。
过去二十年,亚马逊云科技几乎实现了目标。亚马逊云科技如今已发展成为一家1320亿美元规模的业务,同比增长速度加快至20%。仅在过去一年里,其业务营收新增220亿美元,绝对增长数字超过《财富》500强企业中一半以上公司全年的收入规模。
亚马逊云科技如今拥有全球规模最大、部署最广的AI云基础设施。全球数据中心网络覆盖38个区域、120个可用区,并且已经宣布规划新增三个区域。仅在过去一年,就新增了3.8吉瓦的数据中心容量,规模位居全球首位。
但,技术是永无止境的,大模型来了,开发者们又要再一次面对那些旧问题。“我们仍然处在 AI 所能带来的未来的早期阶段,这项技术的迭代速度比我们任何人以往见过的都要快。就在不久之前,我们大家都还在测试和试验聊天机器人,而现在几乎每天都有新东西出现。但当我与客户交流时,包括在座许多朋友,你们其实还没有看到与AI承诺相匹配的回报——AI的真正价值尚未完全释放,不过这一切正在快速改变。”Matt Garman说。
坦白讲,起初外界看到亚马逊云科技在模型层和芯片层,没能取得碾压性的优势,市场对亚马逊云科技的预期有所降低,而当大模型越来越落地之后,一个真正的拐点浮现——AI Agent。
AI助手正在逐渐让位于AI Agent。它们能够理解意图、执行任务,并自动处理工作,也是在此阶段,企业从AI投资中获得实质性回报。
“我相信,AI Agent的出现正在把我们带到AI发展的关键拐点。AI正在从技术奇观转变为真正带来实际价值的能力。”Matt Garman表示,他甚至将AI Agent类比为互联网或云的出现。“未来每家公司、每一个可以想象的领域中都会运行着数十亿个Agent。”
如此便能看出,亚马逊云科技的真实意图,并不是为了替代英伟达、谷歌而做Trainium自研芯片,也不是为了打败OpenAI和Anthropic而做Nova模型,亚马逊云科技关心的是——
Agentic AI时代,如何重新构建AI基础设施、更好的模型选择以及将Agent部署到关键业务场景所需的整套工具链和平台。
AI基础设施:既要英伟达GPU,也要Trainium4
Agent发挥价值的先决条件是AI基础设施。“首先,是拥有最具扩展性、最强大的 AI 基础设施来驱动一切。其次,你必须拥有一个高度可扩展且安全的云,为你的 AI 工作负载提供最佳性能,并在模型、训练、定制化以及推理的整个过程中,以尽可能低的成本实现这些能力。”Matt Garman表示。
GPU依然是当前AI基础设施的核心,Matt Garman提到,亚马逊云科技则是运行 GPU 的最佳场所,作为第一家在云上提供视频GPU 的厂商,亚马逊云科技在大规模 GPU 集群的稳定性与可靠性上建立了全行业领先优势,甚至到了调试BIOS以避免GPU重启这样的细节。
P6E GB300系列正式发布,采用英伟达最新的 GB300 NVL72 系统,英伟达自家的大规模 GenAI 集群 Project Ceiba,就运行在亚马逊云科技上;OpenAI 也在积极使用亚马逊云科技来支撑其核心业务。
据悉,OpenAI等大型企业正在使用拥有数十万颗 GPU 的 EC2 UltraServers 集群,目前基于 GB200,且即将升级至 GB300 系列。他们还会将规模扩展至数千万级 CPU,以管理庞大的 Agent 工作流,支撑 ChatGPT 等应用的全球访问需求,并用于训练下一代模型。
下面为你整理为更正式、书面化的段落,结构更紧凑、表达更稳健,可直接用于发布稿、技术材料或领导讲话稿:
本次推出的Amazon AI Factories是大型企业格外关注的基础设施形态。通过这一产品,客户能够在其自有的数据中心内部署由亚马逊云科技提供、并完全独享的 AI 基础设施
![]()
简单理解,AI Factories是一个“客户专属的亚马逊云科技私有区域”——客户利用自身已有的数据中心空间与供电能力,同时依然能够访问亚马逊云科技领先的 AI 训练集群、最新一代 Nvidia GPU,以及 Amazon SageMaker、Amazon Bedrock 等核心 AI 服务。
AI Factories 为单一客户独立运行,提供物理与逻辑上的严格隔离,同时保持与亚马逊云科技一致的安全性、可靠性与可用性,并满足各地在合规与数据主权方面的最高标准。
接下来是关注度极高的AI芯片,亚马逊云科技已经构建出覆盖训练、推理和通用计算的完整算力矩阵,其中,Trainium 是其专门为 AI 工作负载研发的芯片,很多人以为它是为训练任务打造的超强芯片,但是不止于此,Trainium 2 目前已成为全球性能最强的推理系统之一。
如今在 Amazon Bedrock 上运行的大部分推理任务都是由 Trainium 驱动的,譬如企业客户在 Bedrock 上使用最新一代的 Claude 模型,这些推理全部运行在 Trainium 上,并且提供了业界领先的端到端响应速度。
据悉,亚马逊云科技已经部署了超过 100 万颗 Trainium芯片,之所以能够以如此速度部署百万级规模,是因为亚马逊云科技掌控整个技术栈,从芯片、系统、网络到数据中心端到端优化,部署效率极大提高。
Matt Garman透露,“我们在数据中心部署Trainium2的速度,比我们过去部署任何芯片的速度都快好几倍。这是我们迄今部署速度最快的AI芯片,我们现在的销售速度几乎和产能齐平。仅训练芯片这一部分,今天已是一个数十亿美元规模的业务,并且仍在快速增长。”
![]()
亚马逊云科技在去年官宣布的新一代芯片 Trainium 3,也有了新进展,目前Trainium 3 UltraServers 正式可用,这是目前行业最先进的服务器之一,搭载亚马逊云科技首款 3 纳米 AI 芯片,为大规模 AI 训练与推理提供业内领先的性价比。
与 Trainium 2 相比, Trainium 3 实现了显著飞跃:计算能力提升 4.4 倍、内存带宽提升 3.9 倍,且每兆瓦功耗可处理的 AI tokens 数量提升 5 倍,最大规格的 EC2 Trn3 UltraServers 能够将 144 颗 Trainium 3 芯片构建为单一 scale-up 域,并通过定制的 Neuron Switch 网络互连,在单个实例中提供 362 FP8 petaFLOPS 的算力以及超过 700 TB/s 的聚合带宽。
在更大规模上,其自研的EFA 网络能够将这些能力扩展至由数十万颗芯片组成的超大规模集群。行业中基本没有其他厂商可以实现,因为它需要在系统层级实现全面协同:包括多类型的定制芯片、同时具备 scale-up 与 scale-out 的网络体系、深度集成的软件栈以及领先的数据中心基础设施。
![]()
在实际测试中,Trainium 3 的优势表现更加直观。亚马逊云科技将已在 Trainium 2 上优化的模型权重迁移至 Trainium 3,并对多种开源模型开展推理测试。例如,在 OpenAI 的 GPT-OSS 模型上,Trainium 3 在保持相同单用户延迟的前提下,每兆瓦功耗可产出的 tokens 数量提升超过 5 倍。
亚马逊云科技现场预告了下一代芯片——Trainium 4 已进入深度设计阶段。与 Trainium 3 相比,Trainium 4 在各项关键指标上将实现大幅提升:FP4 计算性能提升 6 倍、内存带宽提升 4 倍,高带宽内存容量提升 2 倍,以满足未来超大规模模型的训练需求。
模型自由:自研Nova、月之暗面和minimax等上新,还有“开放式训练模型”
要构建企业级 Agent,首要问题往往是模型选择,如何在性能、时延与成本之间取得最佳平衡。在实际应用中,“只选择一个模型”往往无法达到最优,更有效的方式是针对不同任务灵活组合多种模型。
亚马逊云科技认为,未来不会出现“一统所有任务”的单一模型,而是相信不同类型的优秀模型将长期并存。因此,亚马逊云科技的策略是持续扩展可用模型范围,涵盖开源与专有、通用与专业、大模型与小模型。今年,Bedrock上的模型数量较去年几乎翻番。
Amazon Bedrock是一套完整的生成式AI平台,旨在帮助企业从原型快速迈向生产级应用。企业能够在Bedrock中选择最适配的模型、基于自身需求进行性能定制、将模型与业务数据深度整合,并灵活加入安全机制。所有能力均运行在 AWS 全面的安全体系之上。
目前,Bedrock已被 BMW、GoDaddy 等全球客户广泛采用。与去年同期相比,构建在Bedrock上的客户数量增长超过两倍;已有逾 50 家客户单日处理的 token 数量突破 1 万亿,使用场景覆盖众多超大规模应用。
![]()
本次大会上,亚马逊云科技进一步扩展了开源模型生态,正式引入包括 Google Gemma MiniMax M2、kimi k2、NVIDIA Nemotron 在内的一系列新模型。同时,来自 Mistral AI 的最新开源权重模型也将同步登陆 Bedrock,包括Mistral Large 3、Mistral 3(3B/8B/14B)。
![]()
自研模型层面,Amazon Nova 系列全面升级至 Nova 2,过去一年,Nova 系列在多模态、语音与嵌入向量等方向全面扩展,已被数万家客户使用。
Nova 2提供具备前沿智能、成本优化和低延迟表现的模型。其中,Nova 2 Light特点是一款快速且高性价比的推理模型,适用于广泛的生产级任务。在指令遵循、工具调用、代码生成、文档抽取等关键领域,其表现可与 Claude Haiku 4/5、Gemini Flash 2.5 等模型媲美甚至更优,并保持显著成本优势。
Nova 2 Pro是一款智能推理模型,专为复杂任务与高级 Agent 能力构建,其在指令理解、工具调用等核心领域的人工评测表现领先于 GPT 5.1、Claude 4.5 Sonnet。
Nova 2 Sonic是新一代 speech-to-speech 模型,具备更自然的对话质量、更低延迟、更广语言覆盖与更优成本结构,适用于语音交互类应用。
Nova 2 Omni是业内首个同时支持文本、图像、视频、音频输入,并能生成文本与图像输出的统一多模态推理模型。它可在单一模型中完成全链路理解与生成,大幅降低组合多模型的复杂度。
接下来是一个有趣的产品,Amazon Nova Forge,开放式训练模型。
尽管现有模型已经非常强大,但企业真正的竞争力来源于专有数据与行业知识。目前主流方法如 RAG 与向量检索虽能提升效果,但仍受限于无法让模型真正“理解”企业独特的数据体系。
企业通常面临两个选择,从零训练基础模型——成本极高,难以现实;基于开源模型进行微调——效果受限,且存在遗忘核心能力的风险。
因此,亚马逊云科技思考,能否在“正确的训练阶段”将企业数据注入模型,使其既保留前沿模型的通用能力,又具备企业独有的专业理解?
![]()
答案就是 Amazon Nova Forge。
Nova Forge首次实现了“开放式训练模型”理念:企业可访问多个 Nova 训练阶段的检查点,在训练的每一阶段,将自有数据与 Amazon 甄选数据深度融合,最终获得一个仅供企业私有使用的专属模型(novella),可直接部署到 Amazon Bedrock。
模型不仅保留核心推理能力,还能原生理解企业的历史数据、行业规律、流程约束与 IP 资产。
以一家硬件制造企业为例,企业拥有数十亿 token、数百GB 的历史设计、制造经验与故障案例数据。通过从完成约 80% 预训练的 Nova 2 Light 检查点出发,将企业数据纳入剩余训练过程,模型可自然学习其行业知识体系。此外,Nova Forge 支持强化学习、远程奖励函数等机制,使模型能够基于企业真实业务闭环不断优化。
![]()
Agent进入关键生产场景,都需要做什么?
当讲完上层的模型和底层的芯片之后,Matt Garman的重点才划到一半,如何Agent部署到关键业务场景中,亚马逊云科技先是拿出了一系列工具,然后亲自现场展示了自己的Agent使用情况。
Agent 能够执行任务、采取行动、进行动态推理,并自主创建工作流以达成目标,它们以非确定性方式运行,这种能力正是其价值所在。但与此同时,传统软件时代的工具链与基础设施,已无法满足自主智能时代的需求。
基于此,亚马逊云科技推出 Amazon Bedrock AgentCore——一个面向企业级应用场景、专为 Agent 构建的身份与执行平台。AgentCore 的架构旨在实现高度模块化与端到端的安全保障。它提供 Serverless 的安全运行时环境,支持 Agent 之间相互调用,并具备完整的会话执行能力。
AgentCore 的 隔离式记忆机制 可同时管理短期与长期上下文,使 Agent 能够在真实业务环境中持续累积经验、不断优化表现。借助 AgentCore,企业可以在私有 Amazon VPC 中安全部署 Agent,并可轻松扩展至数千并发会话,以应对高流量业务场景。凭借极简化的部署能力,通过拖拽或数行代码即可在一分钟内部署一个可运行的 Agent。
据介绍,AgentCore 的客户采用速度正在呈指数级增长,覆盖多个高度监管行业与技术密集行业,包括 Visa、澳大利亚国民银行、力拓集团,以及 Palumi、ADP 等独立软件厂商和初创企业 Cohere Health 等。
例如,NASDAQ正基于AgentCore 快速构建面向核心业务的 Agent,在采用 AgentCore 之前,NASDAQ 计划投入整个工程团队构建支撑基础设施,现在这些底层工作已由 AgentCore 接管,使他们能够将精力聚焦在 Agent 能力本身。
如何确保 Agent 的行为可预测,并能严格对齐用户意图?这是企业客户的另一个担忧.Agent 的强大来自其推理能力与自主能力,但这也意味着传统的静态规则无法有效约束其动态行为。就像培养青少年一样,必须在给予自主性的同时建立清晰的边界,以避免重大风险。
虽然企业可以在 Agent 代码中编写访问限制,但由于 Agent 会在运行时动态生成和执行代码,这类限制并不能提供可靠的保护,更难以审计,许多企业并不放心将 Agent 用于关键业务流程。
为此,亚马逊云科技推出了,Policy in Amazon Bedrock AgentCore,确保 Agent 行为可控与可审计。这是一套 实时、确定性、可验证的策略执行系统,用于规范 Agent 与企业工具及数据之间的交互方式。
企业可以精细定义Agent 可访问哪些工具与数据、Agent 可调用哪些具体能力,Agent 在何种条件下可执行哪些操作,对内部 API、Lambda、MCP 服务器与 Salesforce、Slack 等第三方服务实现统一管控,策略可以通过自然语言编写。
简单举个例子,“当退款金额超过 1000 美元时,禁止执行退款操作。”系统会将该规则自动转换为开源策略语言,并在 Agent Gateway 中以毫秒级速度进行评估。所有 Agent 行为都将在访问工具或数据前接受策略校验,确保其严格在企业设定的边界中运行。
此外,在构建 Agent 的过程中,仅对运行指标进行监控是不够的。企业同样需要回答以下核心问题,Agent 的决策是否正确,是否调用了最合适的工具,其回答是否符合合规与品牌要求,能否在模型升级后保持行为一致性等。
传统做法需要数据科学家搭建复杂的评估系统,并维护大量基础设施。而即便有测试环境,也难以预测 Agent 在真实世界中的表现。
为解决这一问题,亚马逊云科技推出 AgentCore Evaluations,让企业能够基于真实行为持续评估 Agent 的质量。
Evaluations 支持针对正确性、有用性、无害性等维度进行自动评估,使用预构建评估器,或自定义模型与提示词,在模型升级前后运行一致性验证,在生产环境捕捉质量下降。
所有评估结果会直接在 CloudWatch 中展示,与 AgentCore 的可观测性指标统一呈现,如此,将过去需要专业团队与复杂基础设施才能完成的工作自动化,使任何团队都能轻松构建高质量、可提升的 Agent。
此外,当下开发团队所面临的核心挑战之一是技术债,根据埃森哲的测算,仅在美国,技术债务每年给企业带来的成本就高达 2.4 万亿美元;Gartner 的数据显示,如今企业多达 70% 的 IT 预算都花在维护遗留系统上。
亚马逊云科技推出了 Amazon Transform,帮助客户从各类遗留平台迁移,包括 VMware、大型机以及 Windows .NET 等。在大型机现代化方面,客户已经借助 Transform 分析超过 10 亿行大型机代码,并将关键系统与应用逐步迁移至云端。
但是,遗留系统的形态远不止这些,还包括 Lambda 函数升级、Python 版本提升、Postgres 升级、从 C 迁移至 Rust 等,企业内部存在大量高度定制、难以标准化的升级需求,例如内部自研语言、专属 API、私有框架或特定版本库的升级。
因此亚马逊云科技提出一个关键问题:为什么不支持所有的现代化需求?
![]()
在拉斯维加斯,亚马逊云科技将一架退役的旧服务器机架吊起并当场引爆,以此象征帮助企业彻底告别技术债务的决心与愿景。
同时,亚马逊云科技正式推出 Amazon Transform 自定义功能。这一能力允许客户针对任意代码、API、框架或运行时构建现代化转换流程。开发者可以轻松创建专属的代码转换 Agent,实现对任何语言、内部库以及独有框架的自动化现代化。
亚马逊云科技都造了哪些Agent?
亚马逊云科技本身也有足够多的场景,其最新的Agent也一并发布出来。首先是Kiro,一个面向结构化 AI 编码的 Agent 开发环境。
Kiro 能够将自然语言指令转化为具备工程可执行性的规范文档,并由高级 Agent 自动生成完整、可运行的代码,从而确保最终产出的质量和一致性。它能够理解提示背后的意图,在大型代码库中高效执行复杂功能开发,并显著减少人工拆解与沟通步骤。
自数个月前启动预览以来,Kiro 已吸引数十万开发者试用,上周,亚马逊已决定全面采用 Kiro,将其作为公司内部的官方 AI 开发环境。据Matt Garman表示,在评估了所有主要工具之后,他们认为,若要最大化开发者效率,最佳方式就是加大对 Kiro 的投入。
一位亚马逊工程师负责的一个大型重构项目,最初评估需要 30 名开发者、18 个月 才可完成。在全面采用 Kiro 后,团队通过调整工作流、提高任务并行度、充分发挥 Agent 能力,最终 仅用 6 名开发者、76 天 即完成整个项目。
在此基础上,亚马逊云科技发布了Kiro自主Agent,它可以独立处理日常开发工作:交付新功能、诊断 bug、提升代码覆盖率,所有操作均在后台完成,还能与 Jira、GitHub、Slack 等现有工具集成。
Kiro自主Agent就像团队的一位新成员,它会学习你的工作偏好,不断加深对代码、产品以及团队规则的理解。随着时间推移,它会将行为、修改、讨论和 Pull Request 交织在一起,形成“集体记忆”,推动团队实现更智能的开发方式。
随着开发速度加快,仅加速代码生成是不够的,安全也必须同步扩展。基于 Kiro自主Agent 的经验——目标导向、并行扩展、增强自主性,亚马逊云科技推出了 Amazon Security Agent。
它将安全专业知识前置,确保开发周期中的每一步都遵循最佳安全实践,包括设计文档审查,在写第一行代码前识别潜在风险;PR 安全审查:在 GitHub 工作流中即时反馈安全问题;按需渗透测试:将传统缓慢昂贵的流程转为随需执行;修复建议:提供直接可用的安全修复方案;多应用并行测试:同时验证多个系统,消除瓶颈。
例如,当开发者误用信用卡数据存储方式,Amazon Security Agent 可在早期检测风险,防止返工或严重问题。通过将安全融入日常开发流程,它让快速开发与安全发布兼得。
开发完成后,运维规模和复杂度也会随之增加。亚马逊云科技推出了 Amazon DevOps Agent,它像高级 DevOps 工程师一样,主动识别问题、分析根因、提供优化建议,并支持跨云环境与混合环境操作。
![]()
某种程度上,亚马逊云科技本身就是一家软件公司,Kiro自主Agent、Amazon Security Agent、Amazon DevOps Agent共同覆盖软件生命周期的核心环节,因此也是亚马逊云科技优先落地的业务场景。
综合大会可以看出,Agent 的出现,将 AI 从技术奇观变为企业生产力的新引擎;亚马逊云科技在 re:Invent 2025 展示的,不仅是芯片、模型或单一技术的领先能力,而是一整套面向 Agentic AI 时代的完整解决方案。
从底层 AI 基础设施、训练与推理芯片,到灵活多样的自研与开源模型,再到面向开发、安全与运维的全生命周期 Agent,亚马逊云科技正通过端到端的技术协同,重新定义企业级 AI 的可落地能力。
未来的AI竞争,既关乎算力或模型参数的比拼,更关乎谁能真正让 AI 在业务中高效执行任务、持续创造价值,这是亚马逊云科技在芯片和模型之间提供的“中间层”能力。(本文作者 | 张帅,编辑 | 盖虹达)





京公网安备 11011402013531号