当前位置: 首页 » 资讯 » 科技头条 » 正文

亚马逊云科技-高效微调大模型强化学习训练技术

IP属地 中国·北京 编辑:朱天宇 时间:2025-07-20 04:04:56

关键字: [亚马逊云科技, 拉玛番水 (Llama Finetuner), 强化学习训练, 高效微调, 模型参数量化, 显存优化, 多卡并行]

导读

在这场演讲中,孙耀威讲解了如何使用拉玛番薯水和ez2板高效微调大模型并进行强化学习训练。他首先介绍了大模型微调和强化学习的基本原理,然后详细解释了拉玛番薯水框架如何通过量化、低秩分解、算子融合等优化技术降低显存占用,实现高效微调。最后,他介绍了新的ez1框架,该框架基于瑞设计,采用单一控制流和多进程计算流的架构,用于加速强化学习训练过程。拉玛番薯水框架支持全模态训练、多平台部署,并提供无代码界面,而ez1框架则专注于高效的强化学习训练。

演讲精华

以下是小编为您整理的本次演讲的精华。

大家好,我是来自北京航空航天大学的博士生孙耀威,也是LlamaFAIR和EZI-ONE框架的作者。今天我想分享的主题是如何使用LlamaFAIR和EZI-ONE在亚马逊云平台上高效微调大模型,以及进行强化学习训练和推理。

首先,让我们回顾一下大模型微调和强化学习的基本概念和原理。在大模型微调任务中,我们通常希望有一批任务数据,将其喂给开源的大型语言模型,如GPT-3。然后,通过全量微调或高效微调的方式,得到一个针对该任务更好适应的微调模型,从而在特定领域任务上具备更强的推理能力。这是我们的总体流程。

全量微调的成本通常很高,以至于难以承受。例如,对于一个8B参数的模型,全量微调可能需要8张80GB的显卡才能启动训练。如果我们只有消费级的3090显卡,该如何微调这样一个大模型呢?这就需要用到高效微调技术,它可以节省显存占用,同时加快训练速度。

为了分析高效微调的原理,我们来剖析一下8B模型在训练过程中显存的结构。总的来说,显存占用分为三个主要部分:模型权重、优化器状态和梯度值,以及激活状态。

模型权重是我们用于根线的部分,假设使用4比特存储,它需要32GB的显存。优化器状态和梯度值则需要96GB的显存,因为我们需要存储一阶动量、二阶动量和梯度等信息。至于激活状态,它存储了模型每一层的隐藏层特征,如果不使用任何优化技术,甚至需要消耗100多GB的显存。

因此,我们引入了多种高效微调技术来降低这些部分的显存占用。在模型权重方面,我们可以使用量化的手段,将32位浮点数权重用8位或4位的低精度浮点数表示。这里涉及到的技术就是GPDQ等量化技术,将模型参数进行量化后,只需要4GB或8GB的显存即可存放大模型权重。

如果我们有多卡场景,也可以通过分布式计算的方式无损地降低显存占用。以DeepSpeed的ZeRO-3技术为例,它可以将模型权重切片后平均分配到各个GPU上,从而降低单卡的显存压力。

对于96GB的优化器状态和梯度,我们可以选用LoRA的低秩分解技术。LoRA可以将梯度和优化器状态用低秩矩阵表达,从而用不到1GB的显存就能存储。这是因为低秩矩阵的元素数量明显少于满秩矩阵,所以LoRA成为了常用的优化技术。

至于激活状态这一部分,我们定用的第一个技术就是FlashAttention。它可以通过算子层面的融合,以及online softmax的优化,将需要计算的注意力矩阵的显存占用从45GB降低到20GB左右。随着训练序列变长,这种优化的幅度会越来越大,因此现在的训练框架都会默认开启这种优化机制。

另一个技术是activation recomputation,即在运算时不保存每一层的计算值,只保存一些检查点,然后利用这些检查点重新计算出隐藏状态,从而大幅降低显存占用。这对于长序列训练至关重要,也会被默认开启。

此外,我们还集成了DP4A的Unices等序列并行技术。以16K长度为例,原本单卡需要40GB显存,但使用8卡并行后,单卡只需5GB即可避免显存爆炸。

通过上述技术的组合使用,我们可以将模型的总显存占用从120GB逐步降低到单卡1.9GB,从而在消费级显卡上高效微调大模型。

接下来,我们讲一下强化学习,因为它在ChatGPT等大模型中的应用越来越热门。我们知道,ChatGPT之所以表现如此出色,就是因为它进行了大规模的RLHF训练,能够自己无监督地发掘推理轨迹并自我优化。

以数学问题为例,RLHF的基本原理是:基于预训练模型,同时生成多条推理轨迹,探索不同的解题路径。然后使用奖励模型对每条轨迹进行打分,找到正确终点的轨迹会获得较高的奖励分数。接着,对这些分数进行归一化处理,使得好的轨迹分数更高,坏的轨迹分数更低。有了这个优势函数,我们就可以将它作为梯度信号,优化策略模型的参数。

RLHF的好处在于,它不需要人工标注推理轨迹,可以自己无监督地采样和优化,但我们仍需要一个外部的奖励模型来验证和给分。同时,RLHF损失函数中还包含一项KL散度,用于防止模型在训练中出现灾难性遗忘。

我们对比了RLHF和PPO在损失函数、优势函数估计等方面的区别。PPO需要一个额外的Critic模型来估计值函数,然后使用GAE算法得到优势函数,从而优化策略模型。而RLHF则直接使用奖励分数的规范化值作为优势函数信号,不需要额外的Critic模型。

RLHF/GRPO训练可以分为5个步骤:生成轨迹、计算概率、计算参考概率、计算优势函数、更新模型。这是一个有向无环图的结构,包含多个模型和多个阶段,如采样阶段、经验回放阶段和参数更新阶段,以及生成、推理和训练等不同的工作流。实现这一复杂流程对训练框架来说是一个挑战,需要详细的设计。

这就是我们开发LlamaFAIR和EZI-ONE框架的初衷。LlamaFAIR是一个全模态、多平台、高效、通用的微调框架。它不仅支持文本推理模型如LLaMa和GPT,还支持视觉语言模型如LLaVA和OPT,以及多模态模型如OPT和CPM,可以输入图像、视频、音频等多种模态数据进行理解和生成。

LlamaFAIR覆盖了增量预训练、监督微调、RLHF和DPO等多种训练范式。在高效方面,它集成了LoRA、量化、算子优化等多种技术,可以大幅降低显存占用,使我们能够在消费级显卡上微调大模型。

LlamaFAIR提供了一个无代码界面,用户只需在界面上选择模型、数据集和参数,就可以在几分钟内完成模型微调,并立即在界面上进行交互和测试。这极大地降低了微调的门槛和难度。

该框架社区非常活跃,目前在GitHub上已获得将近5万星,有众多论文引用,并被多家国内外大厂的训练框架所采用,包括亚马逊云平台。后面将有亚马逊工程师为大家介绍如何在该平台上使用这种0代码微调方式。

我的最后一部分是介绍EZI-ONE,这是我们最新的一个高效强化学习框架,旨在加速GRPO训练过程。由于GRPO是一种新的算法,我们没有在LlamaFAIR的基础上进行开发,而是新建了一个项目。

EZI-ONE框架基于字节跳动的Flare引擎构建,支持7B到72B不同大小模型的GRPO训练。它的设计原理与RLHF/GRPO算法保持一致,都是将强化学习过程进行建模和抽象。

如我们之前分析的那样,强化学习训练可以分为5个步骤,构成一个有向无环图的结构,包含多个模型、多个阶段和多个工作流。我们的挑战是如何将这种复杂性统一到一个框架中。

在EZI-ONE中,我们采用了一种基于瑞的控制器编程模型。具体来说,就是使用单控制流(single control)来实现强化学习的控制流,使用多计算流(multi control)来实现具体的计算流。

单控制流可以想象成一个单卡的程序,它始终是单进程运行,负责从高层次控制整个RLHF流程的每一步应该如何执行。而多计算流则是多进程的,它们直接面向硬件进行计算,如计算模型策略、概率、梯度等。

单控制流通过调用瑞API来唤醒和控制多计算流,多计算流的结果也会返回给单控制流。由于单控制流与硬件隔离,我们只需改动它的两行代码,就可以完成从PPO到GRPO训练的切换,迭代速度非常快。

在EZI-ONE中,我们将RLHF训练过程抽象成多个高级原语,如生成轨迹(generate sequences)、计算奖励(compute reward)、计算概率(compute log probability)、计算值(compute values)和更新模型(update model)等。这使得算法开发和改进变得更加简洁和优雅。

EZI-ONE支持多种并行策略,如DP、XDP、Megatron等,用于加速训练和推理过程。在推理阶段,它支持VLM和SG-Transformer等张量并行方式;在训练阶段,则支持DP、XDP等通信策略。

该框架的使用方式也类似于0代码训练。我们只需编写一个脚本,定制当前任务的奖励函数,然后将脚本路径传入框架,就可以完成RLHF训练过程。以数学问题为例,我们可以设计奖励答案的格式和准确性,将它们组合成总的奖励分数,用于优化策略模型。

总的来说,LlamaFAIR和EZI-ONE这两个框架分别针对高效微调和强化学习训练,为我们提供了多种优化技术、无代码界面和高效的分布式训练方式,旨在降低大模型训练的成本和难度,提高训练效率。它们已在亚马逊云平台等多家公司的训练框架中得到应用,有望在未来推广0代码微调和RLHF训练,使大模型的能力在更多场景下发挥作用。

总结

亚马逊云科技在大模型强化学习训练方面取得了重大进展。本次演讲分享了两个关键内容:高效微调技术和强化学习训练框架。

高效微调技术旨在降低大模型微调的显存占用和计算成本。通过量化、低秩分解、算子融合等优化策略,可以在消费级硬件上微调大型模型。拉玛番薯水框架提供了无代码界面,支持跨模态数据的高效微调。

强化学习训练框架EZI One采用了单控制器多工作器的设计,将强化学习过程抽象为高级原语,实现了从PPO到GRPO算法的无缝切换。该框架支持多种并行策略,可加速7B到72B规模模型的强化学习训练。

总的来说,亚马逊云科技的创新技术大幅降低了大模型训练的门槛,为强大的人工智能系统的开发奠定了基础。这些技术的发展将推动人工智能领域的持续进步。

我们正处在Agentic AI爆发前夜。2025亚马逊云科技中国峰会提出,企业要从“成本优化”转向“创新驱动”,通过完善的数据战略和AI云服务,把握全球化机遇。亚马逊将投入1000亿美元在AI算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验,助力企业在AI时代突破。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。