强化学习‌ 大模型优化利器：RLHF之PPO、DPO

默认分类3个月前发布 admin

4,519 0 0

打个小广告，知乎专栏《大模型前沿应用》的内容已经收录在新书《揭秘大模型：从原理到实战》中。感兴趣的朋友可以购买，多谢支持！

与有 SFT 相比，强化学习能够给大语言模型带什么哪些好处呢？

针对这个问题，2023 年 4 月联合创始人 John 在 EECS 会议上所做的报告《 from Human : and 》，分享了在 RLHF 的进展，分析了监督学习和强化学习各自存在的挑战。

强化学习在大语言模型上的重要作用可以概括为以下几个方面：

正是因为强化学习具有这些优点，它在大模型方面被广泛应用。本文我们就来介绍一下这一强有力的技术。

RLHF

强化学习（，RL）研究的问题是智能体（Agent）与环境（）交互的问题，其目标是使智能体在复杂且不确定的环境中最大化奖励（）。强化学习基本框架如图 1 所示，主要由两部分组成：智能体和环境。在强化学习过程中，智能体与环境不断交互。

图 1 强化学习基本框架

智能体在环境中获取某个状态后，会根据该状态输出一个动作（），也称为决策（）。动作会在环境中执行，环境会根据智能体采取的动作，给出下一个状态以及当前动作所带来的奖励。智能体的目标就是尽可能多地从环境中获取奖励。

以图 1 为例，智能体与环境的交互过程如下：

时刻，环境的状态为

，到达这一状态所获得的奖励为

智能体观测到

，采取相应动作

智能体采取

后，环境状态变为

，得到相应的奖励

智能体在这个过程中不断学习，它的最终目标是：找到一个策略，这个策略根据当前观测到的环境状态和奖励反馈，来选择最佳的动作。

在给定的环境中，有效动作的集合经常被称为动作空间（ Space），使用

进行表示。

策略是智能体的动作模型，决定了智能体的动作。策略也可以用函数进行表示，该函数将输入的状态变成动作。策略可分为两种：随机性策略和确定性策。随机性策略（）用

函数表示，即

，输入一个状态

，输出一个概率，表示智能体所有动作的概率。利用这个概率分布进行采样，就可以得到智能体将采取的动作。确定性策略（）是智能体直接采取最有可能的动作，即

价值函数的值是对未来奖励的预测，可以用它来评估状态的好坏。价值函数可以只根据当前的状态

决定，使用

表示。也可以根据当前状态

以及动作

表示，使用

表示。

的具体定义如下：

其中，

为折扣因子（），针对短期奖励和远期奖励进行折中；期望

的下标为

函数，其值反映在使用策略

时所能获得的奖励值。

RLHF 主要分为奖励模型训练和近端策略优化两个步骤。奖励模型通过由人类反馈标注的偏好数据来学习人类的偏好，判断模型回复的有用性以及保证内容的无害性。奖励模型模拟了人类的偏好信息，能够不断地为模型的训练提供奖励信号。在获得奖励模型后，需要借助强化学习对语言模型继续进行微调。在大多数任务中使用的强化学习算法都是近端策略优化算法（ , PPO）。近端策略优化可以根据奖励模型获得的反馈优化模型，通过不断的迭代，让模型探索和发现更符合人类偏好的回复策略。PPO 的流程如图 2 所示。

图 2 PPO 算法实施流程

PPO 涉及到四个模型：

PPO 的实施流程如下：

下图详细展示了 PPO 的整个流程：

图3：PPO 训练流程奖励模型（ Model）

基于人类反馈训练的 Model 可以很好的评估人类的偏好。从理论上来说，可以通过强化学习使用人类标注的反馈数据直接对模型进行微调。然而，受限于工作量和时间的限制，针对每次优化迭代，人类很难提供足够的反馈。更为有效的方法是构建 Model，模拟人类的评估过程。 Model 在强化学习中起着至关重要的作用，它决定了智能体如何从与环境的交互中学习并优化策略，以实现预定的任务目标。

Model 的输入是包含和的 pair 对，如下图所示。

图4： Model 输入

Model 通常也采用基于架构的预训练语言模型。在 Model 中，移除最后一个非嵌入层，并在最终的层上叠加了一个额外的线性层。无论输入的是何种文本， Model 都能为文本序列中的最后一个 token 分配一个标量奖励值，样本质量越高，奖励值越大。

Model 的损失定义如下：

其中

是函数，

代表参数为

的奖励模型的值，

表示针对输入提示

和输出

所预测出的单一标量奖励值。

PPO

近端策略优化（ , PPO）是对强化学习中策略梯度方法的改进，可以解决传统的策略梯度方法中存在的高方差、低数据效率、易发散等问题，从而提高了强化学习算法的可靠性和适用性。PPO 在各种基准任务中取得了非常好的性能，并且在机器人控制、自动驾驶、游戏玩家等领域中都有广泛的应用。在多个使用强化学习任务中都采用该方法，并将该方法成功应用于微调语言模型使之遵循人类指令和符合人类偏好。

策略梯度

策略梯度方法有三个基本组成部分：演员（Actor）、环境和奖励函数，如下图所示，Actor 可以采取各种可能的动作与环境交互，在交互的过程中环境会依据当前环境状态和 Actor 的动作给出相应的奖励（），并修改自身状态。Actor 的目的就在于调整策略（），即根据环境信息决定采取什么动作以最大化奖励。

图 5 Actor 与环境交互过程

上述过程可以形式化的表示为：设环境的状态为

，Actor 的策略函数

是从环境状态

到动作

的映射，其中

是策略函数

的参数；奖励函数

为从环境状态和 Actor 动作到奖励值的映射。一次完整的交互过程如图 5 所示。

图 6 Actor 与环境交互过程

环境初始状态为

，Actor 依据初始状态

采取动作

，奖励函数依据

给出奖励

，环境接受动作

的影响修改自身状态为

，如此不断重复这一过程直到交互结束。在这一交互过程中，定义环境状态

Actor 动作

组成的序列为轨迹（）

给定策略函数参数

，可以计算某条轨迹发生的概率

为：

其中，

是初始状态

发生的概率，

为给定状态

策略函数采取动作

的概率，

为给定当前状态

和动作

，环境转移到状态

的概率。

给定轨迹

，累计奖励为

强化学习‌ 大模型优化利器：RLHF之PPO、DPO

。累计奖励称为回报（）。希望 Actor 在交互过程中回报总是尽可能多，但是回报并非是一个标量值，因为 Actor 采取哪一个动作

以及环境转移到哪一个状态

均以概率形式发生，因此轨迹

和对应回报

均为随机变量，只能计算回报的期望：

其中

表示使用参数为

的策略与环境交互的期望回报，轨迹

服从

的概率分布。

给定一条轨迹，回报总是固定的，因此只能调整策略函数参数

使得高回报的轨迹发生概率尽可能大，而低回报的轨迹发生概率尽可能小。为了优化参数

，可以使用梯度上升方法，优化

使得期望回报

尽可能大：

观察上式可以注意到，只有

有关。考虑到

如公式 5 所示是多个概率值的连乘，难以进行梯度优化，因此将

转化为

的形式使之易于计算。

根据

，带入公式 7 可得：

在上式基础上，将公式 5 带入

，可以继续推导得到：

这里是对策略函数参数

求梯度，而

由环境决定，与策略函数参数

无关，因此这两项的梯度为 0。将上式带入公式 8 可得：

由于期望无法直接计算，因此在实践中，通常是从概率分布

中采样

条轨迹近似计算期望：

可以使用学习率为

的梯度上升方法优化策略参数

，使之能够获得更高的回报：

为了解决训练过程中的不稳定问题，通常会在回报

上减去一个基线（）

，使得这一项的期望为 0，这样在实际更新的时候概率值更新会有正有负，最终概率更新幅度之和大致为 0。从而避免因为某些动作没有被采样而动作概率下降的问题。回报的梯度如下所示：

其中

，即回报的期望。这一项在实践中常用的计算方法是，在训练过程中记录历史

的均值用以估计回报的期望。

公式 (13) 中仍然存在另外一个问题值得考虑，

的权重始终为

，这意味着在一条轨迹中所有的动作都具有同样的价值。然而从直觉上来看，一条轨迹中一般不会所有的动作都是好的，而是有些动作好，而另外一些动作差，然而这些动作目前却会以相同的方式更新概率，这也会造成训练的不稳定。因此有必要为每个动作赋予其所应得的奖励。考虑到交互过程中 Actor 采取某一动作只会对之后的状态产生影响，而不会对之前的有影响。因此，不必令每个动作的权重都为全部奖励之和

，而只需要累计在当前动作之后的奖励之和

另一个直觉是，当前动作会对时间较近的状态影响大，时间较远的影响小。因此，在计算累计奖励的时候，对于未来较遥远的奖励应该予以折扣，即

。引入新的奖励之后，公式（13）中回报的梯度表示为：

公式（14）中的

反应了给定状态

下采取动作

的收益，该收益称为动作价值（ Value），并用

表示。而

则是动作价值的期望。由于动作价值的期望与具体动作无关，因此这个期望也称为状态价值（State Value），并用

来表示。即：

将状态-动作

的梯度权重抽象为

。给定状态

下，

衡量了具体动作

的价值，而

则表示 Actor 采取各种可能动作的期望价值。因此

可以理解为采取特定动作

相比较于随机一个动作的优势（）。优势越大，说明采取动作

要比其他可能动作更好，使用

来表示优势函数。

根据前面公式（10）和公式（12），策略梯度的基本形式如下：

实际计算时，需要从环境中采样很多轨迹

，然后按照上述策略梯度公式对策略函数参数

进行更新。但是由于

是从概率分布

强化学习‌ 大模型优化利器：RLHF之PPO、DPO

中采样得到，一旦策略函数参数

更新，那么概率分布

就会发生变化，因而之前采样过的轨迹便不能再次利用。所以策略梯度方法需要在不断地与环境交互中学习而不能利用历史数据。因而这种方法的训练效率低下。

策略梯度方法中，负责与环境交互的 Actor 与负责学习的 Actor 相同，这种训练方法被称为 On- 训练方法。相反，Off- 训练方法则将这两个 Actor 分离，固定一个 Actor 与环境交互而不更新它，而将交互得到的轨迹交由另外一个负责学习的 Actor 训练。Off- 的优势是可以重复利用历史数据，从而提升训练效率。近端策略优化（，PPO）就是 Off-。

假设负责学习的智能体策略为

，负责采样的智能体策略为

。按照公式（16）计算

，但由于 Off-，不能从

中采样得到

，只能从

中采样，因此可以对公式（16）进行修正：

回到前面讲的策略梯度的具体定义，如公式（14），并结合优势函数

，可以将公式（14）策略梯度的计算改为如下形式：

结合公式（18），将其改写为如下形式：

此时优势函数从

变成

，采样策略也从

变成

由于：

假设状态只与环境有关，与具体策略无关，那么

，那么公式（20）可以改写为：

从上述式子的梯度形式反推原来的目标函数，可以得到如下公式：

其中，

表示需要优化的目标函数。

为了保证分布

不要相差太多，PPO 使用KL 散度来约束

，使之更加相似，表示如下：

公式（23）就是 PPO 最终的优化目标。

DPO

前面我们详细介绍了 RLHF 的原理，整个过程略显复杂。首先需要训练好 Model，然后在 PPO 阶段需要加载 4 个模型：Actor Model 、 Mode、 Model 和 Model。对计算资源要求极高，而且训练时间长，对于一般人来说很难玩得起。

好在 2023 年 5 月，斯坦福大学提出了 PPO 的简化版：DPO（）。只需要加载 2 个模型，而且不需要在线采样数据，极大地节省了训练开销。下图的右边是 DPO 的训练流程：

图 7：PPO 和 DPO 的区别

下面就简单介绍下 DPO 是如何简化 PPO 的。

首先回顾一下前面讲的 RLHF 是怎么训练的：

第一步是训练 Model。训练数据是同一个的 2 个回答，让人或 GPT-4o 标注哪个回答更好， Model 会去优化如下目标：

其中

就是 Model 用来给回答打分。

是训练数据集，

是，

分别是好的回答和不好的回答。也就是说，要尽可能让好的回答的得分比不好的回答高，拉大他们之间的差别。

第二步是用 RL 算法来提升模型的得分。优化的目标是：

其中

是我们需要训练的 LLM，

是 Model。这个优化目标的是希望 LLM 输出的回答的评分能尽可能高，同时

不要偏离

太多。

DPO 的作者们意识到，后面的这个式子是有显式解的。因为：

如果我们归一化一下分母，即取

，也就可以构造出一个新的概率分布：

那么上式变成了：

由于 KL 散度在 2 个分布相等时取最小值，我们得到了这样的结论：RLHF 训练希望得到的最优的概率分布就是

另一个角度来说，由

的公式，我们相当于是得到了

的关系，那么是否我们可以把训练

转化成直接去训练

呢？

简单转换一下

的定义式，可以得到：

带入公式（25），也就有了：

同样的，我们可以直接用这个优化目标去求

最终，我们可以得出 DPO 的 loss 如下所示：

这就是 DPO 的 loss。DPO 通过以上的公式转换把 RLHF 巧妙地转化为了 SFT，在训练的时候不再需要同时跑 4 个模型（Actor Model 、 Mode、 Model 和 Model），而是只用跑 Actor 和 2 个模型。

DPO 变种

DPO 出来之后，由于其简单易用的特点，迅速成为大模型训练的标配，随后也出现了各种变种，比如 SimPO、Step-DPO、MCTS-DPO、SPO、-DPO。下面就以 -DPO 为例，介绍一下做了哪些改动。

-DPO

是 2024 年 Meta 提出的 DPO 改进版。

思路很简单，下面介绍下具体流程：

下图是 -DPO 的具体流程：

图 7：-DPO 流程

由于 DPO 在每轮训练完成后，都会基于最新模型重新采样数据，构建 pair 对，因此 DPO 是介于 – 和 – 之间。

下图是 DPO 的两阶段流程：

图 8： DPO 两阶段流程总结

现今，强化学习已成为大型模型的标配技术，特别是随着 O1 的发布，该技术作为其核心方法，掌握并熟练运用强化学习已成为不可或缺的技能。本文简要概述了 RLHF 的基础知识，并初步介绍了 PPO 和 DPO，待日后有机会，将进一步深入学习 PPO 的其他变体。

参考

-Chat: Easy, Fast and RLHF of -like at All

of RLHF in Large Part I: PPO

: Your Model is a Model

朱小霖：DPO 是如何简化 RLHF 的

：DPO: 论文解读及代码实践

RLHF : From to RLHF

书籍：《大规模语言模型——从原理到实践》

323AI导航网发布

# 默认分类 # DPO # PPO # RLHF # 大模型 # 强化学习

文章版权归作者所有，未经允许请勿转载。

阿里版chatgpt接入钉钉可以用了吗阿里张勇：所有行业都值得用大模型重新做一遍！

admin

1,074 0

怎么让chatgpt扩散思维回答问题 ChatGPT狂飙，大模型驱动对话式AI将带来新一轮商业增量

admin

3,059 0

AI投融资‌ 中国AI基建发力！因DeepSeek名声大噪，硅基流动完成新一轮亿元融资

admin

1,029 0

AI边缘计算‌ 英特尔高层详解边缘计算战略：大模型浪潮带来AI部署新挑战

admin

2,517 0

chatgpt影响大数据工程师就业吗不懂AI将失业？陈俊龙院士：大模型重塑企业架构及用工市场

admin

3,574 0

自监督学习‌ 什么是监督学习、无监督学习、强化学习、弱监督学习、半监督学习、多示例学习？

admin

4,509 0

暂无评论

暂无评论...

强化学习‌ 大模型优化利器：RLHF之PPO、DPO

AI人工智能‌ 详解AI代表什么意思？与AI人工智能什么意思？

AI人工智能‌ 详解AI代表什么意思？与AI人工智能什么意思？

相关文章

暂无评论