标签:PPO

强化学习‌ 大模型优化利器:RLHF之PPO、DPO

打个小广告 ,知乎专栏《大模型前沿应用》的内容已经收录在新书《揭秘大模型:从原理到实战》中。感兴趣的朋友可以购买,多谢支持!与有 SFT 相比