标签:RLHF

强化学习‌ 大模型优化利器:RLHF之PPO、DPO

打个小广告 ,知乎专栏《大模型前沿应用》的内容已经收录在新书《揭秘大模型:从原理到实战》中。感兴趣的朋友可以购买,多谢支持!与有 SFT 相比

chatgpt正确的打开方式 ChatGPT系列01:与ChatGPT聊天的正确打开方式

ChatGPT火爆全球,我不允许还有人没看过这篇知乎近70万人读过的ChatGPT教程!警告,本文内含与ChatGPT聊天的正确打开方式!