标签：PPO

强化学习‌ 大模型优化利器：RLHF之PPO、DPO

打个小广告，知乎专栏《大模型前沿应用》的内容已经收录在新书《揭秘大模型：从原理到实战》中。感兴趣的朋友可以购买，多谢支持！与有 SFT 相比

默认分类

3个月前

323AI导航网（323ai.com）—— 精选全球实用AIGC工具箱。 AI人工智能爱好者使用学习必备导航网站，收录了国内外5000+优质AI实用工具网址，一个专业、全面、实用的AIGC工具与AI资讯导航网站，我们聚焦于最新的AI文本、AI绘画、AI视频、ChatGPT、Stable-Diffusion、Midjourney等AI项目，帮助用户发现最前沿的AIGC项目，探索人工智能的无限可能。

友链申请免责声明广告合作关于我们