推出了第一版的推理模型——-R1-Zero 和 -R1。其中,-R1-Zero 是通过大规模强化学习(RL)训练而成,未经过监督微调(SFT)作为初步步骤,却在推理任务上展现了卓越性能。借助 RL,-R1-Zero 自然衍生出众多强大且有趣的推理行为。然而,该模型也面临诸如无限重复、可读性差及语言混杂等挑战。为解决这些问题并进一步提升推理性能, 推出了 -R1,它在 RL 之前加入了冷启动数据。-R1 在数学、代码及推理任务上的表现与 -o1 旗鼓相当。本模型可以直接部署,直接部署的模型采用-R1 作为预训练模型,可以根据用户提供的任意文本进行续写。
相关云产品:
阿里云人工智能平台PAI:/go/pai
阿里云官方活动 新老用户同享99元一年,4核带宽70元/月起
阿里云代金券领取入口 aly.wiki 免费领取12张代金券,2088元优惠券
323AI导航网发布
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...