标签:强化学习

自监督学习‌ 什么是监督学习、无监督学习、强化学习、弱监督学习、半监督学习、多示例学习?

随着机器学习问题不断深入人心,人们也将现实中遇到不同的问题分为不同的学习方式,其中,最基础的应属监督学习,无监督学习和强化学习了。

deepseek使用教程 DeepSeek版o1炸场,数学代码超越OpenAI,每天免费玩50次

西风 发自 凹非寺量子位 | 公众号 QbitAIDeepSeek版o1来了,发布即上线,现在就能玩!模型名为DeepSeek-R1-Lite

deepseek使用教程 DeepSeek版o1炸场,数学代码超越OpenAI,每天免费玩50次

西风 发自 凹非寺量子位 | 公众号 QbitAIDeepSeek版o1来了,发布即上线,现在就能玩!模型名为DeepSeek-R1-Lite

AI数学解题‌ 强化学习新发现:无需数学样本,仅游戏训练AI推理大增

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生

强化学习‌ 强化学习从入门到进阶精选干货汇总

作为人工智能工作者,不同领域的知识都多少需要了解点,本文记录作者如何从对强化学习一知半解,由浅入深,一步一步进阶的学习路线。目前作者在研究Google的A...

强化学习‌ 强化学习从入门到进阶精选干货汇总

作为人工智能工作者,不同领域的知识都多少需要了解点,本文记录作者如何从对强化学习一知半解,由浅入深,一步一步进阶的学习路线。目前作者在研究Google的A...

强化学习‌ 大模型优化利器:RLHF之PPO、DPO

打个小广告 ,知乎专栏《大模型前沿应用》的内容已经收录在新书《揭秘大模型:从原理到实战》中。感兴趣的朋友可以购买,多谢支持!与有 SFT 相比

强化学习‌ 强化学习 (Reinforcement Learning)

简介根据维基百科对强化学习的定义:Reinforcement learning (RL) is an area of machine learning inspired by b

Manus智能体‌ Manus火了,并非第一个通用AI智能体,也没有硬核底层技术创新

仿佛一夜之间,来自中国企业Monica的Manus火了。但不同于DeepSeek引发的惊喜,很多科技圈内人有点懵:它既不是第一个AI智能体,也没有实现真正意义上的通用智...

自监督学习‌ 「Next-Token」范式改变!刚刚,强化学习预训练来了

机器之心报道编辑:张倩、陈陈谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕...
1 2 3 4 5