强化学习 - 第 2 页 - 323AI导航网

自监督学习‌ 什么是监督学习、无监督学习、强化学习、弱监督学习、半监督学习、多示例学习？

随着机器学习问题不断深入人心，人们也将现实中遇到不同的问题分为不同的学习方式，其中，最基础的应属监督学习，无监督学习和强化学习了。

默认分类

3周前

deepseek使用教程 DeepSeek版o1炸场，数学代码超越OpenAI，每天免费玩50次

西风发自凹非寺量子位 | 公众号 QbitAIDeepSeek版o1来了，发布即上线，现在就能玩！模型名为DeepSeek-R1-Lite

默认分类

1个月前

deepseek使用教程 DeepSeek版o1炸场，数学代码超越OpenAI，每天免费玩50次

西风发自凹非寺量子位 | 公众号 QbitAIDeepSeek版o1来了，发布即上线，现在就能玩！模型名为DeepSeek-R1-Lite

默认分类

1个月前

AI数学解题‌ 强化学习新发现：无需数学样本，仅游戏训练AI推理大增

第一作者谢云飞是莱斯大学博士生，导师为通讯作者魏晨教授，研究方向包括多模态生成与理解。Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生

默认分类

1个月前

强化学习‌ 强化学习从入门到进阶精选干货汇总

作为人工智能工作者，不同领域的知识都多少需要了解点，本文记录作者如何从对强化学习一知半解，由浅入深，一步一步进阶的学习路线。目前作者在研究Google的A...

默认分类

1个月前

强化学习‌ 强化学习从入门到进阶精选干货汇总

作为人工智能工作者，不同领域的知识都多少需要了解点，本文记录作者如何从对强化学习一知半解，由浅入深，一步一步进阶的学习路线。目前作者在研究Google的A...

默认分类

1个月前

强化学习‌ 大模型优化利器：RLHF之PPO、DPO

打个小广告，知乎专栏《大模型前沿应用》的内容已经收录在新书《揭秘大模型：从原理到实战》中。感兴趣的朋友可以购买，多谢支持！与有 SFT 相比

默认分类

1个月前

强化学习‌ 强化学习 (Reinforcement Learning)

简介根据维基百科对强化学习的定义：Reinforcement learning (RL) is an area of machine learning inspired by b

默认分类

1个月前

Manus智能体‌ Manus火了，并非第一个通用AI智能体，也没有硬核底层技术创新

仿佛一夜之间，来自中国企业Monica的Manus火了。但不同于DeepSeek引发的惊喜，很多科技圈内人有点懵：它既不是第一个AI智能体，也没有实现真正意义上的通用智...

默认分类

1个月前

自监督学习‌ 「Next-Token」范式改变！刚刚，强化学习预训练来了

机器之心报道编辑：张倩、陈陈谁说强化学习只能是蛋糕上的樱桃，说不定，它也可以是整个蛋糕呢？在 2016 年的一次演讲中，Yann LeCun 曾将强化学习比喻成蛋糕...

默认分类

1个月前

精选全球实用AIGC工具箱

标签：强化学习

自监督学习‌ 什么是监督学习、无监督学习、强化学习、弱监督学习、半监督学习、多示例学习？

deepseek使用教程 DeepSeek版o1炸场，数学代码超越OpenAI，每天免费玩50次

deepseek使用教程 DeepSeek版o1炸场，数学代码超越OpenAI，每天免费玩50次

AI数学解题‌ 强化学习新发现：无需数学样本，仅游戏训练AI推理大增

强化学习‌ 强化学习从入门到进阶精选干货汇总

强化学习‌ 强化学习从入门到进阶精选干货汇总

强化学习‌ 大模型优化利器：RLHF之PPO、DPO

强化学习‌ 强化学习 (Reinforcement Learning)

Manus智能体‌ Manus火了，并非第一个通用AI智能体，也没有硬核底层技术创新

自监督学习‌ 「Next-Token」范式改变！刚刚，强化学习预训练来了