标签:强化学习

模型压缩 学界 | 韩松、李佳等人提出AMC:用于移动端模型自动压缩与加速的AutoML

选自arXiv作者:Yihui He、Ji Lin、Zhijian Liu、Hanrui Wang、Li-

DeepSeek-R1‌ DeepSeek-R1与DeepSeek-R1-Zero区别对比

DeepSeek团队推出的DeepSeek-R1和DeepSeek-R1-Zero最近很火。这两款模型都致力于提升推理能力,尤其在数学、代码处理以及复杂问题解决等方面发力。不过

DeepSeek-R1‌ 阿里云PAI的DeepSeek-R1大模型介绍

DeepSeek推出了第一版的推理模型——DeepSeek-R1-Zero和DeepSeek-R1。其中,DeepSeek-R1-Zero是通过大规模强化学习(RL)训练而成

ChatGPT直达站 一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

文|晓静、博阳编辑|萌萌 Agent是今年AI圈最大的共识,OpenAI自然也不能掉队。 北京时间2025年7月18日凌晨1点

深度学习‌ 深度学习的七种常用算法

深度学习的七种常用算法‌1、前馈神经网络(Feedforward Neural Network, FNN):‌由输入层、隐藏层和输出层组成,信息单向传递,无反馈连接。

强化学习‌ AIGC技术研究与应用 —- 下一代人工智能:新范式!新生产力!(2.3-大模型发展历程 之 图像、视频生成与视觉大模型)

文章浏览阅读919次。强化学习是机器学习领域之一,受到行为心理学的启发,主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。_aigc生成...

强化学习‌ AIGC技术研究与应用 —- 下一代人工智能:新范式!新生产力!(2.3-大模型发展历程 之 图像、视频生成与视觉大模型)

文章浏览阅读919次。强化学习是机器学习领域之一,受到行为心理学的启发,主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。_aigc生成...

强化学习‌ 多智能体强化学习笔记-1219

文章浏览阅读1.4k次,点赞20次,收藏22次。如何在不同智能体贡献不同的情况下实现鼓励高智能体,又不失去低贡献智能体的积极性。不是,环境是环境

强化学习‌ 大模型扫盲系列——初识大模型

文章浏览阅读940次,点赞10次,收藏12次。大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域...

强化学习‌ 大模型扫盲系列——初识大模型

文章浏览阅读940次,点赞10次,收藏12次。大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域...
1 2 3 6