强化学习 - 323AI导航网

模型压缩学界｜韩松、李佳等人提出AMC：用于移动端模型自动压缩与加速的AutoML

选自arXiv作者：Yihui He、Ji Lin、Zhijian Liu、Hanrui Wang、Li-

默认分类

4周前

DeepSeek-R1‌ DeepSeek-R1与DeepSeek-R1-Zero区别对比

DeepSeek团队推出的DeepSeek-R1和DeepSeek-R1-Zero最近很火。这两款模型都致力于提升推理能力，尤其在数学、代码处理以及复杂问题解决等方面发力。不过

默认分类

1个月前

DeepSeek-R1‌ 阿里云PAI的DeepSeek-R1大模型介绍

DeepSeek推出了第一版的推理模型——DeepSeek-R1-Zero和DeepSeek-R1。其中，DeepSeek-R1-Zero是通过大规模强化学习（RL）训练而成

默认分类

1个月前

ChatGPT直达站一文读懂ChatGPT Agent：没超越Manus的能力范畴，但看到了端到端的曙光

文｜晓静、博阳编辑｜萌萌 Agent是今年AI圈最大的共识，OpenAI自然也不能掉队。北京时间2025年7月18日凌晨1点

默认分类

2个月前

深度学习‌ 深度学习的七种常用算法

深度学习的七种常用算法‌1、前馈神经网络（Feedforward Neural Network, FNN）:‌由输入层、隐藏层和输出层组成，信息单向传递，无反馈连接。

默认分类

2个月前

强化学习‌ AIGC技术研究与应用 —- 下一代人工智能：新范式！新生产力！（2.3-大模型发展历程之图像、视频生成与视觉大模型）

文章浏览阅读919次。强化学习是机器学习领域之一，受到行为心理学的启发，主要关注智能体如何在环境中采取不同的行动，以最大限度地提高累积奖励。_aigc生成...

默认分类

2个月前

强化学习‌ AIGC技术研究与应用 —- 下一代人工智能：新范式！新生产力！（2.3-大模型发展历程之图像、视频生成与视觉大模型）

文章浏览阅读919次。强化学习是机器学习领域之一，受到行为心理学的启发，主要关注智能体如何在环境中采取不同的行动，以最大限度地提高累积奖励。_aigc生成...

默认分类

2个月前

强化学习‌ 多智能体强化学习笔记-1219

文章浏览阅读1.4k次，点赞20次，收藏22次。如何在不同智能体贡献不同的情况下实现鼓励高智能体，又不失去低贡献智能体的积极性。不是，环境是环境

默认分类

2个月前

强化学习‌ 大模型扫盲系列——初识大模型

文章浏览阅读940次，点赞10次，收藏12次。大模型是指具有数千万甚至数亿参数的深度学习模型。近年来，随着计算机技术和大数据的快速发展，深度学习在各个领域...

默认分类

2个月前

强化学习‌ 大模型扫盲系列——初识大模型

文章浏览阅读940次，点赞10次，收藏12次。大模型是指具有数千万甚至数亿参数的深度学习模型。近年来，随着计算机技术和大数据的快速发展，深度学习在各个领域...

默认分类

2个月前

精选全球实用AIGC工具箱

标签：强化学习

模型压缩学界｜韩松、李佳等人提出AMC：用于移动端模型自动压缩与加速的AutoML

DeepSeek-R1‌ DeepSeek-R1与DeepSeek-R1-Zero区别对比

DeepSeek-R1‌ 阿里云PAI的DeepSeek-R1大模型介绍

ChatGPT直达站一文读懂ChatGPT Agent：没超越Manus的能力范畴，但看到了端到端的曙光

深度学习‌ 深度学习的七种常用算法

强化学习‌ AIGC技术研究与应用 —- 下一代人工智能：新范式！新生产力！（2.3-大模型发展历程之图像、视频生成与视觉大模型）

强化学习‌ AIGC技术研究与应用 —- 下一代人工智能：新范式！新生产力！（2.3-大模型发展历程之图像、视频生成与视觉大模型）

强化学习‌ 多智能体强化学习笔记-1219

强化学习‌ 大模型扫盲系列——初识大模型

强化学习‌ 大模型扫盲系列——初识大模型