强化学习‌ 强化学习从入门到进阶精选干货汇总

1,032 0 0

作为人工智能工作者，不同领域的知识都多少需要了解点，本文记录作者如何从对强化学习一知半解，由浅入深，一步一步进阶的学习路线。目前作者在研究的相关项目，包括, 等，有机会和大家一起交流学习。

谈起强化学习，我是在研究如何对深度网络模型进行优化时触碰到它的，我们知道，对一个模型优化的方法众多，比如模型剪枝、模型量化、模型压缩等，还有对模型本身结构的优化，比如借鉴一些开源模型结构，比如中的等，除此之外，还有一个研究方向，那就是NAS，即，它是使用强化学习的思想，在一定的搜索空间中去迭代寻找最优的网络模型。当接触NAS时，确实不是懂，因为对强化学习没有什么概念，只知道2016年即阿尔法狗之后的同门师弟阿尔法元在没有任何人类指导的前提下，自学了3天就把它师兄阿尔法狗拍死在沙滩上，感觉好NB的样子，官方也说了，其主要使用强化学习技术，更是激起我对强化学习的兴趣，说干就干，于是开始了各种强化学习探究之路。

像强化学习这种领域知识，网上各种技术贴呈现的内容比较零碎，不容易形成系统地知识体系，作者比较倾向于系统地学习它，经过筛选和甄别，找到了一个叫《强化学习导论》的书，感觉挺不错的，强烈推荐，该书原著是英文版的(有需要的可以下方留言我发给你)，好在有人已经把它翻译成中文的了，而且还整成网页的形式，如下

第1章简介 – 强化学习导论 0.0.1 文档

选择该书的最重要的一个原因是该书中所有例子都有配套源码，供参考学习，这样就极大地方便对书中知识的理解，源码路径为

– /–an-: of : An

粗略地讲一下该书的内容，书中先是通过k臂赌博机引入强化学习中个体、环境、状态、价值等基本概念，继而引出有限马尔可夫决策，然后是贝尔曼方程、动态规划、蒙特卡洛方法、时序差分学习、n步引导等。

我当时在看这本书时可是每个公式都自己亲自推导一遍，书中每个源码都啃了好多遍，反复推敲，然后内化成自己的知识，在调试这些脚本时，有时为了测试自己是否掌握了知识点，我先是自己思考，并先实现一遍源码，调试，然后再看配套源码是怎么实现的，跟上学那会做作业一样，先是自己试着解题，然后再看答案，再总结自己的做法和答案优缺点，每次都会有不一样的收获。

相信我，只要你能耐着性子把这本书前3章读完，同时把源码啃完，强化学习你就算入门了。我当时为了把这本书看完，每天提前2个小时到公司，边看书边调试书中例子代码，也是花了好几个月才啃完，因为看的比较细，花的时间有点长，但收获很多。

除了这个《强化学习导论》，还有一个学习资料挺不错的，叫《深度强化学习研究者资料》

深度强化学习研究者资料 – Up 文档

强化学习‌ 强化学习从入门到进阶精选干货汇总