首页 » 技术分享 » 强化学习心得体会

强化学习心得体会

 

强化学习心得体会

非常有幸在今年6月16日至6月23日参加百度举办的强化学习7日打卡营。由NeurIPS全球顶级冠军团队授课,带你从零实践强化学习。课程是在bilibili上直播授课,科老师和班主任都是人美声甜有实力。接下来进入正题,下面是我上这门课的一些体会和感悟吧。

强化学习

强化学习是机器学习的方法之一,强化学习主要强调基于环境而行动,与环境交互的过程中通过学习策略的达到回报最大化或实现特定目标的问题。

学习到的算法

在本次培训中,我们一类强化学习算法,主要包括基于模型和无模型的两类算法。基于模型的算法主要通过值迭代和策略迭代方法。而无模型的方法是我们本次培训的重点。我们学习了基于价值的Sarsa,Q-learning方法。强化学习与深度学习相结合的DQN以及基于策略DDPG等等方法。课程主要在AIStudio上进行实践,这里提一下,百度飞浆paddlepaddle挺好用的,用的parl也是非常好用。这里给出parl的GitHub地址https://github.com/PaddlePaddle/PARL/tree/develop/examples/tutorials
这里有很多不错的代码可以参考。

我在作业过程中的一些感悟

其实我是第一次接触强化学习,算是学习小白,这里我打算分享一些我在做作业碰见的一些心得。
第一天,我们的作业是(1)正确安装强化学习环境库GYM、强化学习框架库PARL (2)下载代码库PARL,运行QuickStart。 预期结果:QuickStart运行成功,分数reward收敛至200分,
这个比较简单,老师给了代码,但是不知为何,我也是运行了好几次才成功,这里给出两个tips,第一个就是如果paddle下载不成功可以考虑用百度源或者清华源。然后#!git clone --depth=1 https://github.com/PaddlePaddle/PARL.git # 下载PARL代码库这个下载不成功的话考虑用下面这个地址
!git clone --depth=1 https://gitee.com/PaddlePaddle/PARL.git # 下载PARL代码库
就可以成功。
第二天,我们的作业是
实现Sarsa算法玩迷宫游戏 预期效果:最终输出的 test reward 为1.0。
实现Q-learning算法玩迷宫游戏, 预期效果:最终输出的test reward为1.0
这次作业基本很快收敛。这里就不多说,没踩雷。主要是弄清楚这两个算法的区别就好。
第三天,我们的作业是关于DQN。
请按照notebook中说明,完成4处代码的补充和调试。预期效果:test_reward > -140,分数越高越好。
搭建Model、Algorithm、Agent架构,通过调试学习率和reward来完成任务,这个我只调试了0.001,0.002,0.005的学习率,很快就选择了最适合的学习率,达到了收敛。
第四天的作业比较头疼,我只拿了80分。完成PG解决Pong问题。
请按照notebook中说明,完成4处代码的补充和调试。预期效果:分数从-21开始逐渐上涨收敛,Test reward的分数可以收敛到0分以上(说明打败对方了),越高越好。
这个程序我跑了一整天,每次都大概需要3-4小时,大概跑了5次,可是最后一直没有达到正数,最高的是-2。有点遗憾,继续修改代码,调参。
最后一次大作业,大作业:四轴飞行器悬浮。跑一次花了整整8个小时,一大早9点就起来跑代码,碰见两次问题,第一次是在这里插入图片描述
报错之后发现,要加一行代码
在这里插入图片描述
加到42行之后就没报错了,最后在这里插入图片描述结果还不错
最后结果还不错。

最后要说的话

感谢百度给我们这次机会学到了很多知识,希望以后能多开这样类似的给新手培训的课程,谢谢。

转载自原文链接, 如需删除请联系管理员。

原文链接:强化学习心得体会,转载请注明来源!

0