为加强研究生学术交流活动,推进学术创新,特开通“研究生学术报告预告区”。我校研究生和教师可以在预告区及时发布和了解有关研究生学术报告的信息,届时参加。也可就某学术报告展开专题讨论与交流。
首先回顾了强化学习的基础知识与相关理论。强化学习依托马尔科夫模型与动态规划,采用智能体与环境进行交互的方式,解决序列决策问题。目前强化学习算法主要可以分为三类:基于值函数,基于策略梯度和基于模型。在无人机以及机器人领域的应用,主要以基于策略梯度的方案居多。调研中发现的世界领先的学术团队主要有:Deep Mind,提出了DQN、DDPG算法等,并将该算法应用到游戏中,使电脑游戏达到了比人类优秀的水平;苏黎世大学,把多个强化学习算法用于无人机姿态的稳定控制,可以实现无人机的抛飞等动作;MIT的学者把强化学习应用于多无人机的路径规划等。