研究生学术报告预告登记(开题、中期、答辩)

       为加强研究生学术交流活动,推进学术创新,特开通“研究生学术报告预告区”。我校研究生和教师可以在预告区及时发布和了解有关研究生学术报告的信息,届时参加。也可就某学术报告展开专题讨论与交流。

报告人: 李佳伦
学号: 2016204155
学院: 电气与自动化工程学院
报告类型: 第二次学术报告
日期: 2018年05月24日
时间: 10:30
地点: 26D448
导师: 付晓梅
题目: 基于贝叶斯强化学习的多中继选择方法研究
内容提要:

强化学习研究未知动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率方法。因此,把强化学习和贝叶斯学习结合,Agent可以根据已有的经验和新学到的知识来选择采用何种策略,即探索未知动作还是采用已知的最优动作。每个中继节点都是一个agent,因此多中继选择一个多agent的强化学习问题,每个中继通过学习更新概率,通过当前学习到的信息指导下一步的动作,直到长期收益值V收敛。

图片:
登记人: 李佳伦
登记时间: 2018年05月23日 星期三 10:36