为加强研究生学术交流活动,推进学术创新,特开通“研究生学术报告预告区”。我校研究生和教师可以在预告区及时发布和了解有关研究生学术报告的信息,届时参加。也可就某学术报告展开专题讨论与交流。
强化学习研究未知动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率方法。因此,把强化学习和贝叶斯学习结合,Agent可以根据已有的经验和新学到的知识来选择采用何种策略,即探索未知动作还是采用已知的最优动作。每个中继节点都是一个agent,因此多中继选择一个多agent的强化学习问题,每个中继通过学习更新概率,通过当前学习到的信息指导下一步的动作,直到长期收益值V收敛。