为加强研究生学术交流活动,推进学术创新,特开通“研究生学术报告预告区”。我校研究生和教师可以在预告区及时发布和了解有关研究生学术报告的信息,届时参加。也可就某学术报告展开专题讨论与交流。
深度学习中的优化与一般优化不同。一般优化是指最小化损失函数本身;深度学习中的优化则关注定义于测试集上的,甚至可能是不可解的某些性能度量P,通过训练降低损失函数来间接提高P。当存在多个局部极小点或平坦区域时,优化算法可能无法找到全局最小点。
在深度学习的背景下,即使找到的解不是真正最小的,但只要它们对应于代价函数的显著低的值,
我们通常就能接受这样的解。主要包括:(1)基于梯度下降:最速下降法、随机梯度下降、带冲量的梯度下降;(2)自适应学习率算法:Adagrad、RMSProp、Adam;(3)二阶近似方法:牛顿法、共轭梯度法、拟牛顿法(BFGS、DFP)等。