直播 | 旷视研究院最新理论成果:批归一化和权重衰减的球面优化机制

一直以来,批归一化(Batch Normalization,BN)和权重衰减(weight decay,WD)都以其出色稳定的表现成为了当今各种深度学习模型的标准配置,但它们的理论机制却仅有模糊的定性分析。为此旷视研究院针对该问题进行了深度研究并取得重要成果,相关论文成果已经发布至 arXiv。

论文地址:https://arxiv.org/pdf/2006.08419.pdf

在本次直播分享中,PaperWeekly 邀请到旷视研究院基础模型组算法研究员万若斯,为大家带来「批归一化和权重衰减的球面优化机制」的主题分享,欢迎大家准时收看。

直播时间 & 地址

直播时间:7 月 9 日(周四)晚 7 点

直播地点:https://live.bilibili.com/14884511

分享提纲

本报告将介绍旷视研究院最新理论研究成果「在 BN 和 WD 对深度神经网络的训练过程的共同作用的球面优化机制」(Spherical Motion Dynamics, SMD)。值得注意的是,基于球面优化机制的定量理论结果,不受限于模型的结构、数据集或任务类型,可以在诸如  ImageNet、COCO 等基于真实数据的复杂计算机视觉任务上得到完美验证。

本次分享的具体内容有:

  • BN与WD的背景

    • BN的表达方式与放缩不变性

    • BN和WD对损失函数的地形的影响

  • BN和WD的球面优化机制

    • 球面优化机制的推导

    • 球面优化机制的部分性质

  • 实验结果

    • 在不同模型、数据集、计算机视觉任务上验证球面优化机制

    • 讨论球面优化机制对调参的影响

  • 结论

嘉宾介绍

万若斯 / 旷视研究院算法研究员 

万若斯,现为旷视研究院基础模型组的算法研究员。在北京大学数学科学学院取得应用数学学士学位,并在北京大学前沿交叉学院获得数据科学硕士学位。主要研究方向是深度学习模型与训练方法的理论基础。

传送门 

实习生简历投通道请点击→这里

欢迎大家关注如下 旷视研究院 官方微信号????