论文笔记 《Universally Slimmable Networks and Improved Training Techniques》

这篇文章是发表在ICCV2019的《Universally Slimmable Networks and Improved Training Techniques》,作者是UIUC的 Jiahui Yu。属于Thomas Huang(黄煦涛)组。 Jiahui Yu是中科大少年班本科毕业,2020年UIUC博士毕业现在在Google Brain做Research Scientist。

这篇文章在之前Slimmable Networks的基础上进行了改进,使得它能以任意的宽度运行。文章提出了三明治规则和就地知识蒸馏来提升训练速度的和测试的准确率。

方法

任意的width实现

  • sample from 0.25x - 1.0x

BN训练

  • 不要switchable BN
  • 训练使用正常的BN,但是在一个固定大小的网络测试之前使用1000张图片重新计算BN的mean和var

三明治规则

  • 发现性能被最小的网络和最大的网络bound住了
  • 优化最小的网络和最大的网络能够隐式的优化所有的width
  • 使用最小的和最大的网络加上sample中间大小的几个网络进行前向和反向传播

就地知识蒸馏

  • 使用当前的最大网络的输出作为其他网络的知识蒸馏目标

实验

  • ImageNet MobileNetv1v2
    • 相比于独立训练和switchable的训练,平均准确率提升了
    • 在max和min上面表现尤为突出
  • Ablation 三明治训练
    • 效果很好 max+random的训练没有作用,但是min+random的训练非常好
  • Sample的越多越好,但2个sample的width就够好了
  • width的lower bound有影响

总结

小改进,推翻了之前switchable的方法。三明治定理很有意思,可以继续研究。max和min的这个bound对interval的影响也可以进一步探究,尤其是可解释性的问题。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×