论文笔记 ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

这篇是发表在ICLR2019的论文《ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware》,第一作者是Song Han的19级博士生Han Cai,本科硕士毕业于上海交大。

文章提出了使用sample binary的连接方式来进行One-Shot NAS的训练,从而减少显存开销还有计算开销。

方法

Proxyless

  • 使用sample binary连接的方式,减少训练和计算开销
    • 每层的每一种operation有α的概率被sample出来
    • 相当于用个小网络进行训练部分weight
  • 直接可以搜索所有的block的不同配置
  • 不用在Cifar-10上训练迁移

path-level pruning perspective of NAS

  • 网络的搜索和剪枝类似,去掉相应的连接
  • 步骤
    • 先固定α,训练网络的参数
    • 固定参数,训练α,两种更新方法
      • 1.gradient的方法
      • 2.新提出的Reinforce的方法
        • $\partial J(\alpha)/\partial alpha=\sum_i R(N(e=o_i))p_i\partial log(p_i)/\partial \alpha$
    • prune那些不重要的连接

hardware-aware的搜索

  • 将latency整合到loss里面去
    • $CE+lambda_1|W|_1+lambda_2latency$
  • 将latency整合到reward里面去
    • $ACC(m)*[LAT(m)/T]^\omega$
      • T是目标latency

实验

  • 空间
  • CIFAR-10
    • Gradient 2.08%err 5.7M param
    • Reinforce 2.3%err 5.8M param
  • ImageNet
    • MobileNetV3结构
      “””
      • 3×3dilateddepthwise-separableconvolution
      • Identity
      • 3×3depthwise-separableconvolution
      • 5×5depthwise-separableconvolution
      • 7×7depthwise-separableconvolution
      • 3×3averagepooling
      • 3×3maxpooling
      “””
    • gradient 方案 top1 71.8% 83ms
    • Reinforce方案 top1 74.6% 78ms
    • 200hours

总结

这篇论文提出剪枝来做NAS搜索,具有很强理论指导意义;同时二值化网络训练,具有很强的实践意义。简单的Reinforce训练思路也棒。

#
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×