论文阅读 DARTS: Differentiable Architecture Search

这篇论文是发表在ICLR 2019的《DARTS: Differentiable Architecture Search》,文章的作者是CMU的Yiming Yang 组,第一作者是Hanxiao Liu。

这篇论文使用可微分的方法进行神经网络架构搜索,将搜索空间relax,然后建模成为一个嵌套优化的问题,并提出了一个one-step的approximate的优化方法,可以用1-2d的GPU hours达到和RL-based NAS类似的结果

方法

搜索空间的relax

  • 神经网络为一个tensor作为node、operation作为edges的DAG
  • N个node编号,所有小号对应的node连edge到大号对应的node
  • 确定edge的种类为Conv等神经网络层还是identity或者不连接
  • 网络只搜normal block和reduction block,CIFAR10有$10^25$(里面有isomorphism)

建模问题

  • 将所有的搜索空间可选操作集的weighted sum作为edge操作
  • 优化这个weight softmax(α)
  • $\min_{\alpha} L_{val}(w^(\alpha),\alpha) s.t. w^(\alpha)=\arg\min_{w}L_{train}(w,\alpha)$
  • 最后从每个edge的operation set里面选择最大的top-k alpha新建网络训练

one-step的approximate优化方法

  • 两步优化
    • 使用更新后的w作为参数,使用梯度下降法在validation set上优化alpha
    • 更新w的参数
    • 如果不用w更新后的参数,就是first-order的方法,效果更差一点
  • 避免alpha在training set上过拟合
  • 选择合适的w学习的学习率对结果影响大

实验

  • CIFAR10
  • 迁移ImageNet
  • PTB

评价

这篇文章使用可微分的方法将NAS搜索的时间大大降低了,理论部分也有两阶段优化的一些理论依据(first-order和second-order确实有差别),而不是简单的拍拍脑袋做了实验,这点需要学习。
接着这篇论文可以做很多工作。

#
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×