DARTS（Differentiable Architecture Search）とは？（ダーツ）わかりやすく解説

アーキテクチャの離散的な選択を連続値に緩和し、勾配降下法で効率的に探索するNAS手法。従来の強化学習ベースNASに比べ探索コストを300倍以上削減し、単一GPUでの探索を現実的にした。

DARTS（Differentiable Architecture Search）とは？（ダーツ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

連続緩和のメカニズム

DARTSの核心は「候補演算の混合」にある。各エッジ（ノード間の接続）に対して全候補演算の出力を重み付き和で表現する。

あるエッジの出力は次のように表される:

この連続緩和により、α とネットワーク重み w を交互に勾配降下で最適化するBi-Level最適化問題として解ける。

手法	探索コスト	CIFAR-10 Error	パラメータ数
NASNet-A	500 GPU-days	2.65%	3.3M
AmoebaNet-A	3,150 GPU-hours	3.34%	3.2M
ENAS	0.5 GPU-days	2.89%	4.6M
DARTS (1st order)	0.5 GPU-days	3.00%	3.3M
DARTS (2nd order)	1.5 GPU-days	2.76%	3.3M
P-DARTS	0.3 GPU-days

DARTSはNASNetの300倍以上高速でありながら、同等以上の精度を達成している。

DARTSは探索が進むとSkip Connection（パラメータなしの演算）ばかりが選択される「性能崩壊」を起こすことがある。Skip Connectionは勾配の流れが良いため α が不当に大きくなる傾向があるためだ。

DARTSはPyTorchでの再現実装が多く公開されている。

A: 物体検出（Auto-FPN）、セマンティックセグメンテーション（Auto-DeepLab）、自然言語処理（Evolved Transformer）など多タスクに適用されている。探索空間をタスクに合わせて再設計する必要がある。

A: DARTSはWeight Sharingの一種だ。全候補演算を含むSuperNetの重みを共有しつつ、連続緩和された選択パラメータαを勾配法で最適化する点が特徴。ENASなどもWeight Sharingだが、選択は強化学習で行う。

A: 2nd orderの方が精度は高いがメモリ消費が大きい。GPU メモリ16GB以下なら1st order、24GB以上あれば2nd orderを推奨する。P-DARTSなどの改良手法を使えば1st orderでも十分な精度が得られる。