モデルの精度だけでなく推論レイテンシ・消費電力・メモリ使用量などのハードウェア制約を同時に最適化するNAS手法。エッジデバイスやモバイル向けの効率的なモデル設計で特に重要となる。
Hardware-Aware NAS(ハードウェア考慮型ニューラルアーキテクチャ探索)は、ニューラルネットワークの精度とハードウェア上の実行効率を同時に最適化するNAS手法だ。従来のNASが精度のみを最適化していたのに対し、実際のデプロイ先デバイスでのレイテンシ・スループット・消費電力・メモリフットプリントを制約条件または目的関数に組み込む。
FLOPs(浮動小数点演算数)が同じモデルでも、実際のハードウェア上では推論速度が大きく異なる。例えばDepthwise Convolutionは理論FLOPsが小さいが、GPU上ではメモリアクセスパターンの悪さから期待ほど高速化しない。
| 指標 | 理論的 | 実際のハードウェア |
|---|---|---|
| FLOPs | 演算数のみ反映 | メモリ帯域・並列度を無視 |
| レイテンシ | FLOPsに比例しない | メモリアクセス・カーネル起動コストに依存 |
| スループット | バッチ効率を無視 | バッチサイズ・パイプライン並列度で変動 |
| 消費電力 | 演算数に相関するが一致しない | メモリI/O・クロックに大きく依存 |
| 手法 | 発表 | ターゲットHW | ハードウェア指標 | 成果 |
|---|---|---|---|---|
| MnasNet | 2019 Google | Pixel Phone | 実機レイテンシ | ImageNet 75.2% / 78ms |
| ProxylessNAS | 2019 MIT | GPU/CPU/Mobile | 実機レイテンシ | MobileNetV2比+2.6%精度 |
| FBNet | 2019 Facebook | Mobile | 実機レイテンシ | MnasNet比1.5倍高速 |
| OFA (Once-for-All) | 2020 MIT | 多デバイス | 各デバイス実測 | 1回学習で多数デバイス対応 |
| EfficientNet-EdgeTPU | 2021 Google | Coral EdgeTPU | EdgeTPU実機 | Edge推論最適化 |
| LiteTransformer | 2020 MIT | Mobile | ARM CPU実測 |
実機測定は正確だが時間がかかる。大規模探索ではレイテンシ予測モデル(Latency Predictor)で代替する。
各演算のレイテンシを事前に実機計測してテーブル化し、アーキテクチャ全体のレイテンシを各層の合計として推定する。nn-Meter(Microsoft, 2021)が代表的だ。
アーキテクチャの特徴量(層数、カーネルサイズ、チャネル数など)からレイテンシを回帰予測する。ランダムフォレストやGBDT、またはGraph Neural Networkが使われる。予測誤差は5-10%程度。
精度とレイテンシは一般にトレードオフ関係にある。Hardware-Aware NASではPareto最適解集合を求め、ユーザーが要件に応じて解を選択するアプローチが一般的だ。
具体的にはNSGA-IIなどの多目的進化アルゴリズムや、重み付きスカラー化(精度 - λ×レイテンシ)による単目的化が用いられる。MnasNetではλの調整により精度重視〜速度重視のモデルを一度の探索で複数獲得した。
| デバイス | 重要指標 | 避けるべき演算 | 推奨演算 |
|---|---|---|---|
| Mobile GPU | レイテンシ | 大カーネル Conv | Depthwise Sep Conv |
| Edge TPU | レイテンシ | 非対応Op | 量子化対応Conv |
| Server GPU | スループット | メモリ律速Op | Tensor Core対応Op |
| ARM CPU | 消費電力 | 大FLOPs Op | Int8量子化Conv |
A: 使える。レイテンシ計測スクリプトを用意し、探索ループに組み込めばよい。nn-Meterのようなツールは計測自動化もサポートしている。ただしFPGAのように合成に時間がかかるハードウェアでは、LUTベースの予測モデルが必要になる。
A: 必要だ。A100とH100ではTensor Coreの世代が異なりFP8対応の有無も違う。同じモデルでもGPU世代によって最適な構造が変わるため、デプロイ先を明確にした探索が推論コスト削減につながる。
A: 積極的に組み合わせるべきだ。量子化を考慮した探索空間(Mixed Precision NAS)では、各層のビット幅(FP16/INT8/INT4)もNASで同時最適化する。HAQ(Hardware-Aware Quantization)がその代表例で、レイテンシ制約下での精度を大幅に改善できる。
| Transformer軽量化 |