Gan Networkは、人工知能・機械学習分野における重要な概念・技術です。
GAN(Generative Adversarial Network、敵対的生成ネットワーク)は、2014 年に Ian Goodfellow らによって提案された深層学習アーキテクチャです。2つのニューラルネットワーク「生成器(Generator)」と「識別器(Discriminator)」を競わせることで、本物と見分けがつかない画像・音声・テキストを生成できる革新的な技術として、画像生成 AI の基礎を築きました。
この「敵対的学習」により、生成される画像の質が徐々に向上します。
| モデル | 発表年 | 特徴 | 用途 |
|---|---|---|---|
| Vanilla GAN | 2014 | 基本形 | 研究基盤 |
| DCGAN | 2015 | CNN ベース | 画像生成 |
| CycleGAN | 2017 | ペアなし変換 | 馬 → シマウマ |
| StyleGAN | 2018 | 高品質人物顔 | ThisPersonDoesNotExist |
| StyleGAN2 | 2020 | アーティファクト除去 | フォトリアル |
| StyleGAN3 | 2021 | 回転・平行移動耐性 | アニメーション |
| BigGAN | 2018 | 大規模、多クラス | 多様な画像 |
| Pix2Pix | 2017 | 画像ペア変換 | スケッチ → 写真 |
2022 年以降、Stable Diffusion、Midjourney、DALL-E 2 などの Diffusion Model が GAN を凌駕し、画像生成の主流となりました:
| 項目 | GAN | Diffusion Model |
|---|---|---|
| 品質 | 高い | さらに高い |
| 多様性 | 限定的 | 非常に高い |
| 学習安定性 | 不安定(モード崩壊) | 安定 |
| テキストプロンプト | 限定的 | 優れる |
| 推論速度 | 高速(1ステップ) | 低速(10-50 ステップ) |
| モデル | 推論 VRAM | 学習 VRAM |
|---|---|---|
| DCGAN | 2GB | 4GB |
| StyleGAN2 (1024px) | 6GB | 12GB |
| StyleGAN3 (1024px) | 8GB | 16GB |
| BigGAN | 8GB | 24GB+ |
GAN の代表的な問題で、Generator が多様性を失い、似たような画像しか生成しなくなる現象です。