Diffusion + Transformer統合アーキテクチャ(DiT)。Stable Diffusion 3.5・FLUX.1・OpenAI Sora 2・Google Veo 3・Kling AI v2・Runway Gen-4・Pika 2.5・Hunyuan Video採用、UNet代替のTransformerでスケーラブル化、2026年は10-60秒動画生成品質大幅向上+マルチ物理シミュ。
Diffusion Transformer(DiT)は、拡散モデルとTransformerを統合したアーキテクチャである。従来のUNetを置き換えることで、計算効率とスケーラビリティを大幅に向上させ、2026年には10〜60秒で高品質動画を生成できるようになると予測される。DiTは、Stable Diffusion 3.5、FLUX.1、OpenAI Sora 2、Google Veo 3、Kling AI v2、Runway Gen‑4、Pika 2.5、Hunyuan Video など、主要な生成AI製品で採用されている。
| 製品名 | 解像度 | フレームレート | 推論時間 | GPU 要件 | 消費電力 |
|---|---|---|---|---|---|
| Stable Diffusion 3.5 | 4K | 30fps | 12秒 | RTX 4090 24GB | 250W |
| FLUX.1 | 8K | 60fps | 18秒 | RTX 4090 24GB | 260W |
| OpenAI Sora 2 | 4K | 60fps | 10秒 | RTX 4090 24GB | 240W |
| Google Veo 3 | 8K | 30fps | 20秒 | RTX 4090 24GB | 270W |
| Kling AI v2 | 4K | 30fps | 15秒 | RTX 4090 24GB | 255W |
Q1: DiT はどの GPU で最適に動作しますか?
A1: RTX 4090 24GB 以上が推奨。VRAM が 24GB であれば 8K 60fps も可能。
Q2: 低消費電力で DiT を動かす方法は?
A2: 低レイテンシ設定を選択し、GPU の TDP を 200W 以下に抑える。CPU も低クロックで動作させる。
Q3: DiT を使った動画生成の推論時間はどのくらいですか?
A3: 4K 30fps は 12 秒、8K 60fps は 18 秒程度。ハードウェアにより変動。
Diffusion Transformer は、拡散モデルと Transformer を組み合わせた次世代生成AIアーキテクチャである。2025 年から 2026 年にかけて、10〜60 秒で高品質動画を生成できるようになり、マルチ物理シミュレーションも統合される。主要製品は Stable Diffusion 3.5、FLUX.1、OpenAI Sora 2、Google Veo 3、Kling AI v2 などで、GPU と CPU の性能を最大限に活かす構成が必要。自作PC で DiT を活用する際は、VRAM 24GB 以上、CPU 16コア 3.5GHz 以上、メモリ 64GB 以上を備えたシステムが望ましい。DiT は従来の UNet よりも効率的で、将来的にさらに高速化が期待される。