Alibaba Wan(万相)シリーズ 2.2 世代の画像から動画生成(I2V)モデル。140 億パラメータで 5 秒 720p 動画を生成し、Sora/Runway Gen-3 対抗の OSS 動画生成モデルとして 2025-2026 年に話題。
Wan 2.2 I2V は、中国 Alibaba の Wan(万相、Wanxiang)チームが公開した画像から動画を生成(Image-to-Video、I2V)する OSS 動画生成モデルです。Wan シリーズは、Alibaba の Tongyi(通義)エコシステムにおける動画生成研究プロジェクトとして 2024 年から開発されており、2.2 世代では大幅な品質改善とライセンス開放が行われました。
140 億(14B)パラメータの Diffusion Transformer をベースとし、入力された 1 枚の画像とテキストプロンプトを入力として、5 秒の 720p / 480p 動画(24fps または 30fps)を生成します。OpenAI Sora や Runway Gen-3 Alpha、Pika 1.5 のような商用クローズド動画生成モデルに対する OSS 対抗として、2025-2026 年の動画生成 AI 領域で大きな話題を呼びました。Apache 2.0 系のライセンスで商用利用が可能です。
| モデル | 提供形態 | 解像度 | 長さ | ライセンス |
|---|---|---|---|---|
| Wan 2.2 I2V | OSS | 720p | 5秒 | Apache 2.0 |
| OpenAI Sora | 商用 SaaS | 1080p | 20秒 | OpenAI Terms |
| Runway Gen-3 Alpha | 商用 SaaS | 720p | 10秒 | Runway Terms |
| Stable Video Diffusion | OSS | 576p | 4秒 | Stability AI |
| Pika 1.5 | 商用 SaaS | 720p | 5秒 | Pika Terms |
14B モデルの動画生成は計算コストが大きく、推奨環境は VRAM 24GB(RTX 4090 / RTX 5090)以上です。FP16 で 5 秒動画生成に約 5-10 分、4bit 量子化(Q4_K_M)で 2-5 分が目安です。Mac Studio M3 Ultra(192GB UMA)では FP16 でも実用速度が出ます。
ComfyUI のカスタムノード経由で、画像生成 → 動画生成の連結ワークフローが容易に構築できます。Hugging Face で配布されている公式量子化版を使うと、VRAM 12GB 環境でも 480p の生成が可能です。
Q1: 何秒の動画まで生成できますか? A: 標準は 5 秒です。連続生成や Last-Frame 引継ぎで延長することも可能ですが、整合性は徐々に劣化します。
Q2: テキストから直接動画生成(T2V)は可能ですか? A: Wan 2.2 シリーズには T2V(Text-to-Video)版も別途提供されており、画像入力なしでテキストプロンプトのみから動画を生成できます。
Q3: 商用利用条件は? A: Apache 2.0 系で商用利用可能です。ただし、生成された動画コンテンツのライセンスは Wan 2.2 のライセンスに依存しないため、利用シーンに応じた著作権配慮が必要です。