Alibaba Wan(万相)シリーズ 2.2 世代の画像から動画生成(I2V)モデル。140 億パラメータで 5 秒 720p 動画を生成し、Sora/Runway Gen-3 対抗の OSS 動画生成モデルとして 2025-2026 年に話題。

Wan 2.2 I2Vとは？（ワンニーニーアイトゥーブイ）わかりやすく解説

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Wan 2.2 I2Vとは？（ワンニーニーアイトゥーブイ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主な特徴・仕組み

14B パラメータの Diffusion Transformer ベース。
入力: 1 枚の画像 + テキストプロンプト → 出力: 5 秒の動画。
解像度: 480p / 720p、フレームレート: 24fps / 30fps。
物体運動の整合性、カメラワーク表現、肌や髪のディテールが向上。
ComfyUI / Diffusers ですぐに動作、量子化版(GGUF)も配布。
Apache 2.0 系のライセンス、商用利用可能。

競合動画生成モデル比較

モデル	提供形態	解像度	長さ	ライセンス
Wan 2.2 I2V	OSS	720p	5秒	Apache 2.0
OpenAI Sora	商用 SaaS	1080p	20秒	OpenAI Terms
Runway Gen-3 Alpha	商用 SaaS	720p	10秒	Runway Terms
Stable Video Diffusion	OSS	576p	4秒	Stability AI
Pika 1.5	商用 SaaS	720p	5秒	Pika Terms

自作PCでの選び方・注意点

14B モデルの動画生成は計算コストが大きく、推奨環境は VRAM 24GB(RTX 4090 / RTX 5090)以上です。FP16 で 5 秒動画生成に約 5-10 分、4bit 量子化(Q4_K_M)で 2-5 分が目安です。Mac Studio M3 Ultra(192GB UMA)では FP16 でも実用速度が出ます。

ComfyUI のカスタムノード経由で、画像生成 → 動画生成の連結ワークフローが容易に構築できます。Hugging Face で配布されている公式量子化版を使うと、VRAM 12GB 環境でも 480p の生成が可能です。

よくある質問(FAQ)

Q1: 何秒の動画まで生成できますか? A: 標準は 5 秒です。連続生成や Last-Frame 引継ぎで延長することも可能ですが、整合性は徐々に劣化します。

Q2: テキストから直接動画生成(T2V)は可能ですか? A: Wan 2.2 シリーズには T2V(Text-to-Video)版も別途提供されており、画像入力なしでテキストプロンプトのみから動画を生成できます。

Q3: 商用利用条件は? A: Apache 2.0 系で商用利用可能です。ただし、生成された動画コンテンツのライセンスは Wan 2.2 のライセンスに依存しないため、利用シーンに応じた著作権配慮が必要です。

まとめ

Alibaba Wan 2.2 シリーズの I2V 動画生成モデル
14B パラメータ Diffusion Transformer、5 秒 720p 動画生成
Apache 2.0 系で商用利用可能、Sora / Runway 対抗の OSS
RTX 4090 / Mac Studio M3 Ultra クラスの自作機で実用速度

メニュー

Wan 2.2 I2V（ワンニーニーアイトゥーブイ）

この用語に関連するコンテンツ

メニュー

Wan 2.2 I2V（ワンニーニーアイトゥーブイ）

この用語に関連するコンテンツ

概要

主な特徴・仕組み

競合動画生成モデル比較

自作PCでの選び方・注意点

関連用語との違い

よくある質問(FAQ)

まとめ

関連用語