Alibaba が 2025 年 9 月リリースした画像編集特化マルチモーダルモデル。テキスト指示による画像のローカル編集・物体追加削除・スタイル変換に対応し、生成だけでなく編集領域で OSS 最先端の地位を確立。
Qwen Image Edit(モデル ID: qwen-image-edit-2509)は、中国 Alibaba の Qwen チームが 2025 年 9 月に公開した画像編集特化マルチモーダルモデルです。Qwen-VL シリーズのマルチモーダル理解能力を引き継ぎつつ、既存画像の編集タスク(物体追加・削除・置換、スタイル変換、マスク領域編集)に特化したファインチューニングが施されています。
ベースとなる画像生成モデルは Qwen-Image であり、それに編集タスクの教師データを追加学習させた構造です。テキスト指示「赤いシャツを青に変えて」「背景を森にして」「左上の人物を消して」といった自然な日本語・中国語・英語プロンプトで、画像のローカル編集が可能です。Adobe Firefly や OpenAI DALL-E 3 の inpainting に対する OSS 対抗として位置付けられ、商用ライセンス利用も可能です。
| 製品 | タイプ | 編集精度 | 速度 | ライセンス |
|---|---|---|---|---|
| Qwen Image Edit | OSS | 高 | 中 | Apache 2.0 |
| Adobe Firefly | 商用 SaaS | 最高 | 速 | Adobe Terms |
| DALL-E 3 inpaint | 商用 API | 高 | 中 | OpenAI Terms |
| Stable Diffusion 3.5 inpaint | OSS | 中 | 速 | Stability AI |
| Flux 2 Dev + ControlNet | OSS | 高 | 中 | Black Forest |
VRAM 12GB(RTX 4070 Ti / RTX 5070)があれば実用速度で動作します。24GB(RTX 4090 / RTX 5090)あれば高解像度 1024x1024 の編集も快適です。Mac Studio M3 Ultra なら FP16 で 1 枚 30-60 秒、Mac mini M4 Pro でも実用範囲です。
ComfyUI のカスタムノードや Diffusers Pipeline でサポートされており、ワークフロー組み込みも比較的容易です。商用利用は月間アクティブユーザー数閾値の確認が必要なため、Tongyi Qianwen License の最新版を確認してください。
Q1: マスク画像なしでも編集できますか? A: はい。テキスト指示だけで自動的に編集領域を推定する機能があります。精密制御が必要なら、別途マスク画像を指定する従来のワークフローも可能です。
Q2: ComfyUI での使い方は? A: Hugging Face からモデルをダウンロードし、ComfyUI の models/diffusion_models 配下に配置。専用カスタムノードがコミュニティから公開されています。
Q3: 日本語プロンプトで使えますか? A: はい、日本語プロンプトで自然に動作します。Qwen 系の日本語処理能力は競合 OSS より高い水準にあります。