画像(視覚情報)とテキスト(言語情報)を統合的に処理するAIモデルの総称。画像キャプション生成、視覚的質問応答(VQA)、画像検索など、視覚と言語を橋渡しするタスクに特化した設計を持つ。
Vision Language Model(VLM)は、画像とテキストの両方を理解し、両者の関係性を学習するAIモデルである。「この画像に何が写っているか」「この画像とこのテキストは一致しているか」といった、人間が日常的に行っている視覚-言語間の推論をAIで実現する技術基盤となっている。
VLMの発展はCLIP(Contrastive Language-Image Pre-training)の登場(2021年)が大きな転換点となった。CLIPは4億枚の画像-テキストペアから対照学習で訓練され、ゼロショットで未知のカテゴリを認識できることを示した。これにより「教師ラベルなしに自然言語で視覚概念を指定する」という新しいパラダイムが確立された。
VLMのアーキテクチャは大きく3つの世代に分類できる。
| 世代 | 代表モデル | 手法 | 特徴 |
|---|---|---|---|
| 第1世代 | VisualBERT, LXMERT | 事前学習済みCNN + Transformer融合 | 領域特徴量ベース、遅い |
| 第2世代 | CLIP, ALIGN, SigLIP | 対照学習による画像-テキスト埋め込み | ゼロショット能力、高効率 |
| 第3世代 | LLaVA, GPT-4V, Qwen-VL | LLMに視覚エンコーダを接続 | 自由形式の対話、指示追従 |
第1世代はFaster R-CNNなどの物体検出器で画像から領域特徴量を抽出し、Transformerで言語トークンと統合するアプローチだった。計算コストが高く、物体検出器の前処理がボトルネックとなっていた。
第2世代のCLIPは画像エンコーダとテキストエンコーダを対照学習で同時に訓練し、共通の埋め込み空間を学習する。画像とテキストのコサイン類似度を計算するだけで分類や検索が可能となり、実用性が飛躍的に向上した。
第3世代は大規模言語モデルに視覚エンコーダを接続し、画像を「視覚トークン」としてLLMに入力する。これにより自由形式の対話や複雑な推論が可能になった。
CLIPは現在でもVLMの基盤技術として広く使われている。
CLIPの核心的アイデアは、画像とテキストのペアを正例、不一致のペアを負例として対照学習(Contrastive Learning)を行うことである。学習後の画像エンコーダは任意の自然言語プロンプトに対して類似度を計算でき、事前にカテゴリを定義することなく分類が可能となる。
SigLIP(Sigmoid Loss for Language-Image Pre-training)はCLIPの損失関数をシグモイド関数に置き換えた改良版で、バッチ内の全ペアを独立に評価するため大バッチサイズへのスケーリングが容易になった。PaLI-Gemmaなど多くの最新VLMのビジョンエンコーダとして採用されている。
EVA-CLIPは学習安定性とスケーリング効率を改善した亜種で、ViT-18Bという超大規模モデルでも安定した学習を実現している。
VLMの性能評価には多様なベンチマークが使用されている。
| ベンチマーク | 評価対象 | 指標 |
|---|---|---|
| VQAv2 | 視覚的質問応答 | 正解率 |
| GQA | 構造化推論 | 正解率 |
| TextVQA | 画像内テキスト読み取り | 正解率 |
| MMMU | 大学レベル多分野理解 | 正解率 |
| MMBench | 多角的視覚理解 | 正解率 |
| HallusionBench | ハルシネーション検出 | 正解率 |
| RealWorldQA | 実世界画像理解 | 正解率 |
MMBenchやMMMUは特に重要視されるベンチマークで、単純な物体認識だけでなく、空間推論、カウンティング、OCR、チャート理解、科学的推論など多角的な能力を評価する。
VLMを実務で活用する際の重要なポイントを整理する。
モデル選択の基準 精度最優先なら商用API(GPT-4o、Claude、Gemini)を選択する。コスト・プライバシー・レイテンシを重視するならオープンソースモデル(Qwen2-VL、InternVL)をローカルデプロイする。画像検索や分類のみならCLIP系の軽量モデルで十分である。
画像前処理の影響 解像度、アスペクト比、パッチ分割戦略がモデル性能に大きく影響する。多くのVLMは学習時の解像度(例: 336x336)に最適化されており、これと大きく異なる解像度の入力は性能低下を招く。Qwen2-VLの動的解像度アプローチはこの問題を緩和する。
プロンプト設計 VLMは言語モデル部分のプロンプト設計が性能を大きく左右する。「Describe this image」より「Describe the main objects, their spatial relationships, and any text visible in this image」のように具体的な指示を与える方が精度が向上する。
VLMの研究は以下の方向に進化している。
効率化の観点では、画像トークン数を削減するトークン圧縮技術が注目されている。LLaVA-PruMergeは不要な画像トークンを動的に削減し、性能を維持しながら計算コストを大幅に低減する。
3D理解への拡張も活発で、単一画像から3D構造を推論するモデルや、複数視点の画像を統合して空間理解を行うモデルが開発されている。
エージェント応用として、VLMが画面を「見て」操作手順を生成するGUI Agent(CogAgent、SeeClick等)が急速に発展しており、RPA(ロボティック・プロセス・オートメーション)の次世代技術として期待されている。
VLMは「画像とテキスト」の2つのモダリティに特化したモデルを指す広い用語である。マルチモーダルLLMはLLMをバックボーンとし、画像を含む複数モダリティを処理するモデルを指す。マルチモーダルLLMはVLMの一種ともいえるが、音声や動画にも対応する点で範囲が広い。
可能である。CLIPの画像埋め込みをベクトルDBに格納し、テキストクエリの埋め込みとコサイン類似度で検索する手法は、ECサイトの商品検索やストックフォト検索で実用化されている。OpenCLIPなどのオープンソース実装を利用すればライセンス面でも商用利用可能である。
CLIPの事前学習には4億ペア以上が使用されたが、アライメントチューニングのみなら数十万〜数百万ペアで効果的な学習が可能。LLaVAの指示チューニングは約66万サンプルで高性能を達成した。データの質と多様性が量以上に重要である。