Vision Language Modelとは？（ビジョンランゲージモデル）わかりやすく解説

画像（視覚情報）とテキスト（言語情報）を統合的に処理するAIモデルの総称。画像キャプション生成、視覚的質問応答（VQA）、画像検索など、視覚と言語を橋渡しするタスクに特化した設計を持つ。

Vision Language Modelとは？（ビジョンランゲージモデル）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

アーキテクチャの分類

VLMのアーキテクチャは大きく3つの世代に分類できる。

世代	代表モデル	手法	特徴
第1世代	VisualBERT, LXMERT	事前学習済みCNN + Transformer融合	領域特徴量ベース、遅い
第2世代	CLIP, ALIGN, SigLIP	対照学習による画像-テキスト埋め込み	ゼロショット能力、高効率
第3世代	LLaVA, GPT-4V, Qwen-VL	LLMに視覚エンコーダを接続	自由形式の対話、指示追従

第1世代はFaster R-CNNなどの物体検出器で画像から領域特徴量を抽出し、Transformerで言語トークンと統合するアプローチだった。計算コストが高く、物体検出器の前処理がボトルネックとなっていた。

第2世代のCLIPは画像エンコーダとテキストエンコーダを対照学習で同時に訓練し、共通の埋め込み空間を学習する。画像とテキストのコサイン類似度を計算するだけで分類や検索が可能となり、実用性が飛躍的に向上した。

第3世代は大規模言語モデルに視覚エンコーダを接続し、画像を「視覚トークン」としてLLMに入力する。これにより自由形式の対話や複雑な推論が可能になった。

CLIPは現在でもVLMの基盤技術として広く使われている。

CLIPの核心的アイデアは、画像とテキストのペアを正例、不一致のペアを負例として対照学習（Contrastive Learning）を行うことである。学習後の画像エンコーダは任意の自然言語プロンプトに対して類似度を計算でき、事前にカテゴリを定義することなく分類が可能となる。