テキスト・画像・音声・動画など複数の情報形式(モダリティ)を統合的に理解・生成できる大規模言語モデルの総称。従来のテキスト専用LLMを拡張し、異なるモダリティ間の意味的対応関係を学習することで、より人間に近い多感覚的な情報処理を実現する。
マルチモーダルLLM(Multimodal Large Language Model)は、テキストだけでなく画像・音声・動画といった複数の情報形式を同時に処理できる大規模言語モデルである。GPT-4oやGemini、Claude 3.5など最新のモデルが代表例であり、従来のテキスト専用モデルでは不可能だった「画像を見て説明する」「音声を聞いて要約する」といったクロスモーダルなタスクを単一モデルで実行できる。
人間は視覚・聴覚・言語を統合して世界を理解しているが、マルチモーダルLLMはこの能力をAIで再現しようとするアプローチといえる。単にモダリティごとの専門モデルを組み合わせるパイプライン方式とは異なり、モデル内部で異なるモダリティの表現を統一的な潜在空間にマッピングすることで、より自然で文脈に即した応答が可能になる。
マルチモーダルLLMのアーキテクチャは大きく3つのコンポーネントから構成される。
| コンポーネント | 役割 | 代表例 |
|---|---|---|
| モダリティエンコーダ | 各入力形式を特徴ベクトルに変換 | ViT(画像)、Whisper(音声)、CLIP(画像-テキスト) |
| アライメントモジュール | 異なるモダリティの特徴を共通空間に射影 | Q-Former、Linear Projection、Perceiver Resampler |
| LLMバックボーン | 統合された特徴から推論・生成を実行 | LLaMA、PaLM、GPTシリーズ |
モダリティエンコーダは各入力を高次元の特徴表現に変換する。画像ならViT(Vision Transformer)がパッチ単位でエンコードし、音声ならWhisperやHuBERTがスペクトログラムから特徴を抽出する。アライメントモジュールはこれらの異なる特徴空間をLLMが理解できるトークン列に変換する橋渡し役である。
特にアライメントの設計がモデル性能を大きく左右する。BLIP-2のQ-Formerは学習可能なクエリトークンを用いて画像特徴から言語に有用な情報を選択的に抽出する。一方、LLaVAのLinear Projectionはシンプルな線形層で画像パッチ特徴を直接LLMの入力空間にマッピングする。どちらが優れるかはタスクやデータ規模に依存する。
マルチモーダルLLMの学習は通常、複数段階に分けて行われる。
第1段階:事前学習(Pre-training) 大規模な画像-テキストペアデータ(LAION-5B、CC12Mなど)を用いて、モダリティ間のアライメントを学習する。この段階ではLLMバックボーンの重みは凍結し、アライメントモジュールのみを学習するケースが多い。
第2段階:指示チューニング(Instruction Tuning) マルチモーダルな指示-応答ペアを用いてモデル全体をファインチューニングする。LLaVA-Instructは GPT-4を用いて画像に対する多様な質問-回答ペアを自動生成し、この段階の学習データとして活用した。
人間のフィードバックやDirect Preference Optimizationを用いて、ハルシネーション(画像に存在しない内容を生成する現象)を抑制し、応答品質を向上させる。
学習データの質と多様性が最終的なモデル性能を決定づける。特にマルチモーダルな指示データは作成コストが高いため、GPT-4等の強力なモデルを活用した合成データ生成が標準的な手法となっている。
2024-2025年に登場した主要なマルチモーダルLLMを比較する。
| モデル | 開発元 | 対応モダリティ | パラメータ規模 | 特徴 |
|---|---|---|---|---|
| GPT-4o | OpenAI | テキスト・画像・音声・動画 | 非公開 | ネイティブマルチモーダル、低遅延音声対話 |
| Gemini 1.5 Pro | テキスト・画像・音声・動画・コード | 非公開 | 100万トークン長コンテキスト | |
| Claude 3.5 Sonnet | Anthropic | テキスト・画像 | 非公開 | 高精度な画像理解、安全性重視 |
| LLaVA-NeXT | オープンソース | テキスト・画像・動画 | 7B〜110B | 高解像度対応、動画理解 |
| Qwen2-VL | Alibaba | テキスト・画像・動画 | 2B〜72B | 動的解像度、多言語対応 |
| InternVL 2.5 | Shanghai AI Lab | テキスト・画像・動画 | 1B〜108B | OCR特化、ドキュメント理解 |
商用モデルはパラメータ数を非公開としているが、オープンソースモデルも急速に性能を向上させている。特にLLaVA-NeXTやQwen2-VLは商用モデルに迫るベンチマークスコアを達成しており、ローカル環境でのマルチモーダルAI活用の道を開いている。
マルチモーダルLLMは幅広い分野で実用化が進んでいる。
医療画像診断支援 X線写真やMRI画像をテキストで説明し、異常所見の候補を提示する。放射線科医のスクリーニング効率化に活用されているが、最終判断は必ず医師が行う必要がある。
ドキュメント処理・OCR 請求書、契約書、手書きメモなどを画像として入力し、構造化データとして抽出する。従来のOCR+ルールベースのパイプラインと比較して、レイアウトの多様性への対応力が格段に向上している。
ロボティクス・自動運転 カメラ映像と自然言語の指示を統合して行動計画を生成する。RT-2のようなVision-Language-Actionモデルは、マルチモーダルLLMの概念をロボット制御に拡張したものである。
アクセシビリティ 視覚障害者向けに画像の内容を音声で詳細に説明する。Be My AIなどのサービスがGPT-4Vを活用してリアルタイムの視覚支援を提供している。
クリエイティブ制作 画像を参考にしたテキスト生成、テキスト指示による画像編集、スタイル転送など、人間のクリエイティブワークフローを支援する用途が拡大している。
マルチモーダルLLMにはいくつかの重要な課題が残されている。
マルチモーダルハルシネーションは最大の課題の一つであり、画像に存在しないオブジェクトや属性を生成してしまう現象が頻繁に発生する。POPE(Polling-based Object Probing Evaluation)などの専用ベンチマークで評価・改善が進められているが、完全な解消には至っていない。
計算コストも大きな課題である。高解像度画像を処理する場合、画像パッチ数が増大しLLMへの入力トークン数が爆発的に増加する。動的解像度やトークン圧縮技術による効率化が活発に研究されている。
今後はリアルタイムの音声・映像対話、3D空間理解、触覚フィードバックなど、より多くのモダリティを統合する方向に進化が進むと予想される。GPT-4oのようなネイティブマルチモーダルモデル(各モダリティを後付けではなく最初から統合的に学習するアプローチ)が主流になりつつある。
従来の画像認識AIは「犬」「猫」といったラベル分類が中心だったが、マルチモーダルLLMは画像の内容を自然言語で自由に記述でき、画像に関する質問への応答や画像をもとにした推論が可能である。つまり「認識」から「理解と対話」へと能力が拡張されている。
LLaVA(7B〜13B)やQwen2-VL(2B〜7B)などの小型モデルは、VRAM 8GB以上のGPUで動作可能である。量子化(GGUF形式など)を適用すれば、さらに軽量な環境でも推論できる。ただし商用モデルと比較すると性能差がある。
Gemini 1.5 ProやGPT-4oは動画を直接入力として受け付ける。オープンソースではLLaVA-NeXT-VideoやVideo-LLaMAが動画理解に対応している。ただし長時間動画の処理はコンテキスト長やメモリの制約から依然として課題が多い。
POPE、CHAIR、MMHal-Benchなどのベンチマークで定量評価が可能。実運用では、生成されたテキストと入力画像の整合性を別モデルで検証するクロスチェック方式が有効である。