Paged Attentionとは？（ページドアテンション）わかりやすく解説

Q: Paged Attentionとは？

vLLMが提案したKVキャッシュのメモリ管理手法で、OSの仮想メモリページング方式を応用して固定サイズブロックでK/Vを管理し、メモリフラグメンテーションを解消する技術。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Paged Attentionとは？（ページドアテンション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

従来方式の問題点

メモリの無駄遣い

従来の推論フレームワーク（HuggingFace Transformers、FasterTransformer等）では:

事前確保: 各リクエストに最大シーケンス長（例: 4,096トークン）分のKVキャッシュメモリを一括確保
内部フラグメンテーション: 実際の生成が500トークンで終了しても、残り3,596トークン分のメモリは無駄に確保されたまま
外部フラグメンテーション: 異なるサイズのリクエストが終了・開始を繰り返すことで、使用可能だが小さすぎるメモリ断片が蓄積
メモリ利用率: 実測で20〜40%程度。80%のメモリが無駄になるケースも

スループットの制約

メモリの非効率な使用は直接的にバッチサイズ（同時処理リクエスト数）を制限する:

GPU	VRAMTotal	モデル	従来方式バッチ	Paged Attention バッチ
A100 80GB	80GB	Llama 2 13B	8〜12	32〜48
H100 80GB	80GB	Llama 3 8B	16〜24	64〜96

リクエスト到着
  → 論理ブロック0を物理ブロック#42にマッピング
  → プリフィル: ブロック#42にK/Vを格納

デコード開始（トークン生成）
  → ブロック#42が満杯（16トークン）
  → 新しい物理ブロック#107を割り当て
  → ブロックテーブル更新: 論理1 → 物理#107

リクエスト完了
  → 物理ブロック#42, #107を解放
  → 即座に他のリクエストで再利用可能

リクエスト1: [System Prompt] + [User Query 1]
  → System Prompt のKV: ブロック#1-5（新規計算）
  → User Query 1のKV: ブロック#20-22

リクエスト2: [System Prompt] + [User Query 2]
  → System Prompt のKV: ブロック#1-5（キャッシュヒット！再利用）
  → User Query 2のKV: ブロック#30-31

指標	HF TGI	vLLM	改善率
メモリ利用率	20〜40%	95%+	2.5〜5×
スループット（req/s）	12	36	3×
P99レイテンシ	850ms	420ms	2×
同時バッチサイズ	8	32	4×
TTFT（Llama 2 13B, 2K入力）	180ms	145ms	1.2×

メニュー

Paged Attention（ページドアテンション）

メニュー

Paged Attention（ページドアテンション）

この用語に関連するコンテンツ

Paged Attentionとは

従来方式の問題点

メモリの無駄遣い

スループットの制約

Paged Attentionの仕組み

ブロックベースのメモリ管理

動作フロー

Copy-on-Write

Paged Attention v2

Prefix Cachingとの統合

性能比較

採用状況

よくある質問（FAQ）

まとめ

関連用語