FlashAttentionとは？（フラッシュアテンション）わかりやすく解説

Q: FlashAttentionとは？

Stanford大学のTri Daoらが提案したAttention計算のIO最適化アルゴリズム。GPUのHBM（高帯域メモリ）とSRAM（オンチップメモリ）間のデータ転送を最小化するタイリング手法により、標準的なAttentionと数学的に等価な結果をメモリ使用量O(n)・最大3倍の高速化で実現する。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

FlashAttentionとは？（フラッシュアテンション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

なぜ高速化できるのか

GPUメモリ階層の理解

メモリ種別	容量（A100）	帯域幅	用途
HBM（VRAM）	80 GB	2 TB/s	モデル重み、KVキャッシュ
L2キャッシュ	40 MB	~5 TB/s	中間バッファ
SRAM（共有メモリ）	192 KB/SM	~19 TB/s	レジスタ直近の高速メモリ

標準Attention実装は「QK^Tの全n×n行列をHBMに書き込み→Softmax→V乗算」と3回のHBMアクセスが必要です。FlashAttentionはこれを1パスに統合し、ブロック単位でSRAM内に保持したまま計算を完結させることで、HBMアクセス回数を劇的に削減します。

タイリング（ブロック分割）

Attention行列をB_q × B_k サイズのブロックに分割し、1ブロックずつSRAMに読み込んで処理します。各ブロックの計算結果はオンライン（逐次的に）正規化することで、全体のSoftmaxと数学的に同一の結果を得られます。

バージョンの進化

バージョン

実装	Attention行列メモリ	合計メモリ	備考
標準（PyTorch naive）	2 GB/ヘッド	64 GB	n²のAttention行列を実体化
FlashAttention	~数MB	~数MB	行列を実体化しない

フレームワーク	統合方法	備考
PyTorch 2.0+	`torch.nn.functional.scaled_dot_product_attention`	自動的にFlashAttentionカーネルを選択
Hugging Face Transformers	`model.config.attn_implementation = "flash_attention_2"`	明示的に有効化
vLLM	デフォルトで有効	PagedAttentionと併用
TensorRT-LLM	自動最適化	H100向けFA3も統合
llama.cpp	Metal/CUDA対応のFA実装内蔵	ローカルLLM推論

FlashAttention v1	2022	タイリング+リマテリアライゼーション	2-4x	A100, H100
FlashAttention-2	2023	ワープ間並列化、非因果マスク対応	5-9x	A100, H100, RTX 4090
FlashAttention-3	2024	FP8対応、非同期ワープスケジューリング	1.5-2x vs FA2	H100, H200

メニュー

FlashAttention（フラッシュアテンション）

メニュー

FlashAttention（フラッシュアテンション）

この用語に関連するコンテンツ

FlashAttentionとは

なぜ高速化できるのか

GPUメモリ階層の理解

タイリング（ブロック分割）

バージョンの進化

FlashAttention-2の改善点

FlashAttention-3の改善点

メモリ使用量の比較

対応フレームワークとライブラリ

FlashAttentionが使えない場合

よくある質問

Q1: FlashAttentionを使うとモデルの出力は変わりますか？

Q2: RTX 3090でFlashAttentionは使えますか？

Q3: FlashAttentionとPagedAttentionの違いは何ですか？

関連用語