FlashAttentionとは？（フラッシュアテンション）わかりやすく解説

Q: FlashAttentionとは？

FlashAttentionとは、GPUのメモリ階層（SRAM/HBM）を意識したIO-Awareなアテンション計算アルゴリズムであり、標準的なアテンション実装と数学的に同一の結果を返しながら、実行速度を2〜4倍高速化しメモリ使用量をO(n^2)からO(n)に削減する。Tri Dao（Stanford/Together AI）が2022年に提案し、FlashAttention-2（2023年）、FlashAttention-3（2024年、H100/Hopper最適化）と進化を続けている。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

FlashAttentionとは？（フラッシュアテンション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

FlashAttention（フラッシュアテンション）とは

FlashAttentionは、標準的なSelf-Attentionの計算結果を一切変えることなく（exact attention）、GPUメモリ階層の特性を活用して実行時間を2〜4倍高速化するアルゴリズムである。Tri Dao（Stanford大学、現Together AI CTO）が2022年の論文「FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness」で発表した。

なぜFlashAttentionが必要なのか

標準アテンション実装の問題点は、n x nのアテンション行列をHBM（GPU外部メモリ）に書き出す必要があることにある：

問題	標準アテンション	FlashAttention
アテンション行列サイズ	O(n^2) HBMに格納	タイル単位でSRAMに保持
HBM読み書き回数	O(n^2 * d)	O(n^2 * d^2 / M)
メモリ使用量	O(n^2)	O(n)
128Kトークン時のメモリ	約64GB（fp16）	数百MB
Softmax計算	行全体を一度にロード	オンラインSoftmaxで逐次計算

ここでMはSRAMサイズ（A100で20MB、H100で50MB）、dはヘッド次元である。

FlashAttentionの動作原理

FlashAttentionの核心は「タイリング」と「オンラインSoftmax」の2つの技術にある：

タイリング（Tiling）: Q・K・V行列をSRAMに収まるブロック（タイル）に分割し、タイルごとにアテンション計算を実行。HBMへのアテンション行列の書き出しを完全に回避
オンラインSoftmax: 行全体のSoftmax正規化をブロック単位で逐次的に計算。各ブロックの最大値と指数和を累積的に更新することで、正確なSoftmax結果を得る
逆伝播の再計算: 順伝播時にアテンション行列を保存せず、逆伝播時にQ・K・Vから再計算。メモリO(n)と引き換えに計算量は約20%増加するが、HBM帯域がボトルネックの実環境では全体性能が向上

バージョン別進化

バージョン	年	対応GPU	主要改善	実測速度（A100比）
FlashAttention-1	2022	A100	タイリング + オンラインSoftmax	2〜4x
FlashAttention-2	2023	A100/H100	ワープ間並列化、非因果マスク最適化	1.5〜2x (v1比)
FlashAttention-3	2024

シーケンス長	標準実装 (ms)	FlashAttention-2 (ms)	速度向上	メモリ削減
1,024	2.1	0.8	2.6x	85%
4,096	28.5	8.2	3.5x	94%
16,384	442	120	3.7x	98%
65,536	OOM	1,850	-	99.6%
131,072	OOM	7,200	-	99.8%

メニュー

FlashAttention（フラッシュアテンション）

メニュー

FlashAttention（フラッシュアテンション）

この用語に関連するコンテンツ

FlashAttention（フラッシュアテンション）とは

なぜFlashAttentionが必要なのか

FlashAttentionの動作原理

バージョン別進化

実装とフレームワーク対応

ベンチマーク結果

よくある質問（FAQ）

まとめ

関連用語