FlashAttentionとは？（フラッシュアテンション）わかりやすく解説

Transformerのセルフアテンション計算をIO効率化するアルゴリズム。HBMとSRAM間のデータ転送を最小化するタイリング技法により、標準アテンションと数学的に等価な結果を2〜4倍高速に算出する。

FlashAttentionとは？（フラッシュアテンション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

アテンション計算のボトルネック

標準的なセルフアテンションは以下の計算を行う:

シーケンス長Nが4,096〜128,000に達する現代のLLMでは、N²サイズのアテンション行列をHBMに書き出す必要があり、これがメモリ帯域のボトルネックとなる。H100のHBM帯域は3.35TB/sだが、SRAM帯域は33TB/s以上であり、約10倍の差がある。

GPU	HBM容量	HBM帯域	SRAM容量	SRAM帯域	演算性能(FP16)
A100 80GB	80GB	2.0 TB/s	20MB/SM	~19 TB/s	312 TFLOPS
H100 SXM	80GB	3.35 TB/s	50MB/SM	~33 TB/s	989 TFLOPS
H200	141GB	4.8 TB/s

バージョン	対応GPU	主要改善	対標準比速度	理論FLOPS利用率
FA-1	Ampere+	タイリング導入	2〜4×	~35%
FA-2	Ampere+	ワーク分配最適化	3〜5×	~73%
FA-3	Hopper+	TMA/FP8/WGMMA	5〜8×	~85%