LLMアテンション機構とは？（エルエルエムアテンションキコウ）わかりやすく解説

Q: LLMアテンション機構とは？

アテンション機構とは、入力シーケンス内の各トークンが他の全トークンとの関連度を動的に計算し、重要な情報に選択的に注目する仕組みである。2017年のTransformer論文「Attention Is All You Need」で提案されたSelf-Attentionが基盤となり、GPT-4o、Claude 4、Gemini 2.5 Pro、Llama 3.1など現代のLLMすべてがこの機構を中核に採用している。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLMアテンション機構とは？（エルエルエムアテンションキコウ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

LLMアテンション機構とは

LLMアテンション機構は、Transformerアーキテクチャの中核をなす計算手法であり、入力テキスト中の各トークンが他のすべてのトークンとの関連性スコアを算出し、文脈に応じた表現を生成する。2017年にGoogle Brainが発表した論文「Attention Is All You Need」（Vaswani et al.）でSelf-Attention（自己注意）として提案され、RNNやLSTMに代わるシーケンスモデリングの主流となった。

概要と歴史的背景

アテンション機構のアイデア自体は2014年のBahdanau Attention（機械翻訳向け）に遡るが、Transformerが全結合型のSelf-Attentionを導入したことで計算の並列化が可能となり、大規模言語モデルの学習効率が飛躍的に向上した。

年代	手法	特徴	代表モデル
2014	Bahdanau Attention	エンコーダ-デコーダ間の加法アテンション	seq2seq翻訳
2017	Scaled Dot-Product Attention	Q・K・Vの内積ベース、並列計算可能	Transformer (base/big)
2019	Multi-Head Attention	複数ヘッドで異なる部分空間の関係を捕捉	BERT, GPT-2
2023	FlashAttention-2	IO-Aware実装でHBM帯域を最適化	Llama 2, Mistral 7B
2024	Grouped-Query Attention	KVヘッド共有でメモリ効率化	Llama 3.1, Gemma 2
2025	Ring Attention	デバイス間でシーケンスを分散処理	Gemini 2.5 Pro (1Mトークン)

Self-Attentionの計算原理

Self-Attentionは3つの行列 Query (Q)、Key (K)、Value (V) を用いて計算される：

ステップ1: 入力埋め込みにWq、Wk、Wvの重み行列を乗じてQ、K、Vを生成
ステップ2: QとKの転置行列の内積を計算し、次元数dkの平方根で除算（Scaled Dot-Product）
ステップ3: Softmax関数でアテンションスコア（重み）を正規化
ステップ4: スコアとVの加重和を出力として返す
計算量: シーケンス長nに対してO(n^2)の時間・空間計算量が必要
GPT-4oの実装: 推定128ヘッド、モデル次元12,288、1ヘッドあたり96次元
Llama 3.1 405B: 128ヘッド、モデル次元16,384、GQA採用でKVヘッド8個に圧縮

主要なアテンション変種

現代のLLMでは、基本のSelf-Attentionを効率化・拡張した多数の変種が開発されている：

手法	計算量	メモリ効率	長文対応	採用モデル
Multi-Head Attention (MHA)	O(n^2 * d)	標準	制限あり	GPT-3, BERT
Multi-Query Attention (MQA)

メニュー

LLMアテンション機構（エルエルエムアテンションキコウ）

メニュー

LLMアテンション機構（エルエルエムアテンションキコウ）

この用語に関連するコンテンツ

LLMアテンション機構とは

概要と歴史的背景

Self-Attentionの計算原理

主要なアテンション変種

KVキャッシュとアテンションの関係

ハードウェアとアテンション最適化

よくある質問（FAQ）

まとめ

関連用語