ALiBi（Attention with Linear Biases）とは？（アリバイアテンション）わかりやすく解説

Q: ALiBi（Attention with Linear Biases）とは？

Attention スコアに距離に比例した線形ペナルティを加算することで位置情報を表現する手法。学習可能なパラメータを追加せず、訓練時より長いコンテキストへの外挿性能に優れる。BLOOMやMPTなどの大規模モデルで採用された。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

ALiBi（Attention with Linear Biases）とは？（アリバイアテンション）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

ALiBiの仕組み

ALiBiの計算は極めてシンプルである。通常の Attention スコア QK^T/√d_k に対して、トークン間の距離に比例したペナルティ項を加算する。

Attention スコアの計算

ステップ	通常のAttention	ALiBi
1	QK^T/√d_k	QK^T/√d_k
2	softmax	+ m × 距離行列
3	-	softmax
4	× V	× V

ここで m はヘッドごとに固定された傾き（slope）パラメータで、学習は不要である。

ヘッドごとの傾き設定

n個のAttentionヘッドに対して、傾き m は以下の等比数列で設定される：

m_1 = 2^(-8/n), m_2 = 2^(-16/n), ..., m_n = 2^(-8)

例えば 8ヘッドの場合：

ヘッド	傾き m	役割
Head 1	2^(-1) = 0.5	最も急勾配（局所重視）
Head 2	2^(-2) = 0.25
Head 3	2^(-3) = 0.125
...	...
Head 8	2^(-8) ≈ 0.004	最も緩勾配（大域重視）

この設計により、あるヘッドは近接トークンに強く注目し、別のヘッドは遠距離トークンも含めて広く注目するというマルチスケールの位置感度が実現される。

ALiBiの外挿性能

ALiBiの最大の特長は、訓練時のコンテキスト長を超えた推論での性能劣化が小さいことである。

手法	訓練長	2倍長での性能	4倍長での性能
Sinusoidal	1024	大幅劣化	使用不可
Learned	1024	大幅劣化	使用不可
RoPE（素）	2048	中程度劣化	顕著な劣化
ALiBi	1024	軽微な劣化	中程度劣化

線形バイアスは距離が増えるほどAttentionスコアを減衰させるだけなので、未知の距離に対しても自然に振る舞う。

RoPEとの比較

観点	ALiBi	RoPE
位置情報の注入先	Attentionスコア（バイアス加算）	Q/Kベクトル（回転乗算）
学習パラメータ	なし（傾きは固定）	なし（周波数は固定）
外挿性能（素）	優秀	中程度
拡張手法との相性	限定的	YaRN/NTK等で大幅拡張可能
主な採用モデル	BLOOM, MPT	LLaMA, Qwen, Gemma
現在の主流度	やや後退	事実上の標準

ALiBiは素の外挿性能では優位だが、RoPE + YaRN の組み合わせが128K以上のコンテキスト長で優れた結果を示したため、2024年以降の新規モデルではRoPE採用が主流となっている。

採用モデル

モデル	パラメータ数	コンテキスト長
BLOOM	176B	2048
MPT-7B/30B	7B/30B	2048-65K
Falcon（一部）	7B/40B	2048

FAQ

Q1: ALiBiはなぜ学習パラメータが不要なのか？

傾き m は等比数列で事前に決定されるため学習が不要。この設計は「近いトークンほど重要」という言語の普遍的な性質を反映しており、タスクやデータに依存しない。

Q2: ALiBiの弱点は？

RoPE + YaRN のような拡張技術との組み合わせが限定的で、超長文（128K+）への対応ではRoPE系に劣る。また、双方向Attention（BERTのようなモデル）への適用では追加の工夫が必要になる。

Q3: ALiBiとRoPEを組み合わせることは可能？

理論的には可能だが、実用例はほとんどない。両者は位置情報の注入箇所が異なるため（ALiBiはAttentionスコア、RoPEはQ/Kベクトル）、併用すると位置情報が過剰になり性能が低下する報告がある。

メニュー

ALiBi（Attention with Linear Biases）（アリバイアテンション）

この用語に関連するコンテンツ

メニュー

ALiBi（Attention with Linear Biases）（アリバイアテンション）

この用語に関連するコンテンツ