Attention スコアに距離に比例した線形ペナルティを加算することで位置情報を表現する手法。学習可能なパラメータを追加せず、訓練時より長いコンテキストへの外挿性能に優れる。BLOOMやMPTなどの大規模モデルで採用された。
ALiBi(Attention with Linear Biases)は、Press et al.(2022)が提案した位置エンコーディング手法で、Attentionスコアにトークン間距離に比例した線形バイアスを加算するシンプルかつ効果的なアプローチである。従来の位置エンコーディングのようにトークン埋め込みを変更するのではなく、Attention計算の最終段階でバイアスを加えることで位置情報を注入する。
ALiBiの計算は極めてシンプルである。通常の Attention スコア QK^T/√d_k に対して、トークン間の距離に比例したペナルティ項を加算する。
| ステップ | 通常のAttention | ALiBi |
|---|---|---|
| 1 | QK^T/√d_k | QK^T/√d_k |
| 2 | softmax | + m × 距離行列 |
| 3 | - | softmax |
| 4 | × V | × V |
ここで m はヘッドごとに固定された傾き(slope)パラメータで、学習は不要である。
n個のAttentionヘッドに対して、傾き m は以下の等比数列で設定される:
m_1 = 2^(-8/n), m_2 = 2^(-16/n), ..., m_n = 2^(-8)
例えば 8ヘッドの場合:
| ヘッド | 傾き m | 役割 |
|---|---|---|
| Head 1 | 2^(-1) = 0.5 | 最も急勾配(局所重視) |
| Head 2 | 2^(-2) = 0.25 | |
| Head 3 | 2^(-3) = 0.125 | |
| ... | ... | |
| Head 8 | 2^(-8) ≈ 0.004 | 最も緩勾配(大域重視) |
この設計により、あるヘッドは近接トークンに強く注目し、別のヘッドは遠距離トークンも含めて広く注目するというマルチスケールの位置感度が実現される。
ALiBiの最大の特長は、訓練時のコンテキスト長を超えた推論での性能劣化が小さいことである。
| 手法 | 訓練長 | 2倍長での性能 | 4倍長での性能 |
|---|---|---|---|
| Sinusoidal | 1024 | 大幅劣化 | 使用不可 |
| Learned | 1024 | 大幅劣化 | 使用不可 |
| RoPE(素) | 2048 | 中程度劣化 | 顕著な劣化 |
| ALiBi | 1024 | 軽微な劣化 | 中程度劣化 |
線形バイアスは距離が増えるほどAttentionスコアを減衰させるだけなので、未知の距離に対しても自然に振る舞う。
| 観点 | ALiBi | RoPE |
|---|---|---|
| 位置情報の注入先 | Attentionスコア(バイアス加算) | Q/Kベクトル(回転乗算) |
| 学習パラメータ | なし(傾きは固定) | なし(周波数は固定) |
| 外挿性能(素) | 優秀 | 中程度 |
| 拡張手法との相性 | 限定的 | YaRN/NTK等で大幅拡張可能 |
| 主な採用モデル | BLOOM, MPT | LLaMA, Qwen, Gemma |
| 現在の主流度 | やや後退 | 事実上の標準 |
ALiBiは素の外挿性能では優位だが、RoPE + YaRN の組み合わせが128K以上のコンテキスト長で優れた結果を示したため、2024年以降の新規モデルではRoPE採用が主流となっている。
| モデル | パラメータ数 | コンテキスト長 |
|---|---|---|
| BLOOM | 176B | 2048 |
| MPT-7B/30B | 7B/30B | 2048-65K |
| Falcon(一部) | 7B/40B | 2048 |
傾き m は等比数列で事前に決定されるため学習が不要。この設計は「近いトークンほど重要」という言語の普遍的な性質を反映しており、タスクやデータに依存しない。
RoPE + YaRN のような拡張技術との組み合わせが限定的で、超長文(128K+)への対応ではRoPE系に劣る。また、双方向Attention(BERTのようなモデル)への適用では追加の工夫が必要になる。
理論的には可能だが、実用例はほとんどない。両者は位置情報の注入箇所が異なるため(ALiBiはAttentionスコア、RoPEはQ/Kベクトル)、併用すると位置情報が過剰になり性能が低下する報告がある。