Attentionスコア計算時にトークン間の相対距離に応じた学習可能なバイアス値を加算する手法。T5やDeBERTaで採用され、絶対位置エンコーディングよりも優れた汎化性能を示す。相対位置エンコーディングの代表的な実装方式の一つ。
Relative Position Bias は、Self-Attention のスコア計算においてトークン間の相対的な距離に基づくバイアス項を加算する位置エンコーディング手法である。Raffel et al.(2020)のT5で体系化され、その後 DeBERTa(He et al., 2021)で拡張された。
従来の絶対位置エンコーディング(Sinusoidal/Learned)がトークン埋め込みに位置情報を加算するのに対し、Relative Position Bias はAttention計算の内部で位置情報を導入する点が本質的に異なる。
通常のAttentionスコア: score(i, j) = q_i^T · k_j / √d_k
Relative Position Bias付き: score(i, j) = q_i^T · k_j / √d_k + b(i - j)
ここで b(i - j) は相対距離 (i - j) に対する学習可能なバイアス値である。
| 相対距離 | バイアス値 b | 意味 |
|---|---|---|
| -K | b_{-K} | K個前のトークン |
| ... | ... | ... |
| -1 | b_{-1} | 直前のトークン |
| 0 | b_0 | 自分自身 |
| +1 | b_{+1} | 直後のトークン |
| ... | ... |
| ... |
| +K | b_{+K} | K個後のトークン |
T5では相対距離を対数的にバケット化し、遠距離のバイアスを粗く、近距離のバイアスを細かく表現する。
T5は相対距離を直接テーブル化するのではなく、対数バケットにマッピングすることでメモリ効率とスケーラビリティを両立している。
| バケット範囲 | 距離 | 粒度 |
|---|---|---|
| 0-7 | 0-7 | 1トークン単位(精密) |
| 8-15 | 8-127 | 対数的にまとめる |
| 最大バケット | 128+ | 全て同一バケット |
この設計は「近いトークンほど正確な距離情報が重要」という直感に基づいている。位置0と位置1の違いは重要だが、位置500と位置501の違いは通常無視できる。
DeBERTa(Decoding-enhanced BERT with disentangled Attention)は、Relative Position Bias をさらに洗練し、Disentangled Attention メカニズムを導入した。
DeBERTaのAttentionスコアは以下の4項の和で計算される:
| 成分 | 計算 | 意味 |
|---|---|---|
| Content-to-Content | q_c^T · k_c | トークン内容同士の関連 |
| Content-to-Position | q_c^T · k_p | 内容から位置への注目 |
| Position-to-Content | q_p^T · k_c | 位置から内容への注目 |
| Position-to-Position | 省略 | 情報量が少ないため除外 |
ここで q_c/k_c は内容ベクトル、q_p/k_p は位置ベクトルから生成された Query/Key である。
この分離(Disentangle)により、内容情報と位置情報が独立に活用され、特に自然言語推論(NLI)タスクで顕著な性能向上を示した。
| 特性 | Relative Position Bias | RoPE | ALiBi | Sinusoidal |
|---|---|---|---|---|
| バイアスの学習 | あり(テーブル) | なし | なし(固定) | なし |
| 注入箇所 | Attentionスコア | Q/Kベクトル | Attentionスコア | トークン埋め込み |
| 距離の表現 | バケット化テーブル | 回転行列 | 線形ペナルティ | 間接的 |
| 外挿性能 | 中程度 | 高い(拡張込み) | 高い | 低い |
| 主な採用モデル | T5, DeBERTa | LLaMA, Qwen | BLOOM, MPT | 元祖Transformer |
Relative Position Bias は、大規模 Decoder-only LLM ではRoPEやALiBiに主流の座を譲ったが、以下の分野で重要な役割を果たし続けている。
遠距離のバケット化による精度低下は実験的にほぼ観測されない。言語モデリングにおいて、遠距離トークン間の正確な距離情報は重要性が低いため、対数バケット化は理にかなった近似である。
Disentangled Attentionは Content-to-Position と Position-to-Content の2つの追加 Attention 計算を必要とするため、計算コストが増加する。Decoder-only LLMではRoPEがより計算効率的に相対位置を表現できるため、DeBERTa方式は主にEncoder系モデルに留まっている。
両者ともAttentionスコアにバイアスを加算するが、Relative Position Biasのバイアスは学習可能であるのに対し、ALiBiのバイアスは固定の線形関数である。ALiBiは追加パラメータが不要な代わりに表現力が制限される。