Google Researchが2020年に発表した、ローカルアテンション・グローバルアテンション・ランダムアテンションの3種を組み合わせたスパースアテンション機構。計算量をO(n)に削減しつつ、グラフ理論に基づき全トークン間の情報到達性を理論的に保証する。
PC構成ビルダーで最適なパーツを選択
BigBirdは、Google Researchが2020年のNeurIPS論文「Big Bird: Transformers for Longer Sequences」で発表したスパースアテンション機構である。標準的なTransformerのFull Attention(O(n²))を、ローカル・グローバル・ランダムの3種のアテンションパターンを組み合わせることでO(n)の線形計算量に削減する。最大4,096トークンの入力に対応し、長文書の質問応答や文書要約タスクで当時のSOTAを達成した。
BigBirdのコアアイデアは、グラフ理論における「エクスパンダーグラフ」の性質に着想を得た3種のアテンションパターンの組み合わせである。
各トークンが周辺w個(デフォルトw=3)の隣接トークンに注意を向ける。テキストの局所的な文脈(構文関係、フレーズ構造)を捕捉する。計算量はO(n×w)で、wが小さいため事実上O(n)。
g個の特別なトークン(g=2がデフォルト)が全てのトークンに対して双方向に注意を向ける。文書全体の情報を集約するハブとして機能し、離れた位置のトークン間の情報伝達を仲介する。計算量はO(n×g)。
各トークンがランダムに選択されたr個(r=3がデフォルト)のトークンに注意を向ける。グラフ理論において、ランダムエッジの追加がグラフの直径を劇的に縮小する性質(小世界ネットワーク効果)を利用し、任意の2トークン間が少ないホップ数で接続されることを保証する。
| パターン | 接続数/トークン | 役割 | 計算量 |
|---|---|---|---|
| ローカル | w=3 | 局所文脈 | O(n×3) |
| グローバル | g=2 | 情報集約ハブ | O(n×2) |
| ランダム | r=3 | 長距離到達性 | O(n×3) |
| 合計 | 8 | 全機能 | O(8n) = O(n) |
BigBirdの最も重要な貢献は、スパースアテンションでもFull Attentionと同等の表現力を持つことの理論的証明である。具体的には以下の3つが証明された:
| 手法 | 発表年 | パターン | 最大長 | 理論保証 | 代表実装 |
|---|---|---|---|---|---|
| BigBird | 2020 | L+G+R | 4,096 | あり | bigbird-roberta-large |
| Longformer | 2020 | L+G | 4,096 | なし | longformer-base-4096 |
| Reformer | 2020 | LSH | 64K | 確率的 | reformer-enwik8 |
| Sparse Transformer | 2019 | L+Strided | 8K |
BigBirdはHugging Face Transformersライブラリに公式実装が含まれており、BigBirdModel、BigBirdForSequenceClassification、BigBirdForQuestionAnswering等のクラスで利用可能。
主要なモデルバリアント:
| タスク | BigBird | RoBERTa (Full) | Longformer | 入力長 |
|---|---|---|---|---|
| TriviaQA (F1) | 79.3 | 74.1 (切り捨て) | 77.8 | 4,096 |
| NarrativeQA (F1) | 57.9 | 47.5 (切り捨て) | 55.6 | 4,096 |
| arXiv要約 (ROUGE-L) | 46.6 | N/A | 45.5 | 4,096 |
| WikiHop (Acc) | 67.3 | 63.8 | 65.7 | 4,096 |
2025-2026年時点では、BigBird自体をそのまま使うケースは減少している。FlashAttention-2/3の登場により16K-32Kトークン程度ならFull Attentionでも十分高速に処理可能となった。しかしBigBirdの「ローカル+グローバル+ランダム」という設計思想は、現代のMistral(Sliding Window)、Gemini(Ring Attention)、DeepSeek-V3(NSA)などに受け継がれている。
Q1: BigBirdとLongformerの違いは何か? A: BigBirdはローカル+グローバル+ランダムの3種パターン、Longformerはローカル+グローバルの2種パターンを使用する。BigBirdはランダムアテンションの追加により、理論的に全トークン間の情報到達性を保証している点が最大の違い。実用的な精度差は小さい。
Q2: BigBirdは現在のLLMでも使われているのか? A: BigBirdのモデル自体は2020年のもので現行LLMには使われていないが、その設計原理(特にローカル+グローバルの組み合わせ)はMistral、Gemini、DeepSeekなど現代の主要モデルに影響を与えている。
Q3: 自作PCでBigBirdモデルを動かすにはどのスペックが必要か? A: bigbird-roberta-baseはRTX 3060(12GB VRAM、約4万円)で十分動作する。bigbird-roberta-largeでもRTX 4060 Ti(16GB VRAM、約7万円)で推論可能。要約モデル(bigbird-pegasus-large)は約8GB VRAMで動作する。
| なし |
| GPT系 |
| ETC | 2020 | L+G | 4K | なし | ETC-large |