Google Researchが2020年に発表した、ローカルアテンション・グローバルアテンション・ランダムアテンションの3種を組み合わせたスパースアテンション機構。計算量をO(n)に削減しつつ、グラフ理論に基づき全トークン間の情報到達性を理論的に保証する。

BigBirdとは？（ビッグバード）わかりやすく解説

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

BigBirdとは？（ビッグバード）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

3種のアテンションパターン

BigBirdのコアアイデアは、グラフ理論における「エクスパンダーグラフ」の性質に着想を得た3種のアテンションパターンの組み合わせである。

ローカルアテンション

各トークンが周辺w個（デフォルトw=3）の隣接トークンに注意を向ける。テキストの局所的な文脈（構文関係、フレーズ構造）を捕捉する。計算量はO(n×w)で、wが小さいため事実上O(n)。

グローバルアテンション

g個の特別なトークン（g=2がデフォルト）が全てのトークンに対して双方向に注意を向ける。文書全体の情報を集約するハブとして機能し、離れた位置のトークン間の情報伝達を仲介する。計算量はO(n×g)。

ランダムアテンション

各トークンがランダムに選択されたr個（r=3がデフォルト）のトークンに注意を向ける。グラフ理論において、ランダムエッジの追加がグラフの直径を劇的に縮小する性質（小世界ネットワーク効果）を利用し、任意の2トークン間が少ないホップ数で接続されることを保証する。

パターン	接続数/トークン	役割	計算量
ローカル	w=3	局所文脈	O(n×3)
グローバル	g=2	情報集約ハブ	O(n×2)
ランダム	r=3	長距離到達性	O(n×3)
合計	8	全機能	O(8n) = O(n)

理論的保証

BigBirdの最も重要な貢献は、スパースアテンションでもFull Attentionと同等の表現力を持つことの理論的証明である。具体的には以下の3つが証明された:

万能近似定理: BigBirdのスパースアテンションは任意の連続関数を近似可能（Universal Approximation）
チューリング完全性: BigBirdは計算理論的にチューリング完全であり、Full Attention Transformerと同等の計算能力を持つ
情報到達性: グラフの直径がO(log n)に抑えられ、任意の2トークン間の情報伝達が少ないレイヤ数で完了する

BigBird vs 他のスパースアテンション

手法	発表年	パターン	最大長	理論保証	代表実装
BigBird	2020	L+G+R	4,096	あり	bigbird-roberta-large
Longformer	2020	L+G	4,096	なし	longformer-base-4096
Reformer	2020	LSH	64K	確率的	reformer-enwik8
Sparse Transformer	2019	L+Strided	8K

実装とHugging Face対応

BigBirdはHugging Face Transformersライブラリに公式実装が含まれており、BigBirdModel、BigBirdForSequenceClassification、BigBirdForQuestionAnswering等のクラスで利用可能。

主要なモデルバリアント:

bigbird-roberta-base: RoBERTa-baseをBigBirdアテンションで再学習。パラメータ数128M、VRAM使用量約2GB
bigbird-roberta-large: RoBERTa-largeベース。パラメータ数355M、VRAM使用量約5GB
bigbird-pegasus-large-arxiv: 長文要約向け。arXiv論文データセットで学習済み
bigbird-pegasus-large-pubmed: 医学論文要約向け。PubMedデータセットで学習済み

性能ベンチマーク

タスク	BigBird	RoBERTa (Full)	Longformer	入力長
TriviaQA (F1)	79.3	74.1 (切り捨て)	77.8	4,096
NarrativeQA (F1)	57.9	47.5 (切り捨て)	55.6	4,096
arXiv要約 (ROUGE-L)	46.6	N/A	45.5	4,096
WikiHop (Acc)	67.3	63.8	65.7	4,096

現代における位置づけ

2025-2026年時点では、BigBird自体をそのまま使うケースは減少している。FlashAttention-2/3の登場により16K-32Kトークン程度ならFull Attentionでも十分高速に処理可能となった。しかしBigBirdの「ローカル+グローバル+ランダム」という設計思想は、現代のMistral（Sliding Window）、Gemini（Ring Attention）、DeepSeek-V3（NSA）などに受け継がれている。

よくある質問（FAQ）

Q1: BigBirdとLongformerの違いは何か？ A: BigBirdはローカル+グローバル+ランダムの3種パターン、Longformerはローカル+グローバルの2種パターンを使用する。BigBirdはランダムアテンションの追加により、理論的に全トークン間の情報到達性を保証している点が最大の違い。実用的な精度差は小さい。

Q2: BigBirdは現在のLLMでも使われているのか？ A: BigBirdのモデル自体は2020年のもので現行LLMには使われていないが、その設計原理（特にローカル+グローバルの組み合わせ）はMistral、Gemini、DeepSeekなど現代の主要モデルに影響を与えている。

Q3: 自作PCでBigBirdモデルを動かすにはどのスペックが必要か？ A: bigbird-roberta-baseはRTX 3060（12GB VRAM、約4万円）で十分動作する。bigbird-roberta-largeでもRTX 4060 Ti（16GB VRAM、約7万円）で推論可能。要約モデル（bigbird-pegasus-large）は約8GB VRAMで動作する。

まとめ

BigBirdはローカル+グローバル+ランダムの3種アテンションでO(n)計算量を実現
グラフ理論に基づく理論的保証（万能近似、チューリング完全性、到達性）を持つ
Hugging Faceで公式実装済み、質問応答・要約タスクに適用可能
現代LLMのスパースアテンション設計に大きな影響を与えた先駆的手法
比較的軽量なモデルが多く、RTX 3060以上で動作可能

メニュー

BigBird（ビッグバード）

この用語に関連するコンテンツ