AI21 Labsが2024年3月に公開したMamba(SSM)とTransformerのハイブリッドMoEモデル。52Bパラメータ(アクティブ12B)で、Mambaの線形計算量とTransformerのアテンション精度を組み合わせた新アーキテクチャ。256Kコンテキストウィンドウと低メモリ推論が特長。
Jambaは、イスラエルのAI21 Labsが2024年3月に公開したMamba(SSM)・Transformer・MoEの3要素を融合したハイブリッド大規模言語モデルである。52Bパラメータ(アクティブ12B)で、256Kトークンのコンテキストウィンドウを低メモリで処理可能。Transformer一辺倒のLLM業界に、SSMベースの代替アーキテクチャの可能性を示した。
Jambaのレイヤー構成(ブロック単位の繰り返し):
| レイヤー種別 | 計算量 | KVキャッシュ | MoE | 役割 |
|---|---|---|---|---|
| Mamba層 | O(n) | 不要 | なし | 長距離依存性の効率的処理 |
| Mamba層 | O(n) | 不要 | なし | 同上 |
| Transformer層 | O(n²) | 必要 | あり(16x Top-2) | 精密なアテンション計算 |
| Mamba層 | O(n) | 不要 | なし | 長距離依存性の効率的処理 |
各ブロックはMamba:Transformer = 7:1の比率。Transformer層の数を最小限に抑えることでKVキャッシュのメモリ使用量を大幅削減。
| モデル | アーキテクチャ | コンテキスト | 256Kでのメモリ | 計算量 |
|---|---|---|---|---|
| Jamba | Mamba+Transformer+MoE | 256K | ~30GB | O(n)支配的 |
| Llama 3 70B | Transformer | 8K→128K | ~120GB以上 | O(n²) |
| Mixtral 8x7B | Transformer+MoE | 32K | ~60GB | O(n²) |
| Mamba-2 7B | SSMのみ | 理論上無制限 | ~15GB | O(n) |
Q1: MambaとTransformerの違いは? A: Transformerはアテンション機構でシーケンス全体を参照(O(n²)計算量)。Mamba(SSM)は状態空間モデルで固定サイズの隠れ状態を通じてシーケンスを処理(O(n)計算量)。Transformerは精度が高いがメモリ消費大、Mambaは効率的だが精度がやや劣る。Jambaは両者のいいとこ取り。
Q2: JambaはGPT-4やClaude 3.5より優れている? A: 性能面ではGPT-4o・Claude 3.5 Sonnetに及ばない。Jambaの真価は「低メモリで超長文脈を処理できる効率性」。256Kコンテキスト処理をA100 1枚で行える点は独自の強み。
Q3: Mamba系モデルはTransformerを置き換える? A: 2026年時点では完全な置き換えは起きていない。Jambaのようなハイブリッドアプローチが主流になりつつある。GoogleのRecurrentGemma(Griffin)やMicrosoft のRetNet等、SSM/RNN的要素を取り入れたハイブリッドモデルが増加中。