AI21 Labsが2024年3月に公開したMamba（SSM）とTransformerのハイブリッドMoEモデル。52Bパラメータ（アクティブ12B）で、Mambaの線形計算量とTransformerのアテンション精度を組み合わせた新アーキテクチャ。256Kコンテキストウィンドウと低メモリ推論が特長。

Jambaとは？（ジャンバ）わかりやすく解説

主な特徴

Mamba + Transformer ハイブリッド: Mamba層（SSM・線形計算量）とTransformer層（Self-Attention・二次計算量）を交互に積み重ね。MambaのO(n)効率とTransformerの精度を両立

MoE統合: 一部のMamba/Transformer層にMoEを適用。16エキスパートからTop-2を選択

256Kコンテキスト: 256,000トークンのコンテキストウィンドウ。Mamba層が長距離依存性を効率的に処理

メモリ効率: 256Kコンテキスト処理時のKVキャッシュがTransformerのみの同規模モデル比で約70%削減。Mamba層はKVキャッシュ不要

52B/12Bアクティブ: 総パラメータ52BのうちMoEにより12Bのみがアクティブ

A100 80GB 1枚で推論可能: メモリ効率の良さにより、52Bモデルながら単一GPU推論が可能

Jamba 1.5シリーズ: 2024年8月にJamba 1.5 Mini（12B/52B）とJamba 1.5 Large（94B/398B）をリリース

ライセンス: Apache 2.0（研究・商用利用可能）

アーキテクチャ構成

Jambaのレイヤー構成（ブロック単位の繰り返し）：

レイヤー種別	計算量	KVキャッシュ	MoE	役割
Mamba層	O(n)	不要	なし	長距離依存性の効率的処理
Mamba層	O(n)	不要	なし	同上
Transformer層	O(n²)	必要	あり（16x Top-2）	精密なアテンション計算
Mamba層	O(n)	不要	なし	長距離依存性の効率的処理

各ブロックはMamba:Transformer = 7:1の比率。Transformer層の数を最小限に抑えることでKVキャッシュのメモリ使用量を大幅削減。

モデル	アーキテクチャ	コンテキスト	256Kでのメモリ	計算量
Jamba	Mamba+Transformer+MoE	256K	~30GB	O(n)支配的
Llama 3 70B	Transformer	8K→128K	~120GB以上	O(n²)
Mixtral 8x7B	Transformer+MoE	32K	~60GB	O(n²)
Mamba-2 7B	SSMのみ	理論上無制限	~15GB	O(n)

モデル

アーキテクチャ

コンテキスト

256Kでのメモリ

計算量

Jamba

Mamba+Transformer+MoE

256K

~30GB

O(n)支配的

Llama 3 70B

Transformer

8K→128K

~120GB以上

O(n²)

Mixtral 8x7B

Transformer+MoE

32K

~60GB

O(n²)

Mamba-2 7B

SSMのみ

理論上無制限

~15GB

O(n)

選び方・注意点

Long Contextが必要な場合: 256Kコンテキストを低メモリで処理できるため、長文書解析・コードベース分析・書籍要約等に最適

Transformerとの精度差: 短いコンテキスト（4K以下）ではTransformerのみのモデル（Llama等）の方が若干精度が高い。Jambaの真価は長文脈処理

Mamba層の限定: Mamba（SSM）はアテンション機構を持たないため、文脈内のランダムアクセス（「3番目に出てきた人名を答えて」等）が苦手

Jamba 1.5 Large: 398B/94Bアクティブの大型版は性能が大幅向上するがGPU要件も増加

推論最適化: Mamba層はRNNのように逐次処理のため、バッチ推論の並列化がTransformerより難しい

よくある質問（FAQ）

Q1: MambaとTransformerの違いは？ A: Transformerはアテンション機構でシーケンス全体を参照（O(n²)計算量）。Mamba（SSM）は状態空間モデルで固定サイズの隠れ状態を通じてシーケンスを処理（O(n)計算量）。Transformerは精度が高いがメモリ消費大、Mambaは効率的だが精度がやや劣る。Jambaは両者のいいとこ取り。

Q2: JambaはGPT-4やClaude 3.5より優れている？ A: 性能面ではGPT-4o・Claude 3.5 Sonnetに及ばない。Jambaの真価は「低メモリで超長文脈を処理できる効率性」。256Kコンテキスト処理をA100 1枚で行える点は独自の強み。

Q3: Mamba系モデルはTransformerを置き換える？ A: 2026年時点では完全な置き換えは起きていない。Jambaのようなハイブリッドアプローチが主流になりつつある。GoogleのRecurrentGemma（Griffin）やMicrosoft のRetNet等、SSM/RNN的要素を取り入れたハイブリッドモデルが増加中。

まとめ

JambaはMamba（SSM）+Transformer+MoEの3要素ハイブリッドLLM

256Kコンテキストを低メモリ（約70%削減）で処理可能

Mamba層のO(n)効率とTransformer層の精度を両立した新アーキテクチャ

Long Context処理に特化した効率性がTransformerのみのモデルとの差別化ポイント

メニュー

Jamba（ジャンバ）

この用語に関連するコンテンツ

メニュー

Jamba（ジャンバ）

この用語に関連するコンテンツ

Jambaとは

主な特徴

アーキテクチャ構成

従来アーキテクチャとの比較

選び方・注意点

よくある質問（FAQ）

まとめ

関連用語