Structured State Space Models（構造化状態空間モデル）に基づくシーケンスモデリングアーキテクチャ。Mamba-2では入力依存の選択メカニズムにより、Transformerと同等の品質をO(n)の線形計算量で達成する。

Mamba / SSMとは？（マンバ / エスエスエム）わかりやすく解説

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Mamba / SSMとは？（マンバ / エスエスエム）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Mamba / SSMとは

Mamba（マンバ）は、Albert GuとTri Daoが2023年12月に発表した、Structured State Space Models（SSM）に基づく革新的なシーケンスモデリングアーキテクチャである。従来のTransformerが系列長に対してO(n²)の計算量を要求するのに対し、MambaはO(n)の線形計算量で同等以上の言語モデリング性能を達成する。

SSMの数学的基盤

SSMは連続時間の状態遷移方程式を基礎とする：

h'(t) = Ah(t) + Bx(t)
y(t) = Ch(t) + Dx(t)

ここでA ∈ R^(N×N)は状態遷移行列、B ∈ R^(N×1)は入力行列、C ∈ R^(1×N)は出力行列。この連続系をZOH（Zero-Order Hold）で離散化すると、効率的な再帰計算が可能になる。

S4（Structured State Spaces for Sequence Modeling、2022年）では、行列Aを対角化し、HiPPO（High-order Polynomial Projection Operator）で初期化することで、長距離依存関係の学習を安定化させた。

Mambaの選択メカニズム

Mamba（S6アーキテクチャ）の最大の革新は、SSMのパラメータB、C、Δを入力に依存させた「選択的SSM」である：

従来のSSM（S4等）: A, B, C, Δは全入力に対して固定（Linear Time-Invariant）
Mamba（S6）: B(x), C(x), Δ(x)が入力xに応じて動的に変化（入力依存選択）

この選択メカニズムにより、モデルは「どの情報を状態に記憶し、どの情報を忘れるか」を動的に制御できる。これはTransformerのAttentionが行う「どのトークンに注目するか」の判断に相当する。

Mamba-2の改良点

2024年5月に発表されたMamba-2は、SSMとAttentionの理論的等価性を示すSSD（Structured State Space Duality）フレームワークに基づく：

SSDフレームワーク: SSMの再帰計算がsemi-separable行列の乗算と等価であることを証明
チャンク分割: 入力系列をチャンクに分割し、チャンク内は行列演算（GPUテンソルコア活用）、チャンク間は再帰計算
マルチヘッド化: Attentionのマルチヘッドに相当する並列状態空間を導入
性能: Mamba-1比で学習速度2-8倍向上、2.7Bパラメータでtransformer++と同等品質

モデル	パラメータ	学習データ	コンテキスト長	HellaSwag	PIQA	WinoGrande
Mamba-1 1.4B	1.4B	300B tok

特性	Transformer	Mamba/SSM
短文処理（<4K）	高品質	同等品質
長文処理（>32K）	メモリ大・低速	高効率・高速
In-context learning	優秀	やや劣る
ストリーミング推論	KVキャッシュ必要	状態ベクトルのみ
ハードウェア最適化	成熟	発展途上
学習安定性	確立済み	工夫が必要

メニュー

Mamba / SSM（マンバ / エスエスエム）

メニュー

Mamba / SSM（マンバ / エスエスエム）

この用語に関連するコンテンツ

Mamba / SSMとは

SSMの数学的基盤

Mambaの選択メカニズム

Mamba-2の改良点

実装と利用方法

商用採用事例

Transformerとの使い分け

よくある質問（FAQ）

まとめ

関連用語