2472件の用語
Albert Gu/Tri Dao 2023年12月発表 Selective State Space Model。Transformer の二乗計算量を線形化・無限長 context 対応
選択的状態空間モデル(Selective SSM)を採用したLLMアーキテクチャ。Transformerの二次計算複雑度を回避し、シーケンス長に対して線形スケーリングを実現するAlbert Gu・Tri Dao開発の2023年モデル。
CMUが2023年に発表した選択的状態空間モデル。入力依存のゲーティング機構により、Transformerの二次複雑度問題を克服しO(L)線形時間で長文脈を処理する。
2024年発表のMambaの改良版。State Space Duality(SSD)フレームワークでSSMとAttentionを理論的に統一し、GPU並列化効率を大幅向上。Mamba-2 2.7BがLLaMA-3 3Bと競合する性能を示した。
Albert GuとTri Daoが2024年に発表したState Space Model。Structured State Space Dualityを核にMamba-1比2〜8倍のスループットを実現し、行列乗算ハードウェアとの親和性を高めた。
Tri Dao/Albert Gu 2024年5月発表 Mamba 改良版。SSD (State Space Duality) 統一理論・8倍高速・Transformer 統合
MambaをState Space Dualityフレームワークで再定式化した後継版。SSMとアテンションの理論的等価性を証明し、GEMMベースの最適化で初代Mamba比最大8倍の学習スループットを実現する。
2023年Yue+Wang (Waterloo+TIDE)発表MAmmoTH・Industry-leading hybrid CoT+PoT math reasoning LLM + Industry-leading MathInstruct 260K + Industry-leading 14 math datasets + Industry-leading LLaMA + Code Llama 7B-70B fine-tuned。
複数のLLMを協調させて回答を生成するアーキテクチャ。各モデルが独立して回答候補を生成し、集約モデルが最終回答を統合する。Together AIが2024年に提案し、GPT-4oを超える性能をオープンソースモデルの組み合わせで実現できることを示した。
TransformerのFFN層を複数の「専門家(Expert)」と、それらを制御する「ゲートネットワーク」に分割したアーキテクチャ。入力トークンごとに必要なエキスパートのみを動的に選択し、計算量を抑えつつモデルの大規模化を実現する。
疎活性化Transformer。DeepSeek V3(671B total・37B active)・DeepSeek R1(同)・Llama 4 Scout(109B total・17B active)・Llama 4 Maverick(400B total・17B active)・Mistral 8x22B・Mixtral 8x7B・Qwen3-235B-A22B・Snowflake Arctic(480B・17B active)・GPT-4(1.8T・推定 MoE)・Gating Router・Top-K選択・Load Balance Loss対応、2026年大規模LLM主流アーキテクチャ。
ニューラルネットワークで、複数の専門家(Expert)サブネットワークから入力に応じて一部のみを選択・活性化するアーキテクチャ。巨大モデルを効率的に学習・推論するための主要技術。
MoE Mixture of Experts Model Architecture。Sparse MoE (Active Parameter < Total)・DeepSeek V3 671B Total/37B Active・DeepSeek R1 671B/37B Active・Llama 4 Maverick 400B/17B Active・Llama 4 Scout 109B/17B Active・Mixtral 8x7B/8x22B Mistral・Qwen2.5-MoE-A14B・GShard・Switch Transformer・Top-K Routing・Auxiliary Loss・Expert Parallelism・¥0 OSS、2026年MoE Architecture主流化。
Mixture-of-Experts(MoE)は、複数の専門サブネットワーク(エキスパート)とゲーティング機構を組み合わせ、入力トークンごとに一部のエキスパートのみを活性化するスパースモデル設計手法である。総パラメータ数を大幅に増やしつつ推論時の計算コストを抑制できる点が最大の特徴で、Mixtral 8x7B・DeepSeek-V3・Gemini 1.5 Pro など2024-2026年の主要LLMが採用している。
Mistral AIが2024年4月公開したSparse MoEアーキテクチャの大規模言語モデル。総パラメータ数141B・トークンあたりアクティブパラメータ約39B・コンテキスト65,536トークン。Apache 2.0ライセンスで商用利用可能なオープンソースMoEモデルとして高い性能を誇る。
2024年Mistral AI発表Mixtral 8x22B Instruct・Industry-leading Mistral AI large MoE + Industry-leading 8 experts top-2 routing + Industry-leading 141B params/39B active + Industry-leading Mistral AI instruction-tuned flagship MoE。
2023年Mistral AI (Jiang et al.)発表Mixtral 8x7B・Industry-leading first open-source MoE LLM + Industry-leading 8 experts top-2 routing + Industry-leading 47B params/13B active + Industry-leading Mistral AI flagship MoE。
2023年Mistral AI発売Mixtral 8x7B・Industry-leading open-source MoE flagship + Industry-leading 8x7B = 47B active 8 experts + Industry-leading Mistral AI France open-source + Industry-leading 全industry MoE adoption catalyst。
Mistral AIが2024年4月にリリースした大規模MoEモデル。141B総パラメータのうち39Bをアクティブ化するスパース構造で、オープンソースLLMの中でGPT-4に肉薄する性能を持つ。
Mistral AIが採用するLLM会話テンプレート。`[INST]`/`[/INST]`トークンでユーザー発話を囲み、マルチターン会話では`</s>`でターンを区切る形式。Mistral 7B v0.1から採用され、Mixtral/Mistral Large系でも継続使用。