1978件の用語
AI推論用Multi-GPU Rig。RTX 5090×2 (NVLink廃止後 PCIe Gen5 x16/x16)・RTX 4090×4 PCIe Gen4・MI300X×2 (Infinity Fabric Link)・Threadripper PRO 7995WX 7 PCIe Slot・WS Server MB ASUS WRX90E SAGE/Pro WS WRX80E・Open Rig Mining Frame流用・Bifurcation x4x4x4x4・Riser PCIe Gen4 16x→4x・1500W+ PSU 2台 redundant・¥1M-¥3M、2026年家庭72B Q4推論可能。
LLMの訓練時に次の1トークンではなく複数トークンを同時予測する目標関数。Meta FAIRが2024年提案。DeepSeek-V3やLlama 4が採用し、投機的デコーディングによる推論高速化を可能にする。
2024年5月DeepSeek発表Multi-Head Latent Attention MLA・Industry-leading low-rank KV joint compression + Industry-leading 93.3% KV cache reduction + Industry-leading DeepSeek-V2 + V3 signature attention + Industry-leading DeepSeek MLA innovative attention 2024。
DeepSeekが開発したKVキャッシュ圧縮技術。低ランク潜在ベクトルにKV情報を圧縮し、MHAと比較してKVキャッシュを93%以上削減する。
DeepSeek-V2が提案したKVキャッシュ圧縮型アテンション機構。Key/Valueをlow-rank潜在ベクトルへ圧縮してKVキャッシュサイズを大幅削減し、MHAと同等の表現力を維持しながら推論メモリコストを87%以上削減する手法。
Multimodal LLM (Vision+Audio)。OpenAI GPT-4o (Omni・Vision+Audio Native)・GPT-4o mini・Anthropic Claude 4 Vision (Sonnet/Opus)・Google Gemini 2.5 Pro Vision (Audio Native)・Gemini 2.5 Flash・Llama 4 Maverick (Multimodal)・Pixtral 124B Mistral・Qwen2-VL 72B/Qwen3-VL・Molmo 72B Allen AI・MiniCPM-V 2.6・InternVL 3・¥0 OSS-API・OCR/Chart理解、2026年Voice 2way+リアルタイムVideo対応標準。
Multimodal Realtime API。OpenAI Realtime API (gpt-4o-realtime・WebSocket・voice2voice)・Advanced Voice Mode ChatGPT (Free→Pro・iOS+Android+Web)・Google Gemini 2.5 Live API・Project Astra (Realtime Multimodal Camera+Voice)・Anthropic Claude Voice予告・Hume EVI 2 (Empathic Voice)・Cartesia Sonic 90ms Latency・Sesame CSM-1B・ElevenLabs Conversational AI 2.0・Sindre Sorhus Apple Intelligence Beta・¥¥¥¥¥-¥¥¥¥¥¥¥/M tokens、2026年Voice Realtime主流化。
2023 年に発表された状態空間モデル(SSM)ベースの LLM アーキテクチャ。Transformer の二次計算量(O(n²))問題を線形計算量(O(n))で解決し、長いコンテキストでの高速推論と低メモリ使用を実現する。
2024年成熟Mamba・Industry-leading selective state space model + Industry-leading linear-time scaling + Industry-leading O(n) vs Transformer O(n²) + Industry-leading CMU+Princeton Mamba state space architecture 2024。
Albert Gu/Tri Dao 2023年12月発表 Selective State Space Model。Transformer の二乗計算量を線形化・無限長 context 対応
選択的状態空間モデル(Selective SSM)を採用したLLMアーキテクチャ。Transformerの二次計算複雑度を回避し、シーケンス長に対して線形スケーリングを実現するAlbert Gu・Tri Dao開発の2023年モデル。
CMUが2023年に発表した選択的状態空間モデル。入力依存のゲーティング機構により、Transformerの二次複雑度問題を克服しO(L)線形時間で長文脈を処理する。
2024年発表のMambaの改良版。State Space Duality(SSD)フレームワークでSSMとAttentionを理論的に統一し、GPU並列化効率を大幅向上。Mamba-2 2.7BがLLaMA-3 3Bと競合する性能を示した。
Albert GuとTri Daoが2024年に発表したState Space Model。Structured State Space Dualityを核にMamba-1比2〜8倍のスループットを実現し、行列乗算ハードウェアとの親和性を高めた。
Tri Dao/Albert Gu 2024年5月発表 Mamba 改良版。SSD (State Space Duality) 統一理論・8倍高速・Transformer 統合
MambaをState Space Dualityフレームワークで再定式化した後継版。SSMとアテンションの理論的等価性を証明し、GEMMベースの最適化で初代Mamba比最大8倍の学習スループットを実現する。
2023年Yue+Wang (Waterloo+TIDE)発表MAmmoTH・Industry-leading hybrid CoT+PoT math reasoning LLM + Industry-leading MathInstruct 260K + Industry-leading 14 math datasets + Industry-leading LLaMA + Code Llama 7B-70B fine-tuned。
複数のLLMを協調させて回答を生成するアーキテクチャ。各モデルが独立して回答候補を生成し、集約モデルが最終回答を統合する。Together AIが2024年に提案し、GPT-4oを超える性能をオープンソースモデルの組み合わせで実現できることを示した。
TransformerのFFN層を複数の「専門家(Expert)」と、それらを制御する「ゲートネットワーク」に分割したアーキテクチャ。入力トークンごとに必要なエキスパートのみを動的に選択し、計算量を抑えつつモデルの大規模化を実現する。
疎活性化Transformer。DeepSeek V3(671B total・37B active)・DeepSeek R1(同)・Llama 4 Scout(109B total・17B active)・Llama 4 Maverick(400B total・17B active)・Mistral 8x22B・Mixtral 8x7B・Qwen3-235B-A22B・Snowflake Arctic(480B・17B active)・GPT-4(1.8T・推定 MoE)・Gating Router・Top-K選択・Load Balance Loss対応、2026年大規模LLM主流アーキテクチャ。