1978件の用語
SparseGPTは2023年にETH Zurichが発表したGPT系大規模言語モデル向けの重み枝刈り(プルーニング)手法。再学習なしで50〜60%スパース化を達成し、OPT-175BやGPT-3レベルのモデルを100GPU時間以内に処理できる。スパース解法ベースの非構造化プルーニングで、重みの重要度評価にHessian行列の近似解を使う。
2017年Shazeer + Google発表Sparse MoE paper・Industry-leading Sparse Mixture of Experts paradigm Pioneer + Industry-leading Outrageously Large Neural Networks + Industry-leading sparsely-gated MoE + Industry-leading MoE Pioneer foundation。
T5が採用するエンコーダ・デコーダ型LLMのプリトレーニング手法。連続した複数トークン(スパン)をセンチネルトークンで置換し、デコーダが元スパンを順に復元することで言語理解を学習する。
2024年Speechmatics公開Ursa ASR。Pro 業界Pro Mainstream英国ASR最古参 + Pro 英国Cambridge Speechmatics + Pro 2006-Speechmatics設立Tony Robinson Cambridge大 + Pro 50+言語対応 + Pro Diversity & Inclusion特化 + Pro $0.30/h + 累計2006-2026年20年Heritage継承代表機。
LLM自身が生成した応答を「弱い対戦相手」として対比学習するセルフプレイ型微調整手法。追加の人間フィードバックや報酬モデル不要で、SFTデータのみから繰り返しセルフプレイを行い性能を段階的に改善する。
2024年Q1 UCLA + UC Berkeley + UCSF共同発表SPIN paper・Industry-emerging Self-Play Fine-Tuning paradigm + Industry-leading LLM self-play iterative fine-tuning Industry-emerging paradigm Pioneer + Industry-leading no human preference data需要 + Industry-leading SPIN Self-Play Industry-emerging iterative continual learning paradigm Pioneer・Industry-leading UCLA + UC Berkeley + UCSF academic AI research integrated foundation。
2024年Microsoft Research発表SplitWise paper・Prefill phase + Decode phase separate GPU disaggregation paradigm research paper・ISCA 2024 conference presentation + Industry-leading academic research paper + Microsoft Azure trial integration potential・LLM inference 2-phase characterization + Prefill compute-intensive + Decode memory-bandwidth + Industry-leading academic paper foundation for Disaggregated Inference paradigm + Industry-emerging Disaggregated Inference paradigm research paper Pioneer。
LLMの投機的デコーディングをツリー構造に拡張した高速推論手法。単一の候補系列ではなくトークンの木構造を一度に検証することで、受理確率を高め、スループットをさらに向上させる。
小型ドラフトモデルが複数トークンを先行生成し、大型ターゲットモデルが並列検証することでLLM推論を高速化する技術。レイテンシを2〜3倍削減可能。
小さな下書きモデルが複数トークンを先行予測し、大きなターゲットモデルが一括検証することでLLM生成速度を2〜5倍高速化する推論手法。2023年にGoogle DeepMindとStanfordが独立提案。品質を落とさず速度を向上できる点が特長。
LLMの推論速度を向上させる技術。軽量なDraft Modelが複数のトークンを先行予測し、巨大なTarget Modelが一括で検証・修正することで、計算効率とスループットを劇的に高める手法。
LLM推論加速。Speculative Decoding (Draft Model+Target Model Verify・2-3x speedup)・Self-Speculative Decoding・Medusa (Multiple Heads・5-Head Vicuna)・EAGLE-2 EAGLE-3 (Tree-Based・3x faster Llama 3)・Lookahead Decoding・SpecInfer・REST (Retrieval-Based)・PLD (Prompt Lookup Decoding)・Multi-Token Prediction MTP (DeepSeek V3)・vLLM 0.7+対応・llama.cpp対応・¥0 OSS、2026年Multi-Token Prediction主流。
2024年成熟Speculative Decoding・Industry-leading draft model + target model verification + Industry-leading 2-3x inference speedup + Industry-leading Leviathan+Kalman+Matias DeepMind Speculative Decoding inference optimization 2024。
RAG高速化手法。小型LMが並列で複数の検索・生成案を同時に推測し、大型LMが最善案を検証・統合することで品質を維持しながら推論レイテンシを削減する。
DeepMindが提案した投機的デコーディングの最適輸送拡張。通常の投機的デコーディングより高い受理率を達成するため、最適輸送理論を使いドラフトとターゲットの分布マッチングを最適化した高度な推論高速化手法。
2024年Svirschevski et al. (Yandex+Together AI)発表SpecExec・Industry-leading massively parallel speculative decoding LLM + Industry-leading GPU+CPU offload + Industry-leading 18.7× consumer GPU speedup + Industry-leading consumer GPU LLM inference。
Rally Legal開発のMicrosoft Word統合型契約AIアシスタント。弁護士のワークフローに直接組み込まれ、契約条項のレッドライン(変更提案)・リスク特定・新規条項生成をWord上で実行できる。OpenAI GPT-4ベース。月額サブスクリプション型でSMBローファームにも普及。
2015年7月20日Spotify公開Discover Weekly。Pro 業界Pro Mainstream Music Recommendation Top + Pro Collaborative Filtering + Pro Echo Nest買収継承 + Pro 月曜配信30曲 + Pro 6.7億+ User Pro Reference + Pro Daniel Ek Pro CEO主導 + 2024-Pro AI DJ + 2025-Pro AI Personalization拡張 + 累計2015-2025年10年Heritage。
MIT・NVIDIA発のLLM後訓練量子化手法。Activationの外れ値をWeightへ数学的に移行することでW8A8(重み・活性化ともINT8)量子化を高精度に実現し、推論コスト削減とLLM品質を両立する。TensorRT-LLMやFasterTransformerで標準採用。
2022年Xiao et al. (MIT)発表SmoothQuant・Industry-leading W8A8 INT8 quantization LLM + Industry-leading smoothing activation+weight + Industry-leading OPT-175B/BLOOM-176B W8A8 + Industry-leading TensorRT-LLM production W8A8。