2472件の用語
2022年Google発表Expert Choice Routing paper (Zhou et al.)・Industry-leading Expert Choice routing paradigm + Industry-leading expert-side routing + Industry-leading vs token-choice routing inversion。
Mixture-of-Experts(MoE)アーキテクチャにおいて、各エキスパートネットワークを異なるデバイスに配置して並列実行する分散戦略。エキスパート数のスケーリングとメモリ効率を両立する。
Anthropic Claude Extended Thinking(2025年・Claude 3.7+)。Thinking budget設定(thinking.budget_tokens 1024-32k)・Visible thinking trace(reasoning可視化)・Interleaved thinking(2025年・tool use間挟む reasoning)・Math/Code/Science domain改善大(GPQA Diamond +10%)・Latency増加(thinking分・3-30s typical)・Pricing: thinking tokens billing対象($75/Mtok Opus output同価)・Anthropic SDK Python: thinking={"type":"enabled","budget_tokens":4096}・Streaming支援・2026年 reasoning model時代核機能、o1/o3類似実装。
過去のタスクの訓練データを小さなバッファ(メモリ)に保存し、新タスクの学習時に過去データと混合して訓練することで破壊的忘却を防ぐ継続学習手法。人間の脳の海馬リプレイ機構に着想を得ており、実装が直感的かつ効果が高いことから最も広く使われている。
2023年Duan+Yu (USC+Microsoft)発表SAR・Industry-leading semantic-aware uncertainty hallucination detection LLM + Industry-leading semantic-aware uncertainty + Industry-leading length-bias correction + Industry-leading USC+Microsoft 2023 EMNLP。
LLMの中間層活性化を疎なオーバーコンプリート基底に分解するSparse Autoencoderを訓練し、個別の解釈可能な特徴量(feature)を特定・操作する手法。Anthropicの大規模研究で注目された。
Spherical Linear Interpolationを用いてLLMの重みベクトルを球面上で補間しモデルをマージする手法。線形補間と比べ重みの「大きさ」を保ちながら方向のみを補間するため、マージ後の性能劣化が少ない。
2024年Stanford公開SGLang(Structured Generation Language)。Pro 業界Pro Mainstream Multi-call LLM Serving Top + Pro Stanford + Pro Lianmin Zheng Pro主要研究員 + Pro RadixAttention Pro Famous + Pro Apache 2.0 + Pro Programmable + Pro DeepSeek採用 + 累計2024-2026年2年Heritage継承代表機。
Stanford大学が開発したLLM推論フレームワーク。RadixAttentionによるKVキャッシュ自動再利用と構造化生成(JSON Schema/正規表現)の高速化が特徴。vLLM比で最大6.4倍のスループット(エージェントワークフロー時)を実現する2024年登場のエンジン。
LMSYS研究グループが開発したLLM向け構造化生成・推論エンジン。RadixAttentionによるKVキャッシュ共有・Compressed Finite State Machine(CFSM)による高速JSON/正規表現制約生成・プロンプトプログラミング言語「SGLang」を統合し、エージェント・RAG・構造化出力ユースケースで業界最速クラスのスループットを実現。
UC Berkeley発の高速LLM推論フレームワーク。RadixAttentionによるKVキャッシュ共有とStructured Generation最適化を特長とし、構造化出力においてvLLMを大幅に上回るスループットを実現する。
2023年Lianmin Zheng et al. (UC Berkeley)発表SGLang・Industry-leading RadixAttention KV cache reuse + Industry-leading structured generation frontend + Industry-leading SGLang structured complex prompts + Industry-leading SGLang LLM serving framework。
Stanford発のLLM推論フレームワーク。RadixAttentionによるKVキャッシュ再利用と構造化出力生成を強みとし、特にRAGや複雑なマルチターン推論で高いスループットを発揮する。
SGLangが実装するKVキャッシュのRadix Tree管理技術。共通プレフィックスを自動検出・再利用し、マルチターン会話やRAGパイプラインの推論効率を劇的に改善する。
2024年LMSYS Stanford発表SGLang・Industry-leading RadixAttention prefix sharing + Industry-leading 5x throughput vs vLLM + Industry-leading structured generation + Industry-leading Apache 2.0 LMSYS Stanford LLM serving framework。
2024年Q3 Albert Gu (CMU) + Tri Dao (Princeton) 共同発表Mamba-2 paper + S6 (Structured State Space Sequence Selective) algorithm・Industry-leading Selective SSM evolution paper・Mamba 2023年12月Pioneer successor + S6 algorithm Industry-leading SSM scaling improvements + Industry-leading Industry-emerging SSM continuous evolution + Industry-leading Mamba-2 production deployment friendly improvements + Industry-leading Selective SSM continuous evolution。
2024年Princeton大学公開SWE-Bench。Pro 業界Pro Mainstream AI Coding Bench Top + Pro Princeton + Pro Carlos Jimenez Pro主要研究員 + Pro 2,294 Real GitHub Issues + Pro Verified版500件 + Pro 業界Pro 標準Coding Agent評価 + 累計2024-2026年2年Heritage継承代表機。
実際のGitHubリポジトリから収集されたソフトウェアエンジニアリングのissueを使い、LLMがコードベースを理解し正しいパッチを生成できるかを評価するベンチマーク。実務レベルのコーディング能力を測定する事実上の標準指標。
GitHubの実際のIssueとPRから構成されるソフトウェアエンジニアリング向けLLMベンチマーク。LLMがリアルなバグ修正タスクをどれだけ解決できるかを評価する。
GitHubの実際のIssueと修正コミットペアを使い、LLMがコードバグを自律修正できる能力を評価するソフトウェアエンジニアリングベンチマーク。2023年公開・2,294問。