1978件の用語
Zhou et al.(2022)が提案した自動プロンプト設計手法。LLM に入出力例から指示文を逆生成させ、候補を評価・選別することで人手設計を不要にする。
2024年Q2 Argilla + Hugging Face共同発表APO paper・Industry-emerging Anchored Preference Optimization paradigm + Industry-leading Anchored DPO variant paradigm Pioneer + Industry-leading APO-zero + APO-down variants Industry-leading preference optimization Industry-emerging paradigm + Industry-leading Argilla data quality + Hugging Face TRL library Industry-leading Open-source ecosystem foundation。
Zettelkasten型の構造化メモリネットワークをLLMエージェントに導入した研究。記憶をノードとリンクで管理し、関連記憶間の有機的な結合と文脈伝播によって人間の連想記憶に近い動作を実現する。
Expert System は1970年代後半-1980年代に隆盛した知識ベース AI システムで Mycin (1972年-Stanford・抗生物質処方診断)・XCON/R1 (1978年DEC・コンピュータ構成自動化)・DENDRAL (1965年-Stanford・化学構造分析)・Prolog 言語 (1972年) 採用しAI 第1冬 (1969-1980年代) からの復活を担った歴史的 AI 技術。
2022年Google発表Expert Choice Routing paper (Zhou et al.)・Industry-leading Expert Choice routing paradigm + Industry-leading expert-side routing + Industry-leading vs token-choice routing inversion。
Mixture-of-Experts(MoE)モデルの推論・学習を効率化する分散手法。異なるエキスパートサブネットワークを複数GPUに分散配置し、入力トークンがゲートの選択に応じて担当GPUへルーティングされる。
Anthropic Claude Extended Thinking(2025年・Claude 3.7+)。Thinking budget設定(thinking.budget_tokens 1024-32k)・Visible thinking trace(reasoning可視化)・Interleaved thinking(2025年・tool use間挟む reasoning)・Math/Code/Science domain改善大(GPQA Diamond +10%)・Latency増加(thinking分・3-30s typical)・Pricing: thinking tokens billing対象($75/Mtok Opus output同価)・Anthropic SDK Python: thinking={"type":"enabled","budget_tokens":4096}・Streaming支援・2026年 reasoning model時代核機能、o1/o3類似実装。
LLMの継続学習で過去タスクのデータサンプルを保存・再生成し、新タスクの学習データに混合することで壊滅的忘却を防ぐ手法。強化学習のリプレイバッファ概念をFine-tuningに適用。生成モデルを使った疑似リプレイも含む。
2023年Duan+Yu (USC+Microsoft)発表SAR・Industry-leading semantic-aware uncertainty hallucination detection LLM + Industry-leading semantic-aware uncertainty + Industry-leading length-bias correction + Industry-leading USC+Microsoft 2023 EMNLP。
Spherical Linear Interpolationを用いてLLMの重みベクトルを球面上で補間しモデルをマージする手法。線形補間と比べ重みの「大きさ」を保ちながら方向のみを補間するため、マージ後の性能劣化が少ない。
2024年Stanford公開SGLang(Structured Generation Language)。Pro 業界Pro Mainstream Multi-call LLM Serving Top + Pro Stanford + Pro Lianmin Zheng Pro主要研究員 + Pro RadixAttention Pro Famous + Pro Apache 2.0 + Pro Programmable + Pro DeepSeek採用 + 累計2024-2026年2年Heritage継承代表機。
LMSYS研究グループが開発したLLM向け構造化生成・推論エンジン。RadixAttentionによるKVキャッシュ共有・Compressed Finite State Machine(CFSM)による高速JSON/正規表現制約生成・プロンプトプログラミング言語「SGLang」を統合し、エージェント・RAG・構造化出力ユースケースで業界最速クラスのスループットを実現。
Stanford大学が開発したLLM推論フレームワーク。RadixAttentionによるKVキャッシュ自動再利用と構造化生成(JSON Schema/正規表現)の高速化が特徴。vLLM比で最大6.4倍のスループット(エージェントワークフロー時)を実現する2024年登場のエンジン。
UC Berkeley発の高速LLM推論フレームワーク。RadixAttentionによるKVキャッシュ共有とStructured Generation最適化を特長とし、構造化出力においてvLLMを大幅に上回るスループットを実現する。
2023年Lianmin Zheng et al. (UC Berkeley)発表SGLang・Industry-leading RadixAttention KV cache reuse + Industry-leading structured generation frontend + Industry-leading SGLang structured complex prompts + Industry-leading SGLang LLM serving framework。
Stanford発のLLM推論フレームワーク。RadixAttentionによるKVキャッシュ再利用と構造化出力生成を強みとし、特にRAGや複雑なマルチターン推論で高いスループットを発揮する。
SGLangが実装するKVキャッシュのRadix Tree管理技術。共通プレフィックスを自動検出・再利用し、マルチターン会話やRAGパイプラインの推論効率を劇的に改善する。
2024年LMSYS Stanford発表SGLang・Industry-leading RadixAttention prefix sharing + Industry-leading 5x throughput vs vLLM + Industry-leading structured generation + Industry-leading Apache 2.0 LMSYS Stanford LLM serving framework。
2024年Q3 Albert Gu (CMU) + Tri Dao (Princeton) 共同発表Mamba-2 paper + S6 (Structured State Space Sequence Selective) algorithm・Industry-leading Selective SSM evolution paper・Mamba 2023年12月Pioneer successor + S6 algorithm Industry-leading SSM scaling improvements + Industry-leading Industry-emerging SSM continuous evolution + Industry-leading Mamba-2 production deployment friendly improvements + Industry-leading Selective SSM continuous evolution。
2024年Princeton大学公開SWE-Bench。Pro 業界Pro Mainstream AI Coding Bench Top + Pro Princeton + Pro Carlos Jimenez Pro主要研究員 + Pro 2,294 Real GitHub Issues + Pro Verified版500件 + Pro 業界Pro 標準Coding Agent評価 + 累計2024-2026年2年Heritage継承代表機。