1978件の用語
2023年Patil et al. (UC Berkeley)発表Gorilla・Industry-leading 1600+ API calls LLM + Industry-leading retrieval-augmented API calling + Industry-leading LLaMA 7B fine-tuned + Industry-leading APIBench benchmark。
UC Berkeleyが開発した、APIドキュメントを正確に参照して外部ツールを呼び出す能力に特化したLLM。
2021年Stanford公開ColBERT v2。Pro 業界Pro Mainstream Late Interaction Reranker先駆 + Pro Stanford NLP主導 + Pro Omar Khattab主要研究員 + Pro Multi-Vector Architecture + Pro 110M Parameters + Pro Token-level Embedding + Pro MIT License + 累計2020-2026年6年Heritage継承代表機。
テキスト、画像、音声など複数の異なる形式のデータ(マルチモーダル)を統合的に理解し、検索する技術。単なるキーワードマッチングを超え、内容や文脈に基づいた高度な情報探索を実現します。
2020年Khattab+Zaharia (Stanford)発表ColBERT・Industry-leading late interaction retrieval LLM RAG + Industry-leading token-level multi-vector + Industry-leading MaxSim scoring + Industry-leading 100× faster cross-encoder。
Corrective Retrieval-Augmented Generation。軽量な検索評価器で検索結果の品質を判定し、品質が低い場合はWeb検索などで補正してから生成するRAG手法。検索失敗時のロバスト性を高める。
2022年Anthropic (Bai et al.)発表Constitutional AI・Industry-leading constitutional alignment LLM + Industry-leading RLAIF + Industry-leading harmless+helpful constitution + Industry-leading Claude foundation。
Anthropicが開発したAIアライメント手法。人間フィードバックなしでAI自身が「憲法」原則に基づき自己批判・改善するCAIプロセスで、HHH(Helpful/Harmless/Honest)を実現する。
AnthropicがLLMのアライメント(価値観整合)のために開発した手法。AI自身が憲法(Constitution)と呼ばれる原則リストに基づいて自己批判・修正を行うことで、有害な出力を減らす。
Anthropicが2022年に提案したAIアライメント手法。人間によるフィードバックの代わりにAIが原則(Constitution)に基づいて自己批評・自己修正を行い、安全で有益なAIを訓練する。
動的バッチ推論スケジューリング。vLLM continuous batching・TGI rolling batch・SGLang Radix・DeepSpeed-FastGen Dynamic SplitFuse・NVIDIA TensorRT-LLM in-flight batchingが2026年代表、Per-request dynamic add/removeでGPU利用率80%+、Static Batch比3-10xスループット達成。
LLM推論において生成が終了したシーケンスを即座にバッチから除去し、新規リクエストを動的に挿入することでGPU利用率を最大化するバッチング戦略。
LLM推論サービングにおける動的スケジューリング手法。完了シーケンスを即時排除して新リクエストを継続的に挿入することでGPU利用率を最大化する。Orca(OSDI 2022)が提案したIteration-Level Schedulingを起源とする。
2024年成熟Continuous Batching・Industry-leading iteration-level scheduling + Industry-leading dynamic batch insertion + Industry-leading 23x throughput improvement + Industry-leading vLLM PagedAttention Continuous Batching inference optimization 2024。
LLM推論のスループットを大幅向上させるバッチ処理最適化手法。従来の静的バッチと異なり、生成完了したシーケンスを待たずに新しいリクエストを動的に挿入することでGPU利用率を最大化する。
Yu ら ORCA 2022年 LLM 推論バッチング革新。生成途中のリクエストを動的にバッチ再配置→スループット 5-10倍向上
2023年Continue.dev公開Continue。Pro 業界Pro Mainstream Open Source AI Code Assistant Top + Pro 米国Continue.dev + Pro VSCode拡張 + Pro JetBrains対応 + Pro Apache 2.0 + Pro Multi-Model対応 + Pro Local LLM対応 + 累計2023-2026年3年Heritage継承代表機。
VS CodeとJetBrains向けのオープンソースAIコードアシスタント拡張機能。任意のLLMをバックエンドに接続してコード補完・チャット・編集を実現する。
LLMが一度に処理できるトークン数の上限。GPT-4oは128K、Claude 3.5 Sonnetは200K、Gemini 1.5 Proは100万トークンに達し、長文書類・コードベース全体の一括処理が可能になった。
1M Context実用戦略。Claude Opus 4.7 1M context(2026年・$15/$75 Mtok・cache hit -90% pricing $1.5/$7.5)・Long context Effective rate低下(needle-in-haystack benchmark Top回答精度95%・middle 80%・end 90%)・Lost in the middle問題・Prompt order重要(critical info冒頭/末尾)・Compaction自動(Claude Code: 1M超でcontext clear)・Memory tool併用(persistent state)・Streaming Output(時間短縮)・Cost 1M token = $15・1書籍400ページ ≈ 100k token・10書籍 = 1M context・2026年 1M大規模Code base/論文Bulk handling実用、Cost管理重要。