2472件の用語
LLM推論サーバーにおいて、リクエスト単位ではなくイテレーション(1トークン生成ステップ)単位でバッチを動的に再構成する手法。完了したリクエストを即座に除外し、新規リクエストを即座に挿入することでGPU利用率を最大化する。
LLM推論において生成が終了したシーケンスを即座にバッチから除去し、新規リクエストを動的に挿入することでGPU利用率を最大化するバッチング戦略。
2024年成熟Continuous Batching・Industry-leading iteration-level scheduling + Industry-leading dynamic batch insertion + Industry-leading 23x throughput improvement + Industry-leading vLLM PagedAttention Continuous Batching inference optimization 2024。
LLM推論のスループットを大幅向上させるバッチ処理最適化手法。従来の静的バッチと異なり、生成完了したシーケンスを待たずに新しいリクエストを動的に挿入することでGPU利用率を最大化する。
Continuous Batching(連続バッチング)とは、LLMの推論においてイテレーション(デコードステップ)単位でリクエストの追加と完了を動的に管理するバッチング手法である。従来のStatic Batchingがバッチ内の全リクエスト完了まで待機するのに対し、Continuous Batchingは完了したリクエストを即座に解放して新たなリクエストを挿入することで、GPUの利用率を常に最大化する。vLLM、TGI、TensorRT-LLMなど主要なLLMサービングエンジンが採用する標準的なバッチング方式である。
Yu ら ORCA 2022年 LLM 推論バッチング革新。生成途中のリクエストを動的にバッチ再配置→スループット 5-10倍向上
2023年Continue.dev公開Continue。Pro 業界Pro Mainstream Open Source AI Code Assistant Top + Pro 米国Continue.dev + Pro VSCode拡張 + Pro JetBrains対応 + Pro Apache 2.0 + Pro Multi-Model対応 + Pro Local LLM対応 + 累計2023-2026年3年Heritage継承代表機。
VS CodeとJetBrains向けのオープンソースAIコードアシスタント拡張機能。任意のLLMをバックエンドに接続してコード補完・チャット・編集を実現する。
LLMが一度に処理できるトークン数の上限。GPT-4oは128K、Claude 3.5 Sonnetは200K、Gemini 1.5 Proは100万トークンに達し、長文書類・コードベース全体の一括処理が可能になった。
LLMの学習時コンテキスト長を推論時に外挿して拡張する技術群。位置エンコーディングの補間・外挿手法(NTK-Aware Scaling、Dynamic NTK等)により、追加学習なしまたは最小限のファインチューニングで対応長を数倍に伸ばす。
1M Context実用戦略。Claude Opus 4.7 1M context(2026年・$15/$75 Mtok・cache hit -90% pricing $1.5/$7.5)・Long context Effective rate低下(needle-in-haystack benchmark Top回答精度95%・middle 80%・end 90%)・Lost in the middle問題・Prompt order重要(critical info冒頭/末尾)・Compaction自動(Claude Code: 1M超でcontext clear)・Memory tool併用(persistent state)・Streaming Output(時間短縮)・Cost 1M token = $15・1書籍400ページ ≈ 100k token・10書籍 = 1M context・2026年 1M大規模Code base/論文Bulk handling実用、Cost管理重要。
テキスト・画像・音声などのコンテンツを自動分析し、有害・不適切・ポリシー違反の内容を検出・遮断するフィルタリング技術。LLMではガードレールの中核コンポーネントとして機能する。
LLMデコーディングにおいて次トークンの確率(モデルスコア)と既生成トークンとの類似度(degeneration penaltyを差し引いた値)を組み合わせて選択する手法。繰り返し・退化現象を抑制し、一貫性と多様性を両立する。
類似するサンプル同士を近づけ、異なるサンプル同士を遠ざけるように埋め込み空間を学習する損失関数群の総称。InfoNCE Loss、Triplet Loss、NT-Xent Loss などが含まれ、LLM の埋め込みモデル(BGE-M3、E5-Mistral、Voyage-3)や CLIP のような視覚-言語モデルの学習に不可欠。
コンパイラの最適化フェーズ(パス選択・フラグ調整・ループ変換等)にLLMを適用し、従来のヒューリスティクスやコスト関数では到達困難な最適化を実現する研究領域。
AnthropicのClaude 3.5 Sonnet(2024年10月)が先行発表したLLMによるPC/GUI操作機能。スクリーンショットを視覚的に認識しマウスクリック・キーボード入力・アプリ操作を自律実行するAIエージェント機能。
Computer Visionは、人工知能・機械学習分野における重要な概念・技術です。
AI PC自動操作API。Anthropic Computer Use(Claude 3.5 Sonnet・2024年10月・Beta)・OpenAI Operator(GPT-4o + CUA・2025年1月)・Claude 4 Computer Use(本番品質・2025年)・Screenshot+Action(mouse/keyboard)・Browser-use(OSS)・Playwright MCP・Puppeteer MCP・Airtop・PyAutoGUI・Screen capture+Element detection・Captcha対応課題・2026年RPA代替・マルウェア懸念、Agentic計算機活用。
AI が PC 画面を自律操作する技術。Anthropic Claude Computer Use (2024-10)、OpenAI Operator (2025-01)、Google Project Mariner が代表。2026年は実用フェーズ。
2022年DeepMindが提案した、固定計算予算でモデルサイズとトークン数を最適に配分するスケーリング則。モデルパラメータ数Nとトークン数DはN:D≈1:20が最適であることを示し、当時の大型モデルがトークン不足で訓練されていたことを指摘した。通称「Chinchilla則」。