11000件の用語
LLMが自分の出力に対してフィードバックを生成し、そのフィードバックをもとに出力を反復的に改善する手法。追加訓練なしで品質向上が見込める。
LLM事実検証(Fact Verification)とは、大規模言語モデルが生成した応答内容を外部の信頼できる情報源と照合し、事実の正確性を自動的に評価・修正する技術である。FActScore、SAFE、Self-Consistency等の手法があり、生成後のハルシネーション検出とフィルタリングに用いられる。
LLMの出力が入力コンテキスト(プロンプト・参照文書)の内容と矛盾せず、事実に忠実であるかどうかを測る品質指標。
LLMが生成するテキストの事実的正確性を体系的に測定するための評価データセットとスコアリング手法の総称。FActScore・TruthfulQA・HaluEval等が代表的で、モデルの信頼性比較や改善指標として使用される。
LLMが生成したテキストの事実性・品質・一貫性を自動評価する技術。FActScore・SAFE・Chainpoll・G-Eval・RAGAS・Langfuseなどのフレームワークが活用される。
LLMの推論フェーズでトークン生成確率を操作し、出力テキスト全体に検出可能な隠しシグナルを付与する手法。
LLM蒸留とは、大規模言語モデル(教師モデル)の知識を小型モデル(生徒モデル)に転移する技術で、推論コストを大幅に削減しながら高い性能を維持する手法である。
大規模言語モデル推論実行。vLLM 0.8・llama.cpp・TensorRT-LLM 0.14・Ollama 0.5・LM Studio 0.4・Text Generation Inference(TGI)・SGLang・MLC LLMが代表フレームワーク、PagedAttention+Continuous Batching+Speculative Decoding+FP8/INT4 AWQ量子化で2026年H200/B200 SXM搭載サーバで100-1000 tok/s/user達成。
LLM推論エンジン(LLM Inference Engine)は、大規模言語モデルの推論処理を高速かつ効率的に実行するための専用ソフトウェア基盤。vLLM・TensorRT-LLM・SGLang・llama.cpp・Text Generation Inference(TGI)などが代表格で、KVキャッシュ管理・連続バッチング・量子化・テンソル並列といった最適化技術を組み合わせ、GPUメモリ効率とスループットを最大化する。
LLM(大規模言語モデル)の推論処理を高速化・省メモリ化するための総合的な技術体系。量子化・KVキャッシュ最適化・バッチング戦略・アテンション高速化などを組み合わせ、レイテンシ削減とスループット向上を実現する。
LLM推論チェーンとは、大規模言語モデルが複雑な問題を解決する際に、中間的な推論ステップを連鎖的に生成しながら最終回答へ到達する手法の総称である。Chain-of-Thought(CoT)を代表とし、2022年のGoogle Brain論文以降急速に発展した。
LLM推論バッチングは、複数の推論リクエストを束ねて同時に処理するスケジューリング技術。Static Batching(静的バッチング)・Dynamic Batching(動的バッチング)・Continuous Batching(連続バッチング)の3段階で進化し、GPUのTensor Core稼働率とメモリ帯域利用率を最大化する。連続バッチングの導入によりスループットは静的バッチング比で2〜5倍向上し、現代の推論エンジンの標準技術となっている。
LLMスケーリング則とは、大規模言語モデルのパラメータ数・訓練データ量・計算量を増大させると、モデルの性能(損失)がべき乗則(Power Law)に従って予測可能に改善されるという経験的法則である。2020年のKaplan et al.論文で体系化され、GPT-4やLlama 3など現代の大規模モデル設計の理論的基盤となっている。
LLMの出力をJSON、XMLなど事前定義されたスキーマに厳密に準拠させる機能。OpenAI structured outputs、Anthropic tool_use、Google Gemini controlled generationなど各プロバイダが独自実装を提供し、アプリケーション統合の信頼性を飛躍的に向上させる。
LLMが生成したトークンを全文完成を待たずに逐次クライアントへ送信する出力方式。ユーザーの体感待ち時間を大幅に短縮し、ChatGPTやClaudeなどの対話型AIサービスで標準的に採用されている。
LLMの重みの多くをゼロにすることでメモリ削減・推論高速化を図る技術群。非構造化・半構造化・構造化の3カテゴリが存在する。
LLMの重み行列においてほとんどの値をゼロに近づけることでメモリ削減と演算効率化を実現するモデル圧縮アプローチの総称。
LLMの出力が人間の意図・価値観・倫理基準に沿うよう調整する技術領域の総称。RLHF・Constitutional AI・Guardrails等の手法を包括し、有害出力の抑制と有用性の維持を両立させる。
LLM Semantic Router(セマンティックルーター)とは、ユーザークエリの意味的内容をベクトル埋め込みで分類し、適切な処理パス(モデル・ツール・ワークフロー)へ高速に振り分ける仕組みである。LLM を呼び出さずにルーティング判定を行うため、レイテンシ 1-5ms で動作する。
不確実性が高い質問に対してLLMが回答を保留・棄権する能力。回答精度と棄権率のトレードオフを最適化し、高信頼な回答のみ出力する手法。