11000件の用語
LLMのトークン生成時にJSON Schema・正規表現などのフォーマット制約をトークンレベルで強制するPythonライブラリ。Transformers・vLLM・ExLlamaV2等に対応。
概要
LLM の生テキスト出力を構造化データに変換するコンポーネント。JSON、リスト、キー値ペアなどのフォーマットを解析し、アプリケーションが扱えるデータ構造に変換する。
LLMがリアルタイムでウェブ検索を実行し、最新情報を回答に反映する機能。ChatGPT Search・Perplexity・Gemini with Google Search・Claude with Web Search等が代表例で、知識カットオフ問題を解消する。
LLM 推論時の KV キャッシュがメモリ上限に達した際に、不要なエントリを追い出して新しいデータのための空きを確保するメモリ管理戦略。LRU、スコアベース、ウィンドウ方式などがある。
LLM の推論リクエストにおいて、KV キャッシュやプレフィックスキャッシュが再利用された割合。ヒット率が高いほど Prefill 処理がスキップされ、レイテンシとコストが削減される。
LLMがPythonなどのコードを生成し、サンドボックス環境で実際に実行して結果をフィードバックとして受け取る機能。ChatGPTのCode Interpreter(Advanced Data Analysis)・Anthropic Claude・Gemini Code Executionが代表例。
LLM API で同一のシステムプロンプトやプレフィックスを繰り返し送信する際に、サーバー側で処理済みの中間状態をキャッシュして再利用する技術。レイテンシとコストを大幅に削減する。
LLM の構造化出力が事前定義した JSON Schema に準拠しているか検証するプロセス。Constrained Decoding によるモデル側制約と、アプリケーション側の後処理検証の 2 層で実現する。
LLMが外部ツール・APIを呼び出せるようにする機能。モデルはユーザーの意図に応じてJSON形式の関数呼び出し命令を生成し、アプリ側がその結果を受け取って実行する。OpenAI GPT-4・Claude・Geminiが対応する。
複数の LLM 推論リクエスト間で、共通するプロンプトプレフィックス部分の KV キャッシュを共有・再利用する技術。同一システムプロンプトを使う複数ユーザーのリクエストを効率化する。
トレーニング済みLLMを推論リクエストに応答できる形でデプロイする技術基盤。スループット・レイテンシ・コスト効率のトレードオフを管理し、vLLM/TGI/TensorRT-LLMなど専用エンジンでバッチ処理・連続バッチング・KVキャッシュを最適化する。
LLM が敵対的入力・分布外データ・ノイズ・攻撃に対してどの程度安定した出力を維持できるかを定量評価するプロセス。HarmBench・AdvBench・WildGuard 等の標準ベンチマークで実施される。
LLM(大規模言語モデル)が一度に処理できるトークン数の上限を大幅に拡張した技術。従来の4K〜8Kトークンから128K〜10Mトークンへと飛躍的に増加し、長大な文書の要約・分析や複数文書の横断的な質問応答が可能になった。GPT-4 Turbo(128K)、Claude 3.5(200K)、Gemini 1.5 Pro(2M)などが代表例。
LLMが生成した自然言語テキストから構造化データ(JSON、XML、テーブル、リストなど)を抽出・解析する技術。正規表現、専用パーサー、再帰的修正プロンプトなどの手法で、プログラムが処理可能な形式に変換する。
LLMの出力が事前定義したルール・スキーマ・品質基準に適合しているかを検証し、不適合な場合に修正・リトライ・フォールバックを行う機構。Guardrails AI、Instructor、Pydanticバリデーターなどのツールが提供し、LLMアプリケーションの信頼性を担保する。
LLMの生成出力を後処理段階で検査・修正・ブロックする技術。有害コンテンツ検出・PII除去・事実性検証・フォーマット強制等を推論パイプラインの最終段階で適用し、安全で正確な出力を保証する。
LLMが生成したテキスト・画像・コードなどの出力をユーザーに返す前にリアルタイムで検査し、有害・不正確・ポリシー違反の内容を検出・修正・遮断する仕組み。入力フィルタとは異なり、モデルの実際の生成物を制御する点が特徴。
LLMの中間層における活性化ベクトルを直接操作することで、重みを変更せずにモデルの出力傾向を制御する技術群の総称。Representation Engineeringとも呼ばれる。
GPT-4oやClaude 4などの高性能LLMを審判モデルとして活用し、他のLLMの出力品質を自動評価する手法。人間評価との一致率が85-90%に達し、コスト効率が高いことから2025年以降のLLM評価の標準手法となっている。