1978件の用語
Shanghai AILabが開発したLLM推論・デプロイフレームワーク。TurboMind推論エンジンを搭載しvLLM比で最大1.8倍のスループットを実現。Quantization(AWQ/GPTQ/W4A16/W8A8)・INT4/INT8キャッシュ量子化・Infight Batching・Prefix Cachingを統合した商用グレードのサービング基盤。
2024年InternLM Shanghai AI Lab発表LMDeploy・Industry-leading TurboMind C++ runtime + Industry-leading 1.8x throughput vs vLLM + Industry-leading W4A16 quantization + Industry-leading Apache 2.0 Shanghai AI Lab LLM serving framework。
LLMのトークン生成時にJSON Schema・正規表現などのフォーマット制約をトークンレベルで強制するPythonライブラリ。Transformers・vLLM・ExLlamaV2等に対応。
概要
LLMがリアルタイムでウェブ検索を実行し、最新情報を回答に反映する機能。ChatGPT Search・Perplexity・Gemini with Google Search・Claude with Web Search等が代表例で、知識カットオフ問題を解消する。
LLMがPythonなどのコードを生成し、サンドボックス環境で実際に実行して結果をフィードバックとして受け取る機能。ChatGPTのCode Interpreter(Advanced Data Analysis)・Anthropic Claude・Gemini Code Executionが代表例。
LLMの出力を事前定義したJSONスキーマに厳密に準拠させる機能。OpenAIのStructured Outputs(2024年8月)がJSONスキーマを100%遵守することを保証し、パース失敗を排除した信頼性の高いデータ抽出を実現する。
LLMが外部ツール・APIを呼び出せるようにする機能。モデルはユーザーの意図に応じてJSON形式の関数呼び出し命令を生成し、アプリ側がその結果を受け取って実行する。OpenAI GPT-4・Claude・Geminiが対応する。
トレーニング済みLLMを推論リクエストに応答できる形でデプロイする技術基盤。スループット・レイテンシ・コスト効率のトレードオフを管理し、vLLM/TGI/TensorRT-LLMなど専用エンジンでバッチ処理・連続バッチング・KVキャッシュを最適化する。
LLM が敵対的入力・分布外データ・ノイズ・攻撃に対してどの程度安定した出力を維持できるかを定量評価するプロセス。HarmBench・AdvBench・WildGuard 等の標準ベンチマークで実施される。
LLM自体を評価者として用いてAI出力の品質を評価するアプローチ。人間アノテーターの代替として強力なLLM(GPT-4/Claude等)が他モデルの出力をスコアリング・比較する手法。
LLM Inference Acceleratorは、大規模言語モデル(Large Language Model)の推論処理を高速化する専用ハードウェアアクセラレータです。2025年に登場した最新世代のAIチップは、従来のGPUベースの推論と比較して、大幅な電力効率の改善と推論速度の向上を実現しています。
主要LLM API料金比較(2026年Q1)。Claude Opus 4.7 $15/$75 (in/out M tok)・Sonnet 4.6 $3/$15・Haiku 4.5 $0.25/$1.25・GPT-5 Pro $30/$60・o3 Pro $20/$80・Gemini 2.5 Pro $3.5/$10.5・DeepSeek V3 $0.27/$1.10・Grok 4 $3/$15・Prompt Caching 90%削減・Batch API 50%割引対応、長時間対話+Agent運用コスト比較必須。
LLMが誤答でも高い確信度を示す傾向。RLHF訓練後やfew-shot設定で顕著に現れ、ユーザーが誤情報を正しいと信じるリスクを高める。
LLMから特定の知識・訓練データの影響を除去する技術。著作権侵害・プライバシー保護・有害情報削除を目的とする。
LLMが論理規則・数式・アルゴリズムなど記号的表現を操作して推論する能力。演繹推論・数学的証明・アルゴリズム実行などを含み、ニューラルと記号AIの融合研究の核心。
LLMが出力する確信度スコアが実際の正答率と一致するよう調整するプロセス。ECE(Expected Calibration Error)で定量化し、温度スケーリング等で補正する。
LLMが出力する確率スコアが実際の正解率と一致しているかを測定・調整する技術。Expected Calibration Error(ECE)が主要指標で、値が低いほど確率の信頼性が高い。
LLMの重み精度を低減し、メモリ消費量と計算負荷を抑える技術。FP16からINT8/INT4/FP4等へ変換することで、巨大なモデルをコンシューマ向けGPUやエッジデバイスでの高速推論・動作可能にする手法。
訓練データで見た要素の新しい組み合わせを推論できる能力。「赤い四角を90度回転」を学んだモデルが「青い円を90度回転」を正しく実行できるかを検証する概念。