11000件の用語
LLM出力評価ライブラリ。DeepEval・Ragas・Promptfoo・Arize Phoenix・Langfuse・OpenAI Evals・LiteLLM Eval・Braintrust・Weights & Biases Weave・Inspect AI(UK AISI)が2026年代表、LLM-as-Judge+Metrics(faithfulness/answer-relevancy/context-precision)で品質測定。
LLMが外部ツールや関数を呼び出す機能。モデルが自然言語の指示を解釈し、定義されたAPI・データベース・計算処理を実行して結果を取得する。
2023年NUS (National University of Singapore)発表LLM-Pruner paper・Industry-emerging Gradient-Based Structured Pruning paradigm + Industry-leading task-agnostic compression + Industry-leading recovery fine-tuning paradigm + Industry-leading NUS academic AI research foundation。
2023年Ma et al. (Singapore NUS)発表LLM-Pruner・Industry-leading gradient-based structured pruning LLM + Industry-leading LoRA recovery + Industry-leading 20% parameter reduction + Industry-leading LLaMA/Vicuna pruning。
2024年成熟LLM-Blender・Industry-leading PairRanker + GenFuser + Industry-leading pairwise comparison ranking + generative fusion + Industry-leading Yale + Zhejiang LLM-Blender Apache 2.0 multi-LLM blending framework 2024。
LLM API Aggregator+Proxy。LiteLLM 1.55 (100+ Provider・OpenAI互換)・PortKey AI Gateway・OpenRouter (300+ Model・¥¥¥/M tok)・Together AI (Open Source LLM)・Replicate (Run anywhere)・Fireworks AI・DeepInfra・Anyscale・Groq Cloud (高速)・Cerebras Inference・SambaNova Cloud・Cloudflare AI Gateway・Vercel AI SDK・¥0 OSS-¥¥¥¥¥/月、2026年OpenRouter+LiteLLM急成長。
LLM生成テキストの出所(どのモデル・バージョン・APIキーで生成したか)を追跡するウォーターマーク技術。モデルプロバイダーが生成物を識別するために使用。
LLM評価Benchmark。MMLU Massive Multitask Language Understanding (57 subjects)・MMLU-Pro・GPQA Diamond Graduate Physics QA・HumanEval (Code Gen)・HumanEval+・MATH MATH-500・AIME 2024・LiveCodeBench・SWE-Bench Verified・SimpleBench・BIG-Bench Hard・HellaSwag・ARC-Challenge・TruthfulQA・MT-Bench・Chatbot Arena Elo (LMSys)・¥0 OSS Eval、2026年Reasoning特化Benchmark重視。
LLM評価用データセット。MMLU Pro・GPQA Diamond・HumanEval・SWE-bench Verified・ARC-AGI-2・MATH・AIME・LiveCodeBench・Humanity's Last Exam・OSWorld・TAU-bench・MLE-bench代表、2026年はAgent/Tool-use/Long-contextベンチ拡大、Artificial Analysis統合ダッシュボード普及。
LLM評価ベンチマーク。Humanity's Last Exam(HLE・Scale AI 2025年・o1 Pro 26.7%)・MMLU-Pro(10000問+)・LiveBench(動的更新・汚染耐性)・AIME 2024/2025(数学)・SWE-bench Verified(コード)・GPQA Diamond(PhD-level)・MATH-500・HumanEval/MBPP/BigCodeBench・ARC-AGI(抽象推論)・Artificial Analysis・Vellum Leaderboard対応、2026年HLE+LiveBench複合評価定番。
LLM性能評価指標。MMLU 5-shot・MMLU Pro・GPQA Diamond・HumanEval(コード)・MATH・SWE-bench Verified・HellaSwag・IFEval・BBH(Big-Bench Hard)・MT-Bench・Chatbot Arena(人間評価)・Vellum AI Leaderboard・LM Studio bench、2026年Claude Opus 4/GPT-5 92%+主要基準、Artificial Analysis集計中央化。
LLMの訓練データにベンチマークのテスト問題や回答が混入し、モデルが問題を「記憶」することでスコアが実際の能力以上に高く見える問題。評価の信頼性を根本から損なう。
既存のLLMベンチマークにモデルが高スコアを出し続け、スコアの差異が縮小して識別能力を失う現象。MMLU・HumanEval等で2024-2025年に顕在化し、より難しい新ベンチマークへの移行を促している。
APIを通じて大量のクエリを発行し、対象LLMの重みや内部動作を模倣するモデルを構築する知的財産窃取攻撃。ブラックボックス設定で実行可能。
LLMの生成テキスト中の差別・ヘイト・暴力・性的表現等を自動検出するモジュールと評価手法の総称。
Microsoftが開発したLLM向けプロンプト圧縮フレームワークの第2世代。トークン分類による情報保持判定で元プロンプトを最大20倍圧縮しながら推論精度を維持する。低コスト・低レイテンシのRAGパイプラインに有効。
クエリの複雑度・コスト・レイテンシ目標に応じてLLMモデルを自動選択するインテリジェントルーティング技術。小型モデルと大型モデルを使い分けてコストを最適化。
LLMのTransformerレイヤー全体を除去することでモデルを軽量化する構造的プルーニングの一形態。後半レイヤーほど重要度が低い傾向があり、ShortGPT・LaCo等のフレームワークで実用化されている。
LLMの安全上の脆弱性を意図的に探索するセキュリティテスト手法。有害コンテンツ生成・ジェイルブレイク・プロンプトインジェクション・バイアス等のリスクを事前に発見・緩和するために実施される。
LLMの安全性・堅牢性を検証するため、攻撃者視点で意図的に有害出力を引き出すテスト手法。モデルのバイアス・有害コンテンツ生成リスク・脱獄耐性を体系的に評価する。