1978件の用語
LLMが生成したテキストに人間には見えない統計的パターンを埋め込み、後から出所を検証できる技術。
ニューラルネットワーク(LLM)と記号的AI(論理・規則・制約)を統合するパラダイム。LLMの流暢な言語理解と形式論理の確実性・説明可能性を組み合わせて複雑推論を実現する。
AI幻覚低減手法。RAG(Retrieval Augmented Generation)・Citation/Source linking(Perplexity AI/You.com)・Self-Consistency・Chain-of-Verification(CoVe・Meta)・REALM/Self-RAG・Confidence threshold・Temperature 0-0.3・Structured Output(JSON Schema)・Constrained decoding・Guardrails(NeMo Guardrails・Guardrails AI)・Anthropic Opus 4.7 27% hallucination・GPT-5 25%・Claude reliance 最小化設計・2026年Production必須対策。
LLMが事実と異なる情報を自信を持って生成する「幻覚現象」を検出・軽減する技術。RAG統合・自己整合性チェック・FactScore・SelfCheckGPTなど多様なアプローチが存在する。
LLM出力評価ライブラリ。DeepEval・Ragas・Promptfoo・Arize Phoenix・Langfuse・OpenAI Evals・LiteLLM Eval・Braintrust・Weights & Biases Weave・Inspect AI(UK AISI)が2026年代表、LLM-as-Judge+Metrics(faithfulness/answer-relevancy/context-precision)で品質測定。
LLMが外部ツールや関数を呼び出す機能。モデルが自然言語の指示を解釈し、定義されたAPI・データベース・計算処理を実行して結果を取得する。
2023年NUS (National University of Singapore)発表LLM-Pruner paper・Industry-emerging Gradient-Based Structured Pruning paradigm + Industry-leading task-agnostic compression + Industry-leading recovery fine-tuning paradigm + Industry-leading NUS academic AI research foundation。
2023年Ma et al. (Singapore NUS)発表LLM-Pruner・Industry-leading gradient-based structured pruning LLM + Industry-leading LoRA recovery + Industry-leading 20% parameter reduction + Industry-leading LLaMA/Vicuna pruning。
2024年成熟LLM-Blender・Industry-leading PairRanker + GenFuser + Industry-leading pairwise comparison ranking + generative fusion + Industry-leading Yale + Zhejiang LLM-Blender Apache 2.0 multi-LLM blending framework 2024。
LLM API Aggregator+Proxy。LiteLLM 1.55 (100+ Provider・OpenAI互換)・PortKey AI Gateway・OpenRouter (300+ Model・¥¥¥/M tok)・Together AI (Open Source LLM)・Replicate (Run anywhere)・Fireworks AI・DeepInfra・Anyscale・Groq Cloud (高速)・Cerebras Inference・SambaNova Cloud・Cloudflare AI Gateway・Vercel AI SDK・¥0 OSS-¥¥¥¥¥/月、2026年OpenRouter+LiteLLM急成長。
LLM生成テキストの出所(どのモデル・バージョン・APIキーで生成したか)を追跡するウォーターマーク技術。モデルプロバイダーが生成物を識別するために使用。
LLM評価Benchmark。MMLU Massive Multitask Language Understanding (57 subjects)・MMLU-Pro・GPQA Diamond Graduate Physics QA・HumanEval (Code Gen)・HumanEval+・MATH MATH-500・AIME 2024・LiveCodeBench・SWE-Bench Verified・SimpleBench・BIG-Bench Hard・HellaSwag・ARC-Challenge・TruthfulQA・MT-Bench・Chatbot Arena Elo (LMSys)・¥0 OSS Eval、2026年Reasoning特化Benchmark重視。
LLM評価用データセット。MMLU Pro・GPQA Diamond・HumanEval・SWE-bench Verified・ARC-AGI-2・MATH・AIME・LiveCodeBench・Humanity's Last Exam・OSWorld・TAU-bench・MLE-bench代表、2026年はAgent/Tool-use/Long-contextベンチ拡大、Artificial Analysis統合ダッシュボード普及。
LLM評価ベンチマーク。Humanity's Last Exam(HLE・Scale AI 2025年・o1 Pro 26.7%)・MMLU-Pro(10000問+)・LiveBench(動的更新・汚染耐性)・AIME 2024/2025(数学)・SWE-bench Verified(コード)・GPQA Diamond(PhD-level)・MATH-500・HumanEval/MBPP/BigCodeBench・ARC-AGI(抽象推論)・Artificial Analysis・Vellum Leaderboard対応、2026年HLE+LiveBench複合評価定番。
LLM性能評価指標。MMLU 5-shot・MMLU Pro・GPQA Diamond・HumanEval(コード)・MATH・SWE-bench Verified・HellaSwag・IFEval・BBH(Big-Bench Hard)・MT-Bench・Chatbot Arena(人間評価)・Vellum AI Leaderboard・LM Studio bench、2026年Claude Opus 4/GPT-5 92%+主要基準、Artificial Analysis集計中央化。
LLMの訓練データにベンチマークのテスト問題や回答が混入し、モデルが問題を「記憶」することでスコアが実際の能力以上に高く見える問題。評価の信頼性を根本から損なう。
既存のLLMベンチマークにモデルが高スコアを出し続け、スコアの差異が縮小して識別能力を失う現象。MMLU・HumanEval等で2024-2025年に顕在化し、より難しい新ベンチマークへの移行を促している。
LLMの生成テキスト中の差別・ヘイト・暴力・性的表現等を自動検出するモジュールと評価手法の総称。
Microsoftが開発したLLM向けプロンプト圧縮フレームワークの第2世代。トークン分類による情報保持判定で元プロンプトを最大20倍圧縮しながら推論精度を維持する。低コスト・低レイテンシのRAGパイプラインに有効。
クエリの複雑度・コスト・レイテンシ目標に応じてLLMモデルを自動選択するインテリジェントルーティング技術。小型モデルと大型モデルを使い分けてコストを最適化。