11000件の用語
LLMの重みやニューロンのうち重要度が低い要素を除去(枝刈り)してモデルサイズを縮小する圧縮技術。構造化プルーニングと非構造化プルーニングの2種類がある。
2024年成熟LLM-Blender・Industry-leading PairRanker + GenFuser + Industry-leading pairwise comparison ranking + generative fusion + Industry-leading Yale + Zhejiang LLM-Blender Apache 2.0 multi-LLM blending framework 2024。
LLM API Aggregator+Proxy。LiteLLM 1.55 (100+ Provider・OpenAI互換)・PortKey AI Gateway・OpenRouter (300+ Model・¥¥¥/M tok)・Together AI (Open Source LLM)・Replicate (Run anywhere)・Fireworks AI・DeepInfra・Anyscale・Groq Cloud (高速)・Cerebras Inference・SambaNova Cloud・Cloudflare AI Gateway・Vercel AI SDK・¥0 OSS-¥¥¥¥¥/月、2026年OpenRouter+LiteLLM急成長。
LLM生成テキストの出所(どのモデル・バージョン・APIキーで生成したか)を追跡するウォーターマーク技術。モデルプロバイダーが生成物を識別するために使用。
LLM(大規模言語モデル)に対して悪意ある入力を与え、システムプロンプトの上書き・漏洩・意図しない動作を引き起こす攻撃手法の総称。OWASP Top 10 for LLM Applications 2025ではLLM01に分類され、LLMセキュリティにおける最重要リスクとされる。
LLMに対するプロンプトインジェクション攻撃(悪意ある指示をプロンプトに埋め込みモデルの動作を乗っ取る手法)を検出・防御するための技術群。入力サニタイズ、専用分類器、構造的分離、多層防御などのアプローチがある。
LLMへ送信されたプロンプトとモデルからの応答を構造化して記録・保存する仕組み。デバッグ、品質評価、監査対応、プロンプト改善のために入出力ペアを完全に再現可能な形で保持し、個人情報保護とのバランスを管理する。
大規模言語モデル(LLM)の学習を複数のGPU・ノードに分散して並列実行する技術群の総称。データ並列・テンソル並列・パイプライン並列・3D並列などの手法を組み合わせ、数百〜数千GPU規模の学習を効率的に行う。
大規模言語モデルの学習を複数GPU・複数ノードで効率的に実行するための分散計算基盤。データ並列・モデル並列・パイプライン並列などの並列化戦略と、通信最適化・メモリ管理を統合的に提供するフレームワーク群を指す。
LLM評価Benchmark。MMLU Massive Multitask Language Understanding (57 subjects)・MMLU-Pro・GPQA Diamond Graduate Physics QA・HumanEval (Code Gen)・HumanEval+・MATH MATH-500・AIME 2024・LiveCodeBench・SWE-Bench Verified・SimpleBench・BIG-Bench Hard・HellaSwag・ARC-Challenge・TruthfulQA・MT-Bench・Chatbot Arena Elo (LMSys)・¥0 OSS Eval、2026年Reasoning特化Benchmark重視。
LLM評価用データセット。MMLU Pro・GPQA Diamond・HumanEval・SWE-bench Verified・ARC-AGI-2・MATH・AIME・LiveCodeBench・Humanity's Last Exam・OSWorld・TAU-bench・MLE-bench代表、2026年はAgent/Tool-use/Long-contextベンチ拡大、Artificial Analysis統合ダッシュボード普及。
LLM(大規模言語モデル)の性能を定量的に評価するためのテストセットおよび評価手法の総称。知識・推論・コード生成・安全性など多角的な能力を測定し、モデル間の比較やリリース判定に用いられる。
LLM評価ベンチマーク。Humanity's Last Exam(HLE・Scale AI 2025年・o1 Pro 26.7%)・MMLU-Pro(10000問+)・LiveBench(動的更新・汚染耐性)・AIME 2024/2025(数学)・SWE-bench Verified(コード)・GPQA Diamond(PhD-level)・MATH-500・HumanEval/MBPP/BigCodeBench・ARC-AGI(抽象推論)・Artificial Analysis・Vellum Leaderboard対応、2026年HLE+LiveBench複合評価定番。
LLM性能評価指標。MMLU 5-shot・MMLU Pro・GPQA Diamond・HumanEval(コード)・MATH・SWE-bench Verified・HellaSwag・IFEval・BBH(Big-Bench Hard)・MT-Bench・Chatbot Arena(人間評価)・Vellum AI Leaderboard・LM Studio bench、2026年Claude Opus 4/GPT-5 92%+主要基準、Artificial Analysis集計中央化。
LLMの訓練データにベンチマークのテスト問題や回答が混入し、モデルが問題を「記憶」することでスコアが実際の能力以上に高く見える問題。評価の信頼性を根本から損なう。
既存のLLMベンチマークにモデルが高スコアを出し続け、スコアの差異が縮小して識別能力を失う現象。MMLU・HumanEval等で2024-2025年に顕在化し、より難しい新ベンチマークへの移行を促している。
GPT-4o・Gemini 2.0・Claude 3.5 SonnetなどのマルチモーダルLLMを活用し、画像・音声・動画・PDFなどテキスト以外のメディアから構造化データを直接抽出する技術。従来のOCR→テキスト抽出の2段階パイプラインを1ステップに統合し、視覚的文脈を保持した高精度な情報抽出を実現する。
LLMが長期的な情報を保持・検索・活用するための記憶システム設計。短期記憶(コンテキストウィンドウ)と長期記憶(外部ストレージ)を組み合わせ、人間の記憶構造を模倣する。
LLM(大規模言語モデル)のパラメータ数・計算量・メモリ使用量を削減しつつ精度を維持する技術群の総称。プルーニング・量子化・知識蒸留・低ランク分解の4手法が主軸となる。
APIを通じて大量のクエリを発行し、対象LLMの重みや内部動作を模倣するモデルを構築する知的財産窃取攻撃。ブラックボックス設定で実行可能。