2472件の用語
LLMファインチューニングパイプラインとは、事前学習済みの大規模言語モデルを特定のタスクやドメインに適応させるための体系的なワークフローである。データ収集・前処理・学習・評価・デプロイの5段階で構成され、Hugging Face TRL・Axolotl・LLaMA-Factory等のフレームワークが主流となっている。
LLMが外部ツールや関数を呼び出す機能。モデルが自然言語の指示を解釈し、定義されたAPI・データベース・計算処理を実行して結果を取得する。
簡単なサンプルの損失を減衰させ、困難なサンプルに学習を集中させる改良型交差エントロピー損失。クラス不均衡問題に効果的。
2023年NUS (National University of Singapore)発表LLM-Pruner paper・Industry-emerging Gradient-Based Structured Pruning paradigm + Industry-leading task-agnostic compression + Industry-leading recovery fine-tuning paradigm + Industry-leading NUS academic AI research foundation。
2023年Ma et al. (Singapore NUS)発表LLM-Pruner・Industry-leading gradient-based structured pruning LLM + Industry-leading LoRA recovery + Industry-leading 20% parameter reduction + Industry-leading LLaMA/Vicuna pruning。
LLMの重みやニューロンのうち重要度が低い要素を除去(枝刈り)してモデルサイズを縮小する圧縮技術。構造化プルーニングと非構造化プルーニングの2種類がある。
2024年成熟LLM-Blender・Industry-leading PairRanker + GenFuser + Industry-leading pairwise comparison ranking + generative fusion + Industry-leading Yale + Zhejiang LLM-Blender Apache 2.0 multi-LLM blending framework 2024。
LLM API Aggregator+Proxy。LiteLLM 1.55 (100+ Provider・OpenAI互換)・PortKey AI Gateway・OpenRouter (300+ Model・¥¥¥/M tok)・Together AI (Open Source LLM)・Replicate (Run anywhere)・Fireworks AI・DeepInfra・Anyscale・Groq Cloud (高速)・Cerebras Inference・SambaNova Cloud・Cloudflare AI Gateway・Vercel AI SDK・¥0 OSS-¥¥¥¥¥/月、2026年OpenRouter+LiteLLM急成長。
LLM生成テキストの出所(どのモデル・バージョン・APIキーで生成したか)を追跡するウォーターマーク技術。モデルプロバイダーが生成物を識別するために使用。
LLM(大規模言語モデル)に対して悪意ある入力を与え、システムプロンプトの上書き・漏洩・意図しない動作を引き起こす攻撃手法の総称。OWASP Top 10 for LLM Applications 2025ではLLM01に分類され、LLMセキュリティにおける最重要リスクとされる。
LLMに対するプロンプトインジェクション攻撃(悪意ある指示をプロンプトに埋め込みモデルの動作を乗っ取る手法)を検出・防御するための技術群。入力サニタイズ、専用分類器、構造的分離、多層防御などのアプローチがある。
LLM推論時に同一または類似のプロンプトに対する計算結果をキャッシュし、応答速度の向上とコスト削減を実現する最適化技術の総称。
LLMへ送信されたプロンプトとモデルからの応答を構造化して記録・保存する仕組み。デバッグ、品質評価、監査対応、プロンプト改善のために入出力ペアを完全に再現可能な形で保持し、個人情報保護とのバランスを管理する。
大規模言語モデル(LLM)の学習を複数のGPU・ノードに分散して並列実行する技術群の総称。データ並列・テンソル並列・パイプライン並列・3D並列などの手法を組み合わせ、数百〜数千GPU規模の学習を効率的に行う。
大規模言語モデルの学習を複数GPU・複数ノードで効率的に実行するための分散計算基盤。データ並列・モデル並列・パイプライン並列などの並列化戦略と、通信最適化・メモリ管理を統合的に提供するフレームワーク群を指す。
LLMの推論時に複数トークンを同時に生成・検証することで、自己回帰的なトークン生成のボトルネックを解消し、レイテンシを2〜5倍短縮する高速化技術群の総称。
LLM評価Benchmark。MMLU Massive Multitask Language Understanding (57 subjects)・MMLU-Pro・GPQA Diamond Graduate Physics QA・HumanEval (Code Gen)・HumanEval+・MATH MATH-500・AIME 2024・LiveCodeBench・SWE-Bench Verified・SimpleBench・BIG-Bench Hard・HellaSwag・ARC-Challenge・TruthfulQA・MT-Bench・Chatbot Arena Elo (LMSys)・¥0 OSS Eval、2026年Reasoning特化Benchmark重視。
LLM(大規模言語モデル)の性能を定量的に評価するためのテストセットおよび評価手法の総称。知識・推論・コード生成・安全性など多角的な能力を測定し、モデル間の比較やリリース判定に用いられる。
LLM評価用データセット。MMLU Pro・GPQA Diamond・HumanEval・SWE-bench Verified・ARC-AGI-2・MATH・AIME・LiveCodeBench・Humanity's Last Exam・OSWorld・TAU-bench・MLE-bench代表、2026年はAgent/Tool-use/Long-contextベンチ拡大、Artificial Analysis統合ダッシュボード普及。
LLM評価ベンチマーク。Humanity's Last Exam(HLE・Scale AI 2025年・o1 Pro 26.7%)・MMLU-Pro(10000問+)・LiveBench(動的更新・汚染耐性)・AIME 2024/2025(数学)・SWE-bench Verified(コード)・GPQA Diamond(PhD-level)・MATH-500・HumanEval/MBPP/BigCodeBench・ARC-AGI(抽象推論)・Artificial Analysis・Vellum Leaderboard対応、2026年HLE+LiveBench複合評価定番。