2472件の用語
LLMトレーシングとは、LLMアプリケーションの各処理ステップをトレースとスパンの階層構造で記録・可視化する技術である。OpenTelemetryの分散トレーシング概念をLLM固有のセマンティクスで拡張し、パイプラインのボトルネック特定とデバッグを可能にする。
LLM Knowledge Editing(知識編集)とは、大規模言語モデルが保持する事実知識を再学習なしに局所的に書き換える技術群の総称である。モデルパラメータの特定領域を直接操作することで、誤った知識の修正や新情報の追加をファインチューニングより低コストで実現する。
LLM(大規模言語モデル)とナレッジグラフ(KG)を組み合わせ、構造化された知識と自然言語処理能力を統合する技術領域。LLMの生成能力とKGの事実整合性を相互補完することで、ハルシネーション抑制や推論精度の向上を実現する。
ニューラルネットワーク(LLM)と記号的AI(論理・規則・制約)を統合するパラダイム。LLMの流暢な言語理解と形式論理の確実性・説明可能性を組み合わせて複雑推論を実現する。
LLMの出力品質を人間の評価者が直接判定する手法。Likertスケール評価・ペアワイズ比較・Chatbot ArenaのEloレーティングなどの方式がある。自動指標では捕捉しきれない流暢性・有用性・安全性を評価できるが、コストが高く再現性の確保が課題。
活性化関数とは、ニューラルネットワークの各層で入力信号に非線形変換を加える数学的関数であり、LLM(大規模言語モデル)では GELU・SwiGLU・GeGLU などが主流として採用され、モデルの表現力と学習効率を決定づける要素である。
LLMへの入力構築から推論実行・出力解析・後処理までを一連のステージとして構造化し、再利用可能な処理フローを構築する設計パターン。
LLMプロバイダが提供する非同期バッチ処理用API。リアルタイム性を犠牲にする代わりに大幅な割引料金(通常50%OFF)で大量のリクエストを処理できる。OpenAI Batch APIやAnthropic Message Batchesが代表的。
LLM(大規模言語モデル)の学習においてバッチサイズを適切に拡大・縮小する手法の総称。バッチサイズは 1 回のパラメータ更新で処理するサンプル数を決定し、学習速度・GPU メモリ使用量・最終的なモデル品質のすべてに影響を与える。GPT-4 クラスの数千億パラメータモデルでは、バッチサイズのスケーリング戦略が学習コストを数十パーセント単位で左右するため、分散学習設計の中核技術となっている。
LLMバッチ処理(バッチ推論)とは、大規模言語モデルに対する複数の推論リクエストをまとめて一括処理する技術である。個別リクエストを逐次処理するオンライン推論と異なり、リクエストをキューに蓄積してGPUの並列計算能力を最大限に活用することで、スループットの大幅な向上とコスト削減を実現する。AnthropicやOpenAIが提供するBatch APIでは最大50%のコスト削減が可能であり、大量データの分類・要約・翻訳などの非リアルタイム処理に広く活用されている。
LLMバッチ処理コスト最適化とは、大規模言語モデルの推論にかかるコストを、バッチ処理技術・量子化・キャッシュ戦略・プロバイダ選定・アーキテクチャ設計などの手法を組み合わせて体系的に削減するアプローチである。クラウドプロバイダのBatch API(Anthropic/OpenAI:50%割引)の活用、セルフホスティングによるGPU利用効率の最大化、プロンプトキャッシュによるトークンコスト削減、モデル量子化によるハードウェア要件の緩和など、複数のレイヤーで最適化を施すことで、LLM運用コストを70〜90%削減することが可能である。
AI幻覚低減手法。RAG(Retrieval Augmented Generation)・Citation/Source linking(Perplexity AI/You.com)・Self-Consistency・Chain-of-Verification(CoVe・Meta)・REALM/Self-RAG・Confidence threshold・Temperature 0-0.3・Structured Output(JSON Schema)・Constrained decoding・Guardrails(NeMo Guardrails・Guardrails AI)・Anthropic Opus 4.7 27% hallucination・GPT-5 25%・Claude reliance 最小化設計・2026年Production必須対策。
大規模言語モデル(LLM)が事実と異なる情報を生成する「ハルシネーション」を抑制・軽減するための技術群。RAG・ファインチューニング・プロンプト設計・出力検証などを組み合わせて対処する。
LLMが事実と異なる情報を自信を持って生成する「幻覚現象」を検出・軽減する技術。RAG統合・自己整合性チェック・FactScore・SelfCheckGPTなど多様なアプローチが存在する。
LLM評価・モニタリングとは、LLMアプリケーションの出力品質をオフライン評価とオンラインモニタリングの両面から定量的に測定・追跡する技術体系である。LLM-as-Judge、RAGAS、回帰テスト、ドリフト検知を組み合わせて品質を継続的に担保する。
LLM(大規模言語モデル)の性能を定量的に測定・比較するための指標群。Perplexity、BLEU、ROUGE、人間評価、LLM-as-a-Judgeなど多角的な手法が存在し、タスクの種類や評価目的に応じて使い分ける。
LLMの性能を複数のベンチマークタスクで体系的に測定するためのフレームワーク。EleutherAI の lm-evaluation-harness が代表的で、MMLU・HellaSwag・ARC 等の標準ベンチマークを統一インターフェースで実行し、モデル間の公平な比較を可能にする。
LLM(大規模言語モデル)の性能を体系的に測定・比較するためのフレームワーク。EleutherAI が開発した lm-evaluation-harness が代表的な実装であり、数百種類のベンチマークを統一インターフェースで実行できる。
LLM出力評価ライブラリ。DeepEval・Ragas・Promptfoo・Arize Phoenix・Langfuse・OpenAI Evals・LiteLLM Eval・Braintrust・Weights & Biases Weave・Inspect AI(UK AISI)が2026年代表、LLM-as-Judge+Metrics(faithfulness/answer-relevancy/context-precision)で品質測定。
事前学習済みの大規模言語モデル(LLM)を特定のタスクやドメインに適応させるため、追加のデータセットで再学習させる技術の総称。Full Fine-tuning、LoRA、QLoRA、Instruction Tuningなど複数の手法が存在する。