2472件の用語
LLM性能評価指標。MMLU 5-shot・MMLU Pro・GPQA Diamond・HumanEval(コード)・MATH・SWE-bench Verified・HellaSwag・IFEval・BBH(Big-Bench Hard)・MT-Bench・Chatbot Arena(人間評価)・Vellum AI Leaderboard・LM Studio bench、2026年Claude Opus 4/GPT-5 92%+主要基準、Artificial Analysis集計中央化。
LLMの訓練データにベンチマークのテスト問題や回答が混入し、モデルが問題を「記憶」することでスコアが実際の能力以上に高く見える問題。評価の信頼性を根本から損なう。
既存のLLMベンチマークにモデルが高スコアを出し続け、スコアの差異が縮小して識別能力を失う現象。MMLU・HumanEval等で2024-2025年に顕在化し、より難しい新ベンチマークへの移行を促している。
LLMの出力品質を数値スコアで評価する報酬モデル(Reward Model)を訓練し、RLHF・DPO等の選好最適化パイプラインで活用する技術体系。人間のフィードバックを機械学習可能な信号へ変換する中核コンポーネントである。
GPT-4o・Gemini 2.0・Claude 3.5 SonnetなどのマルチモーダルLLMを活用し、画像・音声・動画・PDFなどテキスト以外のメディアから構造化データを直接抽出する技術。従来のOCR→テキスト抽出の2段階パイプラインを1ステップに統合し、視覚的文脈を保持した高精度な情報抽出を実現する。
LLMが長期的な情報を保持・検索・活用するための記憶システム設計。短期記憶(コンテキストウィンドウ)と長期記憶(外部ストレージ)を組み合わせ、人間の記憶構造を模倣する。
LLM(大規模言語モデル)のパラメータ数・計算量・メモリ使用量を削減しつつ精度を維持する技術群の総称。プルーニング・量子化・知識蒸留・低ランク分解の4手法が主軸となる。
大規模言語モデル(Teacher)の知識を小型モデル(Student)へ転写し、推論コスト削減と精度維持を両立させる技術の総称
複数の学習済みLLMのパラメータを統合し、各モデルの長所を兼ね備えた単一モデルを生成する技術。追加学習なしで能力を合成できる点が最大の特徴である。
LLM Model Router(モデルルーター)とは、入力クエリの特性を分析し、複数の大規模言語モデルの中から最適なモデルを自動的に選択・振り分けする仕組みである。ML ベースの分類器やルールエンジンにより、品質を維持しながらコストとレイテンシを最小化する。
ユーザーのクエリ内容・複雑さ・コスト制約に応じて、最適なLLMモデルへリクエストを自動振り分けする技術。簡単な質問にはHaikuクラスの軽量モデル、複雑な推論にはOpusクラスの高性能モデルを割り当てることで、品質とコストを同時に最適化する。
LLM(大規模言語モデル)の推論品質・レイテンシ・コスト・異常検知をリアルタイムに監視し、本番環境での信頼性を維持する運用プラクティス。
LLMの生成テキスト中の差別・ヘイト・暴力・性的表現等を自動検出するモジュールと評価手法の総称。
正解ラベルのone-hot分布を平滑化し、モデルの過信を抑制する正則化手法。Transformerの原論文で採用され、LLMの汎化性能向上に貢献する。
LLMの性能を複数のベンチマークスコアに基づいてランキング形式で一覧表示するウェブサービス。HuggingFace Open LLM Leaderboard や LMSYS Chatbot Arena が代表的で、モデル選定の参考指標として広く利用されている。
LLM量子化とは、大規模言語モデルの重みパラメータを32ビット浮動小数点(FP32)から4ビット・8ビット整数などの低ビット表現に変換し、モデルサイズの削減と推論速度の向上を実現する圧縮技術である。Llama 3.1 405Bモデルの場合、FP16で約810GBのVRAMが必要だが、4ビット量子化により約200GBまで削減できる。
Microsoftが開発したLLM向けプロンプト圧縮フレームワークの第2世代。トークン分類による情報保持判定で元プロンプトを最大20倍圧縮しながら推論精度を維持する。低コスト・低レイテンシのRAGパイプラインに有効。
LLMへのリクエストを受信し、クエリの分析結果に基づいて最適なモデルやエンドポイントへ転送するミドルウェアコンポーネント。APIゲートウェイとしてリトライ、フォールバック、レート制限、コスト追跡などの運用機能も統合する。
クエリの複雑度・コスト・レイテンシ目標に応じてLLMモデルを自動選択するインテリジェントルーティング技術。小型モデルと大型モデルを使い分けてコストを最適化。
LLM Routing & Orchestration(LLMルーティング&オーケストレーション)とは、複数の大規模言語モデルに対してリクエストを最適に振り分け、連携動作を制御する技術体系である。コスト・レイテンシ・品質のトレードオフを自動最適化し、単一モデルでは達成できない柔軟性と経済性を実現する。