LLM評価・モニタリングとは、LLMアプリケーションの出力品質をオフライン評価とオンラインモニタリングの両面から定量的に測定・追跡する技術体系である。LLM-as-Judge、RAGAS、回帰テスト、ドリフト検知を組み合わせて品質を継続的に担保する。
LLM評価・モニタリングは品質を「開発時」と「本番運用時」の両フェーズで定量的に把握する技術体系である。LLM-as-Judge(別のLLMが採点)が2026年現在の主流手法である。
| 手法 | 概要 | コスト |
|---|---|---|
| LLM-as-Judge | 高性能LLMが採点 | $0.01〜0.05/評価 |
| ヒューマン評価 | 専門家が採点 | $0.5〜5/評価 |
| BLEU/ROUGE/BERTScore | 自動メトリクス | 無料 |
| RAGAS | RAG多面評価 | $0.02〜0.10/評価 |
| タスク固有メトリクス | 正解率、F1等 | 無料 |
| メトリクス | 評価対象 | 理想値 |
|---|---|---|
| Faithfulness | コンテキスト忠実性 | 1.0 |
| Answer Relevancy | 回答関連性 | 1.0 |
| Context Precision | 検索結果精度 | 1.0 |
| Context Recall | 情報網羅性 | 1.0 |
| Answer Correctness | 回答正確性 | 1.0 |
1,000件データセットで$40〜100のコスト。
品質メトリクス(LLM-as-Judgeスコア移動平均、ユーザーフィードバック率、ハルシネーション検知率)、運用メトリクス(レイテンシP50/P90/P99、エラー率、コスト推移)、ビジネスメトリクス(CSAT、タスク完了率、エスカレーション率)を監視。アラート閾値はスコア3.5/5.0でWarning、3.0/5.0でCritical。
入力テキスト埋め込みベクトル分布をモニタリングし、基準期間との距離が閾値を超えたらアラート。原因はモデル更新、ユーザー行動変化、外部データ変化、プロンプト意図しない変更。
ゴールデンデータセット100〜500件でPR作成時に自動評価。Faithfulness 0.8未満でfail、Answer Relevancy 0.7未満でfail。LangSmith評価ランナーはGitHub Actionsから呼び出し可能。
ヒューマン評価との一致率80〜90%。Position Bias、Verbosity Bias等の既知バイアスあり。候補順序ランダム化、複数Judgeアンサンブル、詳細ルーブリック記述で対策。
100〜500件推奨。ドメインカバレッジとエッジケースの両方を含める。本番ネガティブフィードバックの定期追加(フライホイール運用)が効果的。
最初にオンラインモニタリング(コスト・レイテンシ・エラー率)、次にオフライン評価、その後CI/CD回帰テスト統合の順。
RAGではRAGAS Faithfulness。非RAGではLLM-as-Judge判定。高精度にはNLIモデル(DeBERTa-v3-large-mnli等)。高リスクドメインではヒューマンレビュー併用が必須。