LLMアプリケーションの動作状況をリアルタイムに計測・収集・可視化する技術体系。トークン消費量、レイテンシ、エラー率、コストなどのメトリクスを統合的に監視し、本番環境での品質と費用対効果を継続的に最適化する。
LLMテレメトリ(LLM Telemetry)は、大規模言語モデルを組み込んだアプリケーションの稼働データを自動的に収集・送信・分析する仕組みの総称である。従来のAPM(Application Performance Monitoring)がHTTPレスポンスタイムやCPU使用率を監視するのに対し、LLMテレメトリはトークン消費量、プロンプト/コンプリーションの文字数、モデル推論レイテンシ、ハルシネーション検出率、コスト按分といったLLM固有のメトリクスを追跡する。
LLMを本番運用すると、以下の課題が顕在化する。
| 課題 | 具体例 | テレメトリで解決 |
|---|---|---|
| コスト暴走 | GPT-4oで月額$50,000超過 | トークン消費量のリアルタイム監視とアラート |
| レイテンシ劣化 | P99が10秒を超える | モデル別・リージョン別のレイテンシ分布可視化 |
| 品質低下 | ハルシネーション率上昇 | プロンプト/レスポンスペアのサンプリングと評価 |
| デバッグ困難 | 非決定的な出力の再現 | プロンプトログとシード値の完全記録 |
| 規制対応 | AI法へのコンプライアンス | 入出力の監査ログと保持ポリシー |
LLMテレメトリに対応するツール・サービスの比較を示す。
| プラットフォーム | 方式 | 対応モデル | 特徴 |
|---|---|---|---|
| LangSmith | SaaS | LangChain統合全モデル | トレース・評価・プロンプトHub統合 |
| Langfuse | OSS/SaaS | OpenAI/Anthropic/Gemini等 | OpenTelemetry互換・セルフホスト可 |
| Helicone | SaaS | OpenAI/Anthropic/Azure等 | プロキシ方式・1行コード変更で導入 |
| Arize Phoenix | OSS | 任意 | LLM Eval・埋め込み可視化・ローカル実行 |
| OpenLLMetry | OSS | OpenTelemetry SDK拡張 | OTEL標準準拠・ベンダー非依存 |
LLMテレメトリの業界標準として、OpenTelemetry(OTEL)のSemantic Conventions for GenAIが策定されている。主な属性は以下のとおりである。
gen_ai.system — プロバイダ名(openai, anthropic等)gen_ai.request.model — リクエストしたモデルIDgen_ai.usage.input_tokens — 入力トークン数gen_ai.usage.output_tokens — 出力トークン数gen_ai.response.finish_reasons — 終了理由(stop, length等)これらの属性をSpanに付与することで、Datadog、Grafana、New Relicなど既存のオブザーバビリティ基盤にLLMメトリクスを統合できる。
LLMテレメトリで追跡すべきメトリクスを優先度順に整理する。
テレメトリはデータの「収集・送信」を指し、オブザーバビリティは収集したデータから「システムの内部状態を理解する能力」を指す。テレメトリはオブザーバビリティの基盤であり、手段と目的の関係にある。
PII(個人識別情報)マスキングをテレメトリパイプラインに組み込む。Langfuseは送信前のクライアントサイドマスキング機能を提供し、Heliconeはプロキシ層でのPIIスクラビングに対応している。
データ主権やコンプライアンス要件が厳しい場合はLangfuseやArize Phoenixのセルフホスト版が適する。迅速な導入と運用負荷軽減を重視する場合はHeliconeやLangSmithのSaaS版が推奨される。