LangSmithとは、LangChain社が提供するLLMアプリケーション向けのオブザーバビリティ・評価・テストプラットフォームである。LangChainフレームワークとのネイティブ統合により、RAGパイプラインやエージェントの全ステップを自動でトレースし、プロンプト管理・データセット評価・オンラインモニタリングを統合的に提供する。
LangSmith(ラングスミス)は、LangChainフレームワークの開発元であるLangChain, Inc.が2023年にリリースしたLLMアプリケーション開発・運用プラットフォームである。LangChain / LangGraph で構築されたアプリケーションの全ステップを自動的にトレースし、開発・デバッグ・評価・本番監視の全ライフサイクルをカバーする。
主要機能はTracing、Prompt Hub、Datasets & Testing、Online Evaluation、Monitoringの5モジュールで構成される。LangChainのコードに環境変数 LANGCHAIN_TRACING_V2=true と LANGCHAIN_API_KEY を設定するだけで全LLM呼び出しが自動記録される。
| プラン | 月額料金 | トレース上限 | 保持期間 | 主な追加機能 |
|---|---|---|---|---|
| Developer | 無料 | 5,000トレース/月 | 14日 | 基本トレース・評価 |
| Plus | $39/月 | 50,000トレース/月 | 90日 | Prompt Hub・データセット・RBAC |
| Enterprise | カスタム | 無制限 | カスタム | SSO・セルフホスト・SLA |
トレースはルートRun(リクエスト全体)と子Run(各ステップ)の階層で表現される。Chain、Agent、Tool、LLM、Retrieverの各コンポーネントが自動でRunとして記録される。フィルタリング、比較機能でプロンプト変更前後の出力差分を分析できる。
プロンプトテンプレートのバージョン管理・共有・デプロイ機能。hub.pull('rag-qa-prompt')で名前参照し、再デプロイなしにプロンプト更新・A/Bテスト・ロールバックが可能。
入力・期待出力ペアのデータセットに対して評価器を実行しスコア集計する。組み込み評価器(Correctness、Helpfulness等)のほかカスタム評価器も定義可能。回帰テスト機能でCI/CDにプロンプト品質ゲートを組み込める。
Python/TypeScript SDKで手動トレース記録が可能。OpenAI SDK/Anthropic SDKのラッパーも提供されるが、自動インスツルメンテーションはLangChain/LangGraph限定である。
月間5,000トレースは日約166リクエスト相当。サンプリング(10%のみトレース)で実質50,000リクエスト/月まで対応可能。
デフォルトはUS East(バージニア)のAWS。EUリージョン選択可。Enterprise版でセルフホスト可能。
LangSmithはLangChain/LangGraph統合が圧倒的に深い。LangfuseはOSSでセルフホスト容易・フレームワーク非依存。用途で選択する。