LLMコントラスティブ損失とは？（エルエルエムコントラスティブソンシツ）わかりやすく解説

Q: LLMコントラスティブ損失とは？

類似ペアの表現を近づけ、非類似ペアの表現を遠ざける損失関数。文埋め込みモデルや検索特化LLMの学習に不可欠な技術。

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

LLMコントラスティブ損失とは？（エルエルエムコントラスティブソンシツ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主要なコントラスティブ損失の派生

InfoNCE / NT-Xent

SimCLR（2020年）で普及した形式で、1つの正例に対してバッチ内の他の全サンプルを負例として扱う。温度パラメータ τ で分布の鋭さを制御する。

L = -log(exp(sim(z_i, z_j)/τ) / Σ_k exp(sim(z_i, z_k)/τ))

τ = 0.05〜0.1 が文埋め込みモデルの標準値で、値が小さいほど分布が鋭くなり、ハードネガティブへの感度が上がる。

Triplet Loss

アンカー・正例・負例の三つ組を使い、アンカーと正例の距離がアンカーと負例の距離よりマージン m 以上小さくなるよう学習する。

L = max(d(a, p) - d(a, n) + m, 0)

FaceNetで有名だが、LLM文脈ではバッチ効率の低さからInfoNCEに置き換わりつつある。

Multiple Negatives Ranking Loss（MNRL）

Sentence-Transformers で標準的な損失。バッチ内の全ペアをクロスで正例/負例として扱い、1バッチからO(N²)の学習信号を抽出する。

文埋め込みモデルでの適用

モデル	損失関数	次元数	MTEB平均	特徴
BGE-M3	InfoNCE + 蒸留	1024	68.2	多言語・3形式対応
E5-Mistral-7B	InfoNCE	4096	66.6	LLMベース埋め込み
Voyage-3	コントラスティブ	1024	67.8	RAG特化
Qwen3-Embedding-8B	MNRL + Hard Neg	3584	70.5	最新性能
Snowflake Arctic Embed L	InfoNCE	1024	65.1	コスパ重視

ハードネガティブマイニング

コントラスティブ学習の品質は負例の選び方に大きく依存する。ランダムサンプリングの負例は「簡単すぎる」ため学習信号が弱い。

手法比較

In-Batch Negatives: バッチ内の他サンプルを負例に。シンプルだがバッチサイズに依存
BM25 Hard Negatives: キーワード検索で上位だがラベル上は非関連の文書。語彙的に類似だが意味的に異なるペアが得られる
Cross-Encoder Distillation: 高精度なCross-Encoderのスコアを蒸留して負例の難易度を調整
Self-Mining: 学習中のモデル自身で負例を検索。エポックごとに再マイニング

GTE-Qwen2やBGE-M3は、BM25ハードネガティブ + Cross-Encoder蒸留の組み合わせが最も高い精度を達成している。

コントラスティブ学習のスケーリング

バッチサイズがコントラスティブ学習の性能に直結するため、GPUメモリが制約になる。GradCache（勾配キャッシュ）技術により、論理的なバッチサイズを物理GPUメモリの制約から切り離すことが可能になった。16GB VRAM でも論理バッチサイズ65,536を実現する報告がある。

FAQ

Q1: 交差エントロピーとコントラスティブ損失の使い分けは？

次トークン予測（生成タスク）には交差エントロピー、文・文書の類似度学習（検索・分類タスク）にはコントラスティブ損失を使う。RAG向けリトリーバはほぼ全てコントラスティブ学習。

Q2: バッチサイズが小さいと性能が落ちる？

In-Batch Negatives方式では負例の多様性がバッチサイズに依存するため、小バッチは不利。GradCacheや外部負例メモリバンクで緩和可能。

Q3: 教師なしコントラスティブ学習は可能？

SimCSE（2021年）がドロップアウトによるデータ拡張で教師なしコントラスティブ学習を実現した。ただし教師ありの方が性能は高い。

メニュー

LLMコントラスティブ損失（エルエルエムコントラスティブソンシツ）

この用語に関連するコンテンツ

メニュー

LLMコントラスティブ損失（エルエルエムコントラスティブソンシツ）

この用語に関連するコンテンツ