2472件の用語
RAG用埋め込みインデックスは、テキストチャンクのベクトル表現を効率的に格納・検索するためのデータ構造であり、HNSW・IVF・PQ等のアルゴリズムとベクトルDBの選択がRAGの検索速度と精度を決定する。
RAGリランキングは、初期検索(ベクトル検索やBM25)で取得した候補チャンクを、Cross-EncoderやColBERT等のより精密なモデルで再スコアリングし、上位に並べ替えることで検索精度を大幅に向上させる手法である。
LLM生成回答内の各Claimを事後的に検索で検証するパイプライン。生成後に各主張の事実的根拠を確認し、誤りを修正・削除する。FActScoringやALCEがこの系統。
概要
Layer Normalizationから平均の引き算を省略し、二乗平均平方根(RMS)のみで正規化する簡略化手法。Zhang & Sennrich(2019)が提案し、計算コストを約10-15%削減しつつLayerNormと同等の性能を維持する。LLaMA・Qwen・Gemmaなど現代の主要LLMで標準採用。
RMSNorm(Root Mean Square Layer Normalization)は、LayerNorm から平均の減算ステップを省略し、二乗平均平方根(RMS)のみで正規化を行う軽量な正規化手法である。2019年に Biao Zhang と Rico Sennrich が提案し、LLaMA・Mistral・Gemma・Qwen など 2023年以降の主要 LLM で標準採用されている。計算コストが LayerNorm より約 10〜30% 低く、性能は同等以上であることが実験的に確認されている。
Reinforcement Learning from Human Feedbackの略。人間の評価・比較データを報酬信号としてLLMを強化学習で最適化し、有害出力を減らし人間の好みに沿った応答を生成させる手法。
2017年Christiano et al. + OpenAI発表RLHF paper・Industry-leading Reinforcement Learning from Human Feedback paradigm Pioneer + Industry-leading ChatGPT + GPT-4 alignment foundation + Industry-leading 7年heritage Alignment Pioneer。
Reinforcement Learning from Human Feedbackの略。人間の評価者がモデル出力を比較ランク付けし、その選好データで報酬モデルを学習、さらにPPO等の強化学習でLLMを最適化する手法。ChatGPTの成功を支えた中核技術。
LLMの出力を人間の好みに合わせて最適化する学習手法。報酬モデルと方策最適化を組み合わせ、有害出力の抑制や指示追従性の向上を実現する。
RLHF(Reinforcement Learning from Human Feedback)は、人間の嗜好データを用いてLLMの出力品質を改善する強化学習手法である。OpenAIのInstructGPT論文(2022年)で体系化され、SFT(教師ありファインチューニング)→RM(報酬モデル学習)→PPO(強化学習最適化)の3段階パイプラインが標準となった。
LLM Alignment+Post-Training。RLHF Reinforcement Learning from Human Feedback (PPO・OpenAI ChatGPT)・DPO Direct Preference Optimization (Stanford 2023)・RLAIF Reinforcement Learning from AI Feedback (Anthropic Constitutional AI)・GRPO Group Relative Policy Optimization (DeepSeek R1)・KTO Kahneman-Tversky Optimization・SimPO・Online DPO・Iterative DPO・SFT Supervised Fine-Tuning・Reward Model RM・¥0 OSS、2026年GRPO Reasoning訓練主流。
RLHFとConstitutional AIを組み合わせたアライメント手法。人間フィードバックで価値観の大枠を確立し、CAIの自己批判サイクルでスケールアップと特定ドメインの安全性を向上させる現実的なハイブリッドアプローチ。
人間フィードバックからの強化学習(RLHF)を用い、LLMを有益・無害・正直な方向に誘導する安全性調整技術。
LLMアライメント訓練手法。RLHF(Reward Model+PPO)・DPO(Direct Preference Optimization・OpenAI)・GRPO(Group Relative Policy Optimization・DeepSeek R1採用)・ORPO(Odds Ratio)・SimPO・KTO(Kahneman-Tversky)・IPO・SLiC-HF・RLAIF(AI feedback)・Constitutional AI(Anthropic)代表、2026年GRPO主流化・推論能力強化用。
RLHF人間フィードバック収集は、LLMの応答品質を評価するためにアノテーターがペア比較または絶対評価で嗜好ラベルを付与するプロセスである。Scale AI・Surge AI等のプラットフォームで実施され、データ品質がRLHFの成否を決定する最重要要素となる。
RLHF PPO訓練は、報酬モデルのスコアを最大化しつつ参照ポリシーからの乖離を制御する強化学習フェーズである。Proximal Policy Optimizationアルゴリズムでクリッピングベースの方策更新を行い、KLダイバージェンスペナルティで出力の安定性を維持する。
RLHF報酬モデルは、人間のペア比較嗜好データから学習し、LLMの応答品質をスカラー値で数値化するニューラルネットワークである。Bradley-Terryモデルに基づくランキング損失で訓練され、PPO強化学習フェーズの報酬信号として機能する。
人間フィードバックによる強化学習。人間の選好データで報酬モデルを訓練し、そのモデルを使いPPOでLLMをファインチューニングする手法。ChatGPT・Claude・Geminiなど主要LLMのアライメントに広く採用される。
RLHF(人間フィードバックによる強化学習)において、人間の選好を数値スコアとして近似する補助モデル。LLMの出力品質を自動評価し、方策最適化の報酬信号として機能する。