11000件の用語
2018年RME Audio公開ADI-2 DAC FS Premium Studio DAC。AKM AK4493 DAC+ESS Sabre IO+Steady Clock III+5-band PEQ + Bass/Treble + Loudness + Crossfeed+IEM Output+Pro Studio Reference搭載。
2019年RME公開Babyface Pro FS Pro Audio Interface。USB Class Compliant+SteadyClock FS+TotalMix FX DSP+Headphone Amp+24-bit/192kHz+German Pro Audio Engineering+Compact Pro Reference搭載。
Layer Normalizationから平均の引き算を省略し、二乗平均平方根(RMS)のみで正規化する簡略化手法。Zhang & Sennrich(2019)が提案し、計算コストを約10-15%削減しつつLayerNormと同等の性能を維持する。LLaMA・Qwen・Gemmaなど現代の主要LLMで標準採用。
RMSNorm(Root Mean Square Layer Normalization)は、LayerNorm から平均の減算ステップを省略し、二乗平均平方根(RMS)のみで正規化を行う軽量な正規化手法である。2019年に Biao Zhang と Rico Sennrich が提案し、LLaMA・Mistral・Gemma・Qwen など 2023年以降の主要 LLM で標準採用されている。計算コストが LayerNorm より約 10〜30% 低く、性能は同等以上であることが実験的に確認されている。
Reinforcement Learning from Human Feedbackの略。人間の評価・比較データを報酬信号としてLLMを強化学習で最適化し、有害出力を減らし人間の好みに沿った応答を生成させる手法。
2017年Christiano et al. + OpenAI発表RLHF paper・Industry-leading Reinforcement Learning from Human Feedback paradigm Pioneer + Industry-leading ChatGPT + GPT-4 alignment foundation + Industry-leading 7年heritage Alignment Pioneer。
Reinforcement Learning from Human Feedbackの略。人間の評価者がモデル出力を比較ランク付けし、その選好データで報酬モデルを学習、さらにPPO等の強化学習でLLMを最適化する手法。ChatGPTの成功を支えた中核技術。
LLMの出力を人間の好みに合わせて最適化する学習手法。報酬モデルと方策最適化を組み合わせ、有害出力の抑制や指示追従性の向上を実現する。
RLHF(Reinforcement Learning from Human Feedback)は、人間の嗜好データを用いてLLMの出力品質を改善する強化学習手法である。OpenAIのInstructGPT論文(2022年)で体系化され、SFT(教師ありファインチューニング)→RM(報酬モデル学習)→PPO(強化学習最適化)の3段階パイプラインが標準となった。
LLM Alignment+Post-Training。RLHF Reinforcement Learning from Human Feedback (PPO・OpenAI ChatGPT)・DPO Direct Preference Optimization (Stanford 2023)・RLAIF Reinforcement Learning from AI Feedback (Anthropic Constitutional AI)・GRPO Group Relative Policy Optimization (DeepSeek R1)・KTO Kahneman-Tversky Optimization・SimPO・Online DPO・Iterative DPO・SFT Supervised Fine-Tuning・Reward Model RM・¥0 OSS、2026年GRPO Reasoning訓練主流。
RLHFとConstitutional AIを組み合わせたアライメント手法。人間フィードバックで価値観の大枠を確立し、CAIの自己批判サイクルでスケールアップと特定ドメインの安全性を向上させる現実的なハイブリッドアプローチ。
人間フィードバックからの強化学習(RLHF)を用い、LLMを有益・無害・正直な方向に誘導する安全性調整技術。
LLMアライメント訓練手法。RLHF(Reward Model+PPO)・DPO(Direct Preference Optimization・OpenAI)・GRPO(Group Relative Policy Optimization・DeepSeek R1採用)・ORPO(Odds Ratio)・SimPO・KTO(Kahneman-Tversky)・IPO・SLiC-HF・RLAIF(AI feedback)・Constitutional AI(Anthropic)代表、2026年GRPO主流化・推論能力強化用。
RLHF人間フィードバック収集は、LLMの応答品質を評価するためにアノテーターがペア比較または絶対評価で嗜好ラベルを付与するプロセスである。Scale AI・Surge AI等のプラットフォームで実施され、データ品質がRLHFの成否を決定する最重要要素となる。
RLHF PPO訓練は、報酬モデルのスコアを最大化しつつ参照ポリシーからの乖離を制御する強化学習フェーズである。Proximal Policy Optimizationアルゴリズムでクリッピングベースの方策更新を行い、KLダイバージェンスペナルティで出力の安定性を維持する。
RLHF報酬モデルは、人間のペア比較嗜好データから学習し、LLMの応答品質をスカラー値で数値化するニューラルネットワークである。Bradley-Terryモデルに基づくランキング損失で訓練され、PPO強化学習フェーズの報酬信号として機能する。
人間フィードバックによる強化学習。人間の選好データで報酬モデルを訓練し、そのモデルを使いPPOでLLMをファインチューニングする手法。ChatGPT・Claude・Geminiなど主要LLMのアライメントに広く採用される。
RLHF(人間フィードバックによる強化学習)において、人間の選好を数値スコアとして近似する補助モデル。LLMの出力品質を自動評価し、方策最適化の報酬信号として機能する。
1985 年に IBM が HDD で実用化した記録符号化方式。MFM 符号化を改良して連続する 0/1 の最大長を制限することでクロック同期を維持しつつ、データ密度を MFM の 1.5 倍に向上、ESDI インタフェース HDD・1980 年代後半-1990 年代の高密度 HDD で広く採用された。
検証可能な報酬関数のみを使用してLLMを強化学習する枠組み。数学の正誤判定やコード実行結果など決定論的に検証できる報酬を用い、報酬モデルの誤り(ハッキング)を排除してスケーラブルな訓練を実現する。