RLHF/DPO/GRPOとは？（アールエルエイチエフディーピーオー）わかりやすく解説

Q: RLHF/DPO/GRPOとは？

LLMアライメント訓練手法。RLHF(Reward Model+PPO)・DPO(Direct Preference Optimization・OpenAI)・GRPO(Group Relative Policy Optimization・DeepSeek R1採用)・ORPO(Odds Ratio)・SimPO・KTO(Kahneman-Tversky)・IPO・SLiC-HF・RLAIF(AI feedback)・Constitutional AI(Anthropic)代表、2026年GRPO主流化・推論能力強化用。

主な特徴・仕組み

報酬設計の差異：RLHFは報酬モデルを学習し、DPOは比較データを直接利用、GRPOはグループ間の相対スコアを重視。

ポリシー更新：RLHFとDPOはPPOをベースにするが、GRPOはGroup PPOを拡張し、各グループの分散を抑える。

安全性：GRPOは複数の評価基準を同時に扱うため、偏りが減少し、コンテンツの一貫性が向上。

計算コスト：RLHFは報酬モデルの推論が必要であるため、DPOやGRPOよりもGPUリソースを多く消費。

適用範囲：2025年に公開されたOpenAI GPT‑4.5はDPOを採用、DeepSeek R1はGRPOを採用している。

手法	主な報酬設計	ポリシー更新	推論コスト	主な採用モデル
RLHF	報酬モデル	PPO	高	GPT‑4.5
DPO	直接比較	PPO	中	GPT‑4.5
GRPO	グループ相対	Group‑PPO	低	DeepSeek R1

手法

主な報酬設計

ポリシー更新

推論コスト

主な採用モデル

RLHF

報酬モデル

PPO

高

GPT‑4.5

DPO

直接比較

PPO

中

GPT‑4.5

GRPO

グループ相対

Group‑PPO

低

DeepSeek R1

具体例・対応製品

GPU：RTX 5090（24GB GDDR7、TDP 350W）

CPU：Ryzen 9 9950X3D（3.5GHz、TDP 350W）

CPU：Core Ultra 9 285K（5.7GHz、TDP 350W）

メモリ：DDR5‑6000（6000MHz、32GB）

ストレージ：512GB NVMe SSD（最大 5,000MB/s）

インターフェース：PCIe 5.0 x16（10Gbps）

ネットワーク：10Gbps Ethernet

ディスプレイ：8K（7680×4320）120Hz

電源：1000W PSU（80+ Platinum）

オーディオ：3.5mm ヘッドホンジャック、2.5mm マイク入力

自作PCでの選び方・注意点

GPU：RLHFは報酬モデル推論が頻繁に発生するため、RTX 5090のような高メモリ帯域幅を持つGPUが有利。

CPU：GRPOはグループごとの計算を並列化できるため、Ryzen 9 9950X3Dのような高クロックと多数コアを備えたCPUが推奨。

メモリ：6000MHz DDR5はデータ転送速度を最大化し、推論遅延を低減。

ストレージ：512GB NVMeはモデルパラメータのロード時間を短縮。

電源：350W GPUと350W CPUを合わせて700W以上必要。1000W PSUで余裕を持たせる。

冷却：高TDPのCPUとGPUは水冷または高性能空冷で安定稼働を確保。

ケース：PCIe 5.0 x16をフルサポートし、十分なエアフローを備えたケースを選択。

OS：Linux（Ubuntu 24.04 LTS）でCUDA 12.0、cuDNN 8.9をインストール。

ソフトウェア：Hugging Face Transformers 4.45、Accelerate 0.24を併用。

バックアップ：重要データはRAID 1構成で保護。

メニュー

RLHF/DPO/GRPO（アールエルエイチエフディーピーオー）

メニュー

RLHF/DPO/GRPO（アールエルエイチエフディーピーオー）

この用語に関連するコンテンツ

概要

主な特徴・仕組み

スペック/製品比較表

具体例・対応製品

自作PCでの選び方・注意点

関連用語との違い

よくある質問

まとめ

関連用語