DeepSeek R1/V3 推論モデルとは？（ディープシークアールワン）わかりやすく解説

Q: DeepSeek R1/V3 推論モデルとは？

DeepSeek社オープン推論LLM。R1(671B MoE・37B Active・GRPO RLHF・OSS MIT License)・R1-Zero(SFT無し pure RL)・V3(同base・Math/Code強化)・R1 Distill 1.5B/7B/8B/14B/32B/70B(Qwen/Llama base)・MMLU-Pro 0.84・MATH-500 0.97・LiveCodeBench 0.65・$15M training cost・2025年1月リリース・OpenAI o1相当性能、2026年LocalLLM革命起点。

概要

DeepSeek R1/V3 推論モデルは、DeepSeek 社が開発したオープンソース LLM である。
R1 は 671B MoE（メモリオプティマイズド・エンジン）を備え、37B のアクティブパラメータを持つ。
R1‑Zero は SFT を行わず、純粋に RL で学習したバージョン。
V3 は同じベースに Math/Code 強化を追加し、MMLU‑Pro 0.84、MATH‑500 0.97、LiveCodeBench 0.65 を記録。
Distill 系列は Qwen/Llama ベースで 1.5B から 70B までのスケールを提供。
2025年1月にリリース予定で、OpenAI o1 と同等の性能を目指し、2026年に LocalLLM 革命の起点となる見込み。
MIT License の下で配布され、開発者は自由に改変・再配布できる。

主な特徴・仕組み

MoE アーキテクチャ：671B のスパースパラメータを持ち、必要に応じて 37B のアクティブパラメータを呼び出す。
GRPO RLHF：グローバルリワード・ポリシー最適化により、人間のフィードバックを反映。
Pure RL 学習：R1‑Zero は SFT を省き、RL のみで学習。
Math/Code 強化：V3 は数式・コード生成タスクで 10% 以上の精度向上。
Distill：軽量化により 1.5B から 70B までのバリエーションを提供。
OSS：MIT License により商用利用も可能。
トレーニングコスト：15M USD 相当。
学習データ：多様なドメインを網羅し、2025年時点で最新の知識を保持。

スペック/製品比較表

モデル	パラメータ	MoE	RLHF	Math/Code	MMLU‑Pro	MATH‑500	LiveCodeBench	コスト
DeepSeek R1	671B	37B	あり

メニュー

DeepSeek R1/V3 推論モデル（ディープシークアールワン）

メニュー

DeepSeek R1/V3 推論モデル（ディープシークアールワン）

概要

主な特徴・仕組み

スペック/製品比較表

この用語に関連するコンテンツ

具体例・対応製品

自作PCでの選び方・注意点

関連用語との違い

よくある質問

まとめ

関連用語