DeepSeek が 2025 年 1 月に公開した推論特化型オープンソース LLM。DeepSeek V3 をベースに強化学習で Chain of Thought 能力を獲得し、o1 に匹敵する数学・コーディング性能を実現。
DeepSeek R1 は、DeepSeek が 2025 年 1 月 20 日に公開した推論特化型の大規模言語モデルです。DeepSeek V3 をベースに、純粋な強化学習(RL)のみで推論能力を獲得させた画期的な手法で、OpenAI o1 に匹敵する数学・コーディング・論理推論性能を実現しました。モデル重みとトレーニング手法の両方をオープンソース化し、AI 研究コミュニティに大きな影響を与えました。
従来の推論モデルは Supervised Fine-Tuning(SFT)に依存していましたが、DeepSeek R1-Zero は SFT なしの RL のみで推論能力を学習することに成功しました。これは AI 研究における重要なブレークスルーです。
PPO の改良版で、Critic Model なしで学習可能な効率的な RL 手法。
| ベンチマーク | DeepSeek R1 | OpenAI o1 | Claude 3.5 Sonnet | |------------|-------------|-----------|-------------------| | AIME 2024 | 79.8% | 79.2% | 16.0% | | MATH-500 | 97.3% | 96.4% | 78.3% | | GPQA Diamond | 71.5% | 75.7% | 65.0% | | Codeforces | 2029 | 2061 | 717 | | LiveCodeBench | 65.9% | 63.4% | 38.9% | | MMLU | 90.8% | 91.8% | 88.3% |
R1 の知識を小型モデルに蒸留した派生版:
ローカル実行向けで、32B は多くのベンチマークで o1-mini を上回ります。
| モデル | VRAM(FP16) | VRAM(INT4) | |--------|------------|------------| | R1-Distill-1.5B | 4GB | 1GB | | R1-Distill-7B | 16GB | 4.5GB | | R1-Distill-14B | 32GB | 9GB | | R1-Distill-32B | 72GB | 20GB | | R1-Distill-70B | 160GB | 42GB | | R1(フル) | 1.3TB | 350GB |
# Ollama
ollama run deepseek-r1:7b
ollama run deepseek-r1:32b
# LM Studio、vLLM、llama.cpp でも対応