中国 DeepSeek が 2024 年末に公開したオープンソース大規模言語モデル。671B パラメータの MoE(Mixture of Experts)アーキテクチャで GPT-4 に匹敵する性能を低コストで実現。
DeepSeek V3 は、中国の DeepSeek(深度求索)が 2024 年 12 月に公開した、671B パラメータの大規模言語モデルです。MoE(Mixture of Experts)アーキテクチャを採用し、推論時には 37B パラメータのみをアクティブ化することで、巨大モデルながら実行コストを抑制しています。GPT-4 クラスの性能をオープンソースで実現した画期的なモデルとして、2025 年初頭の AI 業界に大きな衝撃を与えました。
KV キャッシュを圧縮する独自の Attention 機構で、推論時のメモリ使用量を大幅に削減します。
細粒度のエキスパート分割と共有エキスパートを組み合わせた改良版 MoE 設計。
補助損失なしでエキスパート間の負荷均衡を実現する新手法。
複数トークンを同時予測することで学習効率と推論速度を向上。
| ベンチマーク | DeepSeek V3 | GPT-4o | Claude 3.5 Sonnet | |------------|-------------|--------|-------------------| | MMLU | 87.1 | 87.2 | 88.3 | | HumanEval | 82.6 | 80.5 | 81.7 | | MATH | 61.6 | 60.4 | 69.0 | | GSM8K | 89.3 | 89.8 | 96.4 |
DeepSeek V3 をベースに、強化学習で推論能力を強化したのが DeepSeek R1(2025 年 1 月公開)。R1 は o1 に匹敵する推論性能を示し、Chain of Thought を自然に生成します。
deepseek-v3.1:671b-cloud(クラウド接続)