DeepSeek社が2024年12月に公開した671Bパラメータ(アクティブ37B)のMixture-of-Experts(MoE)大規模言語モデル。FP8混合精度学習・Multi-head Latent Attention(MLA)・DeepSeekMoE アーキテクチャにより、GPT-4oクラスの性能を$5.5M(約8億円)の学習コストで実現した。
DeepSeek-V3は、中国のAIスタートアップDeepSeek社が2024年12月に公開した671Bパラメータ(アクティブ37B)のMixture-of-Experts大規模言語モデルである。GPT-4o・Claude 3.5 Sonnet・Llama 3.1 405Bと同等以上のベンチマーク性能を、学習コスト$5.5M(業界平均の1/10以下)で実現し、「AIの民主化」を象徴するモデルとして世界的な注目を集めた。
| モデル | パラメータ | アクティブ | MMLU | HumanEval | MATH | GSM8K | 学習コスト |
|---|---|---|---|---|---|---|---|
| DeepSeek-V3 | 671B | 37B | 87.1% | 82.6% | 61.6% | 89.3% | $5.5M |
| GPT-4o | 非公開 | 非公開 | 88.7% | 90.2% | 76.6% | 95.8% | 非公開 |
| Claude 3.5 Sonnet | 非公開 | 非公開 | 88.7% | 92.0% | 71.1% | 96.4% | 非公開 |
| Llama 3.1 405B | 405B | 405B | 87.3% | 89.0% | 73.8% | 96.8% | 非公開 |
| Mixtral 8x22B | 141B | 39B | 77.8% | 75.0% | 41.4% | 78.6% | 非公開 |
DeepSeek-V3のMoEは従来のMoE(Mixtral等)とは異なる独自設計:
Q1: DeepSeek-V3はなぜこんなに安く学習できた? A: 3つの技術革新: (1) FP8混合精度でメモリ・計算量を半減、(2) MLAでKVキャッシュを70%削減、(3) Fine-grained MoEで総パラメータの5.5%しか使わない効率設計。加えてH800(H100の輸出規制版)のコストが低い中国でのGPU調達もコスト削減に寄与。
Q2: ローカルでDeepSeek-V3を動かせる? A: フルモデルは640GB以上のVRAMが必要で個人では困難。GGUF量子化版(Q4_K_M等)なら256GB程度のシステムメモリで動作するが、速度は実用的でない。API利用($0.27/1M tokens)が現実的。
Q3: DeepSeek-V3とDeepSeek-R1はどちらを使うべき? A: 汎用タスク(チャット・翻訳・要約)ならV3、数学・コード・複雑な推論ならR1。R1はChain-of-Thoughtで思考過程を出力するためトークン消費が多いが推論精度は高い。