DeepSeek社が2024年12月に公開した671Bパラメータ（アクティブ37B）のMixture-of-Experts（MoE）大規模言語モデル。FP8混合精度学習・Multi-head Latent Attention（MLA）・DeepSeekMoE アーキテクチャにより、GPT-4oクラスの性能を$5.5M（約8億円）の学習コストで実現した。

DeepSeek-V3とは？（ディープシークブイスリー）わかりやすく解説

主な特徴

DeepSeekMoE アーキテクチャ: 256個のエキスパートのうち各トークンで8個をアクティベート。総パラメータ671Bだが推論時は37Bしか使わないため計算効率が高い

Multi-head Latent Attention（MLA）: KVキャッシュを圧縮する独自のアテンション機構。推論時のメモリ使用量をMulti-Head Attention比で約70%削減

FP8混合精度学習: 業界初のFP8（8ビット浮動小数点）での大規模学習。BF16比でメモリ使用量と計算量を約半減しつつ精度劣化なし

Auxiliary-loss-free ロードバランシング: エキスパート間の負荷分散を補助損失なしで実現。学習の安定性と最終性能を両立

Multi-Token Prediction（MTP）: 1ステップで複数トークンを予測。投機的デコーディングと組み合わせて推論速度を1.8倍に向上

14.8Tトークン学習: 14.8兆トークンの大規模コーパスで事前学習。コード・数学・多言語に強い

128Kコンテキスト: 128,000トークンのコンテキストウィンドウ

オープンウェイト: モデル重みをHugging Faceで公開。商用利用可能なライセンス

学習コスト$5.5M: H800 GPU 2,048基で約2ヶ月。GPT-4（推定$100M+）の1/20以下

ベンチマーク比較

モデル	パラメータ	アクティブ	MMLU	HumanEval	MATH	GSM8K	学習コスト
DeepSeek-V3	671B	37B	87.1%	82.6%	61.6%	89.3%	$5.5M
GPT-4o	非公開	非公開	88.7%	90.2%	76.6%	95.8%	非公開
Claude 3.5 Sonnet	非公開	非公開	88.7%	92.0%	71.1%	96.4%	非公開
Llama 3.1 405B	405B	405B	87.3%	89.0%	73.8%	96.8%	非公開
Mixtral 8x22B	141B	39B	77.8%	75.0%	41.4%	78.6%	非公開

MoEアーキテクチャの仕組み

DeepSeek-V3のMoEは従来のMoE（Mixtral等）とは異なる独自設計：

Fine-grained Experts: 256個の小さなエキスパート（Mixtralの8個より大幅に多い）。各トークンで8個を選択

Shared Experts: 全トークンで常にアクティブな2個の共有エキスパート。共通知識を保持

Top-K Routing: ゲーティングネットワークがトークンごとに最適な8エキスパートを選択

Load Balancing: 補助損失なしでエキスパート間の負荷を均等化。学習の安定性が向上

選び方・注意点

推論環境: 671Bモデルのため推論にはH100×8基（80GB×8=640GB VRAM）以上が必要。量子化（GGUF Q4等）でもRTX 4090×2基程度は必要

DeepSeek-V2との違い: V2は236B/21Bアクティブ。V3は671B/37Bアクティブで約3倍の規模。性能差は特にコード・数学で顕著

DeepSeek-R1との違い: R1はV3ベースの推論特化モデル（Chain-of-Thought強化）。V3は汎用ベースモデル

API利用: DeepSeek APIで$0.27/1M入力トークン、$1.10/1M出力トークン（GPT-4oの約1/10）

中国製モデルのリスク: 中国の規制環境下で開発。センシティブなトピックでの出力にバイアスがある可能性

よくある質問（FAQ）

Q1: DeepSeek-V3はなぜこんなに安く学習できた？ A: 3つの技術革新: (1) FP8混合精度でメモリ・計算量を半減、(2) MLAでKVキャッシュを70%削減、(3) Fine-grained MoEで総パラメータの5.5%しか使わない効率設計。加えてH800（H100の輸出規制版）のコストが低い中国でのGPU調達もコスト削減に寄与。

Q2: ローカルでDeepSeek-V3を動かせる？ A: フルモデルは640GB以上のVRAMが必要で個人では困難。GGUF量子化版（Q4_K_M等）なら256GB程度のシステムメモリで動作するが、速度は実用的でない。API利用（$0.27/1M tokens）が現実的。

Q3: DeepSeek-V3とDeepSeek-R1はどちらを使うべき？ A: 汎用タスク（チャット・翻訳・要約）ならV3、数学・コード・複雑な推論ならR1。R1はChain-of-Thoughtで思考過程を出力するためトークン消費が多いが推論精度は高い。

まとめ

DeepSeek-V3は671B/37BアクティブのMoEモデル、GPT-4oクラスの性能を$5.5Mで実現

FP8学習・MLA・Fine-grained MoEの3技術革新で効率を極限まで追求

オープンウェイトで公開、API利用も$0.27/1Mトークンと低価格

中国発モデルとして「AIの民主化」を象徴する存在

メニュー

DeepSeek-V3（ディープシークブイスリー）

メニュー

DeepSeek-V3（ディープシークブイスリー）

この用語に関連するコンテンツ