2472件の用語
中国のDeepSeekが2025年1月に公開したオープンソース推論モデル。強化学習(GRPO)で推論能力を獲得し、OpenAI o1と同等の性能をMITライセンスで提供。
幻方量化が開発した、極めて高いコスト効率と推論能力を両立する中国発のAIモデル群。V3のMoEアーキテクチャとR1の高度な思考プロセスにより、従来の西側巨大資本による独占的状況を打破し、AI開発のパラダイムシフトを引き起こした。
DeepSeek社オープン推論LLM。R1(671B MoE・37B Active・GRPO RLHF・OSS MIT License)・R1-Zero(SFT無し pure RL)・V3(同base・Math/Code強化)・R1 Distill 1.5B/7B/8B/14B/32B/70B(Qwen/Llama base)・MMLU-Pro 0.84・MATH-500 0.97・LiveCodeBench 0.65・$15M training cost・2025年1月リリース・OpenAI o1相当性能、2026年LocalLLM革命起点。
2024年DeepSeek (China)発表DeepSeek-R1・Industry-leading RL-based reasoning LLM + Industry-leading DeepSeek-R1-Zero pure RL + Industry-leading MIT License open-source + Industry-leading China reasoning LLM challenger to OpenAI o1。
2023年DeepSeek AI発表DeepSeek-Coder・Industry-leading China code generation LLM + Industry-leading 1.3B-33B + V2 236B MoE + Industry-leading 86 programming languages + Industry-leading project-level code dataset。
2024年6月DeepSeek発表DeepSeek-Coder-V2・Industry-leading 236B/21B MoE + Industry-leading 338 programming languages + Industry-leading 128K context + Industry-leading DeepSeek-Coder-V2 MIT-like license open-source code LLM 2024。
中国のDeepSeek AIが開発したMixture-of-Experts(MoE)アーキテクチャのコーディング特化LLM。16B(アクティブ)/236B(総パラメータ)のLiteとFullの2モデルを提供し、GPT-4 Turboを超えるコード能力を実現した。
中国 DeepSeek が 2024 年末に公開したオープンソース大規模言語モデル。671B パラメータの MoE(Mixture of Experts)アーキテクチャで GPT-4 に匹敵する性能を低コストで実現。
DeepSeek社が2024年12月に公開した671Bパラメータ(アクティブ37B)のMixture-of-Experts(MoE)大規模言語モデル。FP8混合精度学習・Multi-head Latent Attention(MLA)・DeepSeekMoE アーキテクチャにより、GPT-4oクラスの性能を$5.5M(約8億円)の学習コストで実現した。
2024年12月DeepSeek AI (中国Hangzhou・2023年High-Flyer Quantitative量化基金子会社設立・累計運用資金$50B+/年・中国AI startup leader・量化金融資金潤沢AI研究投資) 発表DeepSeek-V3・Industry-leading MoE scale Open weights LLM・671B total parameters (256 experts × 2.62B per expert) + 37B active params per token (Sparse activation・1/18 ratio・Industry-leading sparsity efficiency) + 128K context length + DeepSeek License (Permissive license・Commercial use可) + Multi-Token Prediction MTP + Auxiliary-loss-free load balancing + FP8 training・Industry-leading MoE scale + GPT-4o competitive performance + Cost $5.6M training (1/10 GPT-4 cost industry-shocking)。
DeepSeek社が2024年末に公開したMixture-of-Experts構造の大規模言語モデル。総パラメータ671B・有効パラメータ37Bで、推論コストを抑えつつGPT-4oクラスの性能を達成した。
DeepSeek 2024年12月発表 MoE LLM。総671B / アクティブ 37B・GPT-4o 凌駕性能・$5.5M 学習コスト破壊
DeepSeek社が2024年5月にリリースしたMoEアーキテクチャ採用LLM。236B総パラメータ・21Bアクティブ化で、Multi-head Latent Attention(MLA)とDeepSeekMoE技術によりKVキャッシュを93%削減し高コスト効率を実現。
DeepSeek 2024年5月発表 MoE LLM。総236B / アクティブ 21B・GPT-4 同等性能・推論コスト Llama 3 比 42%
2024年DeepSeek AI発表DeepSeekMath・Industry-leading GRPO math reasoning LLM + Industry-leading DeepSeek-Math 7B + Industry-leading 120B Common Crawl math + Industry-leading GSM8K 64.2% MATH 51.7%。
DeepSeekが開発した数学特化7Bパラメータ言語モデル。数学推論・証明・競技数学問題を解くために120Bトークンの数学コーパスで事前学習し、GPT-4レベルの数学性能を達成した。
MicrosoftのDeepSpeedが2023年に提案したシーケンス並列化手法。All-to-All通信でQ/K/Vをシーケンス次元からヘッド次元に再分配し、各GPUが全シーケンスの一部ヘッドの注意計算を担当する。Ring Attentionより通信効率が高いケースがある。
Microsoft Research が開発した分散学習最適化技術。Zero Redundancy Optimizer の略で、データ並列学習時のメモリ冗長性を排除し、数千GPUへのスケーリングを可能にする。Stage 1〜3の段階的なメモリ削減とCPU/NVMeオフロードを提供する。
Microsoft開発の大規模LLM学習フレームワーク。Zero Redundancy Optimizer(ZeRO)でモデル状態を分散・メモリ使用量を大幅削減。Stage 1〜3でパラメータ・勾配・オプティマイザ状態を段階的に分散管理する。
Microsoft Research発表DeepSpeed・LLM大規模Distributed Training Industry-leading library・ZeRO (Zero Redundancy Optimizer) 3-stage memory optimization・ZeRO-1 optimizer state partitioning + ZeRO-2 gradient partitioning + ZeRO-3 model parameter partitioning・Industry-leading model parameter memory partitioning across GPUs + Industry-leading large-scale model training memory efficiency + Industry-leading 1T+ parameter model training enabler + Microsoft Industry-leading Distributed Training framework + Industry-wide adoption・PyTorch + Hugging Face Transformers + 多LLM training framework integration。