1978件の用語
DeepSeek社が2024年5月にリリースしたMoEアーキテクチャ採用LLM。236B総パラメータ・21Bアクティブ化で、Multi-head Latent Attention(MLA)とDeepSeekMoE技術によりKVキャッシュを93%削減し高コスト効率を実現。
DeepSeek 2024年5月発表 MoE LLM。総236B / アクティブ 21B・GPT-4 同等性能・推論コスト Llama 3 比 42%
2024年DeepSeek AI発表DeepSeekMath・Industry-leading GRPO math reasoning LLM + Industry-leading DeepSeek-Math 7B + Industry-leading 120B Common Crawl math + Industry-leading GSM8K 64.2% MATH 51.7%。
DeepSeekが開発した数学特化7Bパラメータ言語モデル。数学推論・証明・競技数学問題を解くために120Bトークンの数学コーパスで事前学習し、GPT-4レベルの数学性能を達成した。
MicrosoftのDeepSpeedが2023年に提案したシーケンス並列化手法。All-to-All通信でQ/K/Vをシーケンス次元からヘッド次元に再分配し、各GPUが全シーケンスの一部ヘッドの注意計算を担当する。Ring Attentionより通信効率が高いケースがある。
Microsoft開発の大規模LLM学習フレームワーク。Zero Redundancy Optimizer(ZeRO)でモデル状態を分散・メモリ使用量を大幅削減。Stage 1〜3でパラメータ・勾配・オプティマイザ状態を段階的に分散管理する。
Microsoft Research発表DeepSpeed・LLM大規模Distributed Training Industry-leading library・ZeRO (Zero Redundancy Optimizer) 3-stage memory optimization・ZeRO-1 optimizer state partitioning + ZeRO-2 gradient partitioning + ZeRO-3 model parameter partitioning・Industry-leading model parameter memory partitioning across GPUs + Industry-leading large-scale model training memory efficiency + Industry-leading 1T+ parameter model training enabler + Microsoft Industry-leading Distributed Training framework + Industry-wide adoption・PyTorch + Hugging Face Transformers + 多LLM training framework integration。
2010年Demis Hassabis + Shane Legg + Mustafa Suleyman共同創業DeepMind。英国London + 2014-01 Google $500M買収Pro Famous + AlphaGo 2016 Pro Famous + AlphaFold 2018/2020 + Gemini 2023-12 + Pro Mainstream AI Lab業界Top独占代表機。
AlexNet は2012年9月Alex Krizhevsky・Ilya Sutskever・Geoffrey Hinton (University of Toronto) が発表したCNN モデルで ImageNet Large Scale Visual Recognition Challenge (ILSVRC) で Top-5 Error 15.3% (前年26.2% から大幅改善) ・NVIDIA GTX 580 GPU×2 で1週間学習採用しDeep Learning 時代の幕開けとなった歴史的論文・現代AI 革命の起点。
Deep Learning Trinity 2018 Turing Award (差別化: 既存ML史と異なり研究者個人軸)。Geoffrey Hinton 1947生 Edinburgh→Toronto Univ「Backpropagation」1986 Rumelhart+Williams共著 Nature掲載+Restricted Boltzmann Machines RBM+Deep Belief Networks DBN 2006・AlexNet 2012 (Alex Krizhevsky+Ilya Sutskever Student指導・ImageNet 16.4% Top-5 Error)→Google 2013-2023+Vector Institute 2017→Toronto退職 2023→Google Brain離職 AI Safety Concern「Godfather of AI」・Yann LeCun 1960生 Sorbonne→Bell Labs+New York University+Meta AI VP→FAIR Facebook AI Research・LeNet-5 1989 CNN Convolutional Neural Network先駆+MNIST handwriting digit・Yoshua Bengio 1964生 McGill→Montreal Univ MILA・Word Embeddings+Generative Adversarial Networks GAN指導 (Ian Goodfellow Student 2014・GoodFellow Apple→Google Brain→DeepMind)・3名 2018 Turing Award (AC ACM・$1M)+Hinton 2024 Nobel Physics (John Hopfield共)・Demis Hassabis 2024 Nobel Chemistry AlphaFold・¥0 公的功績、2026年Hinton+LeCun+Bengio LLM/AGI Foundation。
Deep Learning Frameworkは、人工知能・機械学習分野における重要な概念・技術です。
2024年Q4 d-Matrix (米Santa Clara・2019年Sid Sheth (CEO・元Marvell Senior VP) + Sudeep Bhoja (CTO) 共同創業・累計funding $160M+・Microsoft / M12 / Triatomic / Industry Ventures投資) 発表のCorsair・Digital In-Memory Computing (DIMC) Architecture + 9,600 TOPS INT8 + SRAM内Computing 2GB on-chip + LPDDR5 256GB Card-level memory + 600W TDP + PCIe Gen 5 x16・$3,000-$5,000/card・LLM Inference特化chip・Microsoft Azure採用予定 (2024年Q4発表・Project Forge integration)・NVIDIA H100直接競合のInference-Optimized AI Chip。
2024年成熟Tiktoken・Industry-leading OpenAI BPE tokenizer + Industry-leading cl100k_base + o200k_base + Industry-leading Rust-based fast + Industry-leading OpenAI Tiktoken MIT BPE tokenizer library 2024。
Decision Treeは、人工知能・機械学習分野における重要な概念・技術です。
2024年Microsoft Research + Tsinghua University共同発表DistAttention paper・Industry-emerging Distributed CPU Offload Attention paradigm + Industry-leading long-context CPU memory offload + Industry-emerging KV cache CPU offload paradigm + Industry-leading Microsoft + Tsinghua integrated research foundation。
2019年HuggingFace + Sanh et al.発表DistilBERT paper・Industry-leading BERT 6-Layer Distillation + Industry-leading 40% smaller + 60% faster + 97% BERT performance + Industry-leading HuggingFace Industry-leading Open-source distillation Pioneer + Industry-leading BERT distillation foundational paradigm。
2019年Sanh et al. (HuggingFace)発表DistilBERT・Industry-leading knowledge distillation LLM + Industry-leading 40% smaller BERT + Industry-leading 60% faster inference + Industry-leading 97% BERT performance retained。
HuggingFaceが2019年に提案したBERTの知識蒸留版。BERTの層数を6層(原型12層の半数)に削減しながら97%のNLP性能を維持、推論速度60%向上・モデルサイズ40%削減を達成した代表的蒸留モデル。
BERTの知識蒸留版モデル。教師BERTの知識を40%少ないパラメータの生徒モデルへ転移し、推論速度60%向上・性能97%保持を実現した2019年のHugging Face提案手法。
2024年Stanford University + UC Berkeley + Apparate Labs共同発表DistServe paper・OSDI 2024 conference presentation (Industry-leading operating systems academic conference) + Industry-leading academic research paper + Open-source implementation release + Prefill phase + Decode phase disaggregated GPU pool architecture + Industry-leading SLO-aware scheduling + Industry-leading Open-source academic implementation + Industry-emerging Disaggregated Inference paradigm research paper Pioneer。