2472件の用語
DeepNorm は、Microsoft Research が 2022年に提案した正規化手法であり、Post-Norm 配置の Transformer を 1000層以上に深くしても安定して学習できるようにするための残差スケーリング技術である。残差接続にスケーリング係数 α を掛け、初期化時に重みを係数 β で縮小することで、深いネットワークにおける勾配爆発と更新爆発を同時に抑制する。
Post-Normアーキテクチャを超深層Transformer(1,000層以上)でも安定して学習させるための正規化手法。残差接続にスケーリング係数αを導入し、Xavier初期化をβでスケーリングすることで勾配の爆発を防ぐ。Microsoft Research(Wang et al., 2022)が提案。
2010年Demis Hassabis + Shane Legg + Mustafa Suleyman共同創業DeepMind。英国London + 2014-01 Google $500M買収Pro Famous + AlphaGo 2016 Pro Famous + AlphaFold 2018/2020 + Gemini 2023-12 + Pro Mainstream AI Lab業界Top独占代表機。
AlexNet は2012年9月Alex Krizhevsky・Ilya Sutskever・Geoffrey Hinton (University of Toronto) が発表したCNN モデルで ImageNet Large Scale Visual Recognition Challenge (ILSVRC) で Top-5 Error 15.3% (前年26.2% から大幅改善) ・NVIDIA GTX 580 GPU×2 で1週間学習採用しDeep Learning 時代の幕開けとなった歴史的論文・現代AI 革命の起点。
Deep Learning Trinity 2018 Turing Award (差別化: 既存ML史と異なり研究者個人軸)。Geoffrey Hinton 1947生 Edinburgh→Toronto Univ「Backpropagation」1986 Rumelhart+Williams共著 Nature掲載+Restricted Boltzmann Machines RBM+Deep Belief Networks DBN 2006・AlexNet 2012 (Alex Krizhevsky+Ilya Sutskever Student指導・ImageNet 16.4% Top-5 Error)→Google 2013-2023+Vector Institute 2017→Toronto退職 2023→Google Brain離職 AI Safety Concern「Godfather of AI」・Yann LeCun 1960生 Sorbonne→Bell Labs+New York University+Meta AI VP→FAIR Facebook AI Research・LeNet-5 1989 CNN Convolutional Neural Network先駆+MNIST handwriting digit・Yoshua Bengio 1964生 McGill→Montreal Univ MILA・Word Embeddings+Generative Adversarial Networks GAN指導 (Ian Goodfellow Student 2014・GoodFellow Apple→Google Brain→DeepMind)・3名 2018 Turing Award (AC ACM・$1M)+Hinton 2024 Nobel Physics (John Hopfield共)・Demis Hassabis 2024 Nobel Chemistry AlphaFold・¥0 公的功績、2026年Hinton+LeCun+Bengio LLM/AGI Foundation。
Deep Learning Frameworkは、人工知能・機械学習分野における重要な概念・技術です。
2024年成熟Tiktoken・Industry-leading OpenAI BPE tokenizer + Industry-leading cl100k_base + o200k_base + Industry-leading Rust-based fast + Industry-leading OpenAI Tiktoken MIT BPE tokenizer library 2024。
Decision Treeは、人工知能・機械学習分野における重要な概念・技術です。
2024年Microsoft Research + Tsinghua University共同発表DistAttention paper・Industry-emerging Distributed CPU Offload Attention paradigm + Industry-leading long-context CPU memory offload + Industry-emerging KV cache CPU offload paradigm + Industry-leading Microsoft + Tsinghua integrated research foundation。
Hugging Faceが開発したBERTの蒸留モデル。BERTの40%のパラメータ削減・60%の高速化を実現しつつ、97%の言語理解性能を維持する軽量NLPモデルの代表例。
2019年HuggingFace + Sanh et al.発表DistilBERT paper・Industry-leading BERT 6-Layer Distillation + Industry-leading 40% smaller + 60% faster + 97% BERT performance + Industry-leading HuggingFace Industry-leading Open-source distillation Pioneer + Industry-leading BERT distillation foundational paradigm。
2019年Sanh et al. (HuggingFace)発表DistilBERT・Industry-leading knowledge distillation LLM + Industry-leading 40% smaller BERT + Industry-leading 60% faster inference + Industry-leading 97% BERT performance retained。
HuggingFaceが2019年に提案したBERTの知識蒸留版。BERTの層数を6層(原型12層の半数)に削減しながら97%のNLP性能を維持、推論速度60%向上・モデルサイズ40%削減を達成した代表的蒸留モデル。
BERTの知識蒸留版モデル。教師BERTの知識を40%少ないパラメータの生徒モデルへ転移し、推論速度60%向上・性能97%保持を実現した2019年のHugging Face提案手法。
2024年Stanford University + UC Berkeley + Apparate Labs共同発表DistServe paper・OSDI 2024 conference presentation (Industry-leading operating systems academic conference) + Industry-leading academic research paper + Open-source implementation release + Prefill phase + Decode phase disaggregated GPU pool architecture + Industry-leading SLO-aware scheduling + Industry-leading Open-source academic implementation + Industry-emerging Disaggregated Inference paradigm research paper Pioneer。
Distributed AI Inference。vLLM Multi-Node (Tensor Parallel+Pipeline Parallel・8x H200)・Ray Serve 2.40 (Anyscale)・SkyPilot 0.7 (Multi-Cloud訓練+推論)・Determined AI (HPE)・Modular MAX 25.x・KubeRay (k8s Ray Operator)・Argo Workflow・Kueue (k8s Job Scheduler)・KubeFlow Training Operator・LLM-d (Kubernetes Distributed)・FleetingAI・¥0 OSS・Multi-Region Inference、2026年LLM-d k8s Native普及。
Distributed Training戦略。DDP Distributed Data Parallel (PyTorch・Replica×N)・FSDP/FSDP2 Fully Sharded Data Parallel・ZeRO-1/2/3 (DeepSpeed)・Tensor Parallelism TP (Megatron・Layer内Slice)・Pipeline Parallelism PP (Layer分割・GPipe・Interleaved 1F1B)・Sequence Parallelism SP・Context Parallelism CP・Expert Parallelism EP (MoE)・3D/4D Parallelism・¥0 OSS・H200×8 70B Train、2026年4D Parallel普及。
Shanghai AI LaboratoryがAlpaGasusを発展させ複雑性と品質の両スコアを組み合わせたSFTデータ選定手法。多様性制御も加えた2024年の体系的データキュレーションフレームワーク。
2022年OpenAI発表Tiktoken paper・Industry-leading OpenAI Fast BPE Tokenizer + Industry-leading GPT-3.5 + GPT-4 + GPT-4o optimized + Industry-leading Rust implementation high-performance。
OpenAIが開発・公開したByte Pair Encodingベースのトークナイザーライブラリ。Rustで実装された高速な実行性能が特徴で、GPT-3.5/4/4o・Llama-3で採用されている。cl100k_base(100,256 vocab)とo200k_base(200,019 vocab)の2種類が主要バリアント。