2472件の用語
Transfer Learningは、人工知能・機械学習分野における重要な概念・技術です。
概要
Transformer は2017年6月Ashish Vaswani・Noam Shazeer・Niki Parmar・Jakob Uszkoreit・Llion Jones・Aidan N. Gomez・Lukasz Kaiser・Illia Polosukhin (Google) が論文「Attention Is All You Need」(NIPS 2017) で発表したニューラルネットアーキでSelf-Attention・Multi-Head Attention・RNN/LSTM 完全排除採用しBERT (2018年Google) ・GPT-1/2/3/4/4o (2018-2024年OpenAI) ・Claude (Anthropic 2023年-) ・Gemini (Google 2023年-) 全現代LLM の祖先となった歴史的論文。
2017年に発表された、RNNを用いずSelf-Attention機構のみでシーケンス処理を行う深層学習アーキテクチャ。現代の生成AI(LLM)における計算基盤となる革新的な技術。
Transformer Architecture。Attention Is All You Need 2017・Self-Attention (Q/K/V Multi-Head)・Decoder-Only (GPT/Llama/Claude)・Encoder-Only (BERT)・Encoder-Decoder (T5・Whisper)・Multi-Head Attention MHA・Multi-Query MQA・Grouped-Query GQA (Llama 3+)・Multi-Head Latent Attention MLA (DeepSeek V3)・RoPE/ALiBi/YaRN Position Encoding・SwiGLU/GeGLU FFN・RMSNorm・¥0 OSS、2026年MLA+Mamba Hybrid主流。
Transformer Architectureは、人工知能・機械学習分野における重要な概念・技術です。
NVIDIA FP8/FP4特化推論/訓練エンジン。TE v2.0(2026年)・NVIDIA Hopper(H100)以降搭載・Blackwell(B200)で第2世代拡張・Transformer layerのFP16→FP8/FP4動的キャスト+scaling factor自動調整、PyTorch/Megatron-LM/NeMo統合でLLM学習速度2-4x向上、Rubin GPU継承。
DreamerV3はGoogle DeepMindが2023年に発表した汎用世界モデルRLエージェントで、単一のハイパーパラメータセットでAtari・DMControl・Minecraft等12種の異なるタスクドメインで同時に人間超えまたは最先端性能を達成した。
OpenAI が開発した GPU カーネル記述用の Python ベース DSL であり、CUDA の低レベル知識なしに高性能な並列演算カーネルを記述できるコンパイラ言語。
OpenAI が開発した GPU カーネルコンパイラ兼プログラミング言語。Python ライクな構文で CUDA カーネルを記述でき、MLIR ベースの最適化パイプラインにより手書き CUDA に匹敵する性能を自動生成する。PyTorch 2.x の torch.compile バックエンドの中核技術。
2024年VAST AI公開Tripo 2.0。Pro 業界Pro Mainstream Text-to-3D高品質特化 + Pro 中国Beijing VAST AI + Pro 30秒生成 + Pro PBR Texture自動 + Pro Tripo Geometry + Pro オープンソースモデル + 累計2023-2026年3年Heritage継承代表機。
2024年AllenAI (Allen Institute for AI・Industry-leading Open-source AI research lab) 発表Dolma・Industry-emerging Open Training Dataset for OLMo paradigm + Industry-leading 3T tokens v1 + 5T+ tokens v2 + Industry-leading AllenAI Open-source AI research foundation + Industry-leading academic AI research transparency。
Allen AI(AI2)が開発したOLMoモデルの学習に使用されたオープンソースデータセットおよびツールキット。3兆トークン規模のWeb・書籍・論文・コードを含む多ソースコーパスと、そのキュレーションパイプラインを完全公開している。
Allen AI(Ai2)が開発・公開した完全オープンな事前学習データセット。3兆トークンを収録し、OLMoシリーズLLMの訓練データとして使用。データ収集・フィルタリング・重複除去の全工程とコードをApache 2.0ライセンスで公開する透明性が特徴。
機械学習モデルの学習データ(train set)と評価データ(test set)の間にデータの重複が存在する状態。重複があるとモデルの汎化性能を正確に測定できず、楽観的なバイアスを持つ評価結果が得られる。
2023年Microsoft Research + Tsinghua University共同発表Train Long Test Short paper・Industry-emerging length extrapolation training paradigm + Industry-leading train short context + test long context length extrapolation training-time技法 + Industry-leading Microsoft + Tsinghua Industry-leading integrated research foundation。
2023年Nir Gazit (元Google Cloud TPM) 創業のTraceloop・OSS Project OpenLLMetryでLLM Tracing OpenTelemetry標準化を推進。Y Combinator S22採択・GitHub OpenLLMetry Star 4k+ (2024年Q4)・Apache 2.0 License・Python/JS/Go/Ruby SDK提供・OpenAI/Anthropic/Cohere/Mistral/Pinecone/Chroma/LangChain/LlamaIndex 30+ integration・Datadog/Honeycomb/Grafana/New Relic 既存OTel backendと完全互換・LLM specific semantic convention草案 (OTel SIG-LLM) のContributor主軸。
LLM Training Framework。PyTorch 2.6+ (torch.compile・FSDP2)・JAX 0.4 (XLA・TPU Native・Pallas)・Flax NNX (JAX高レベル)・Megatron-LM (NVIDIA Tensor+Pipeline Parallel)・DeepSpeed 0.16 (Microsoft・ZeRO-3)・Megatron-DeepSpeed・FSDP2 (Fully Sharded Data Parallel)・FairScale・Liger Kernel (Triton Custom)・torchtitan (PyTorch native LLM)・¥0 OSS、2026年torchtitan注目。
LLM事前学習時のドメイン別データ混合比を、小規模代理モデルの損失を用いて自動最適化するアルゴリズム。2023年Googleが提案。
ミニマックス最適化でLLM事前学習のドメイン別データ配合比率を自動決定するアルゴリズム。小規模プロキシモデルで効率的に最適混合を発見する。