1978件の用語
2024年NVIDIA発表TensorRT-LLM NVIDIA H100/H200・Industry-leading NVIDIA GPU optimized LLM inference + Industry-leading H100/H200 FP8 + Industry-leading In-Flight Batching + Industry-leading NVIDIA H100 inference framework flagship。
概要
Tensor Core低層プログラミング。WMMA Warp-level Matrix Multiply Accumulate (Volta・廃止傾向)・MMA Matrix Multiply Accumulate (Ampere+)・MMA Async (Hopper・cp.async.mbarrier)・WGMMA Warpgroup MMA (Hopper)・TMA Tensor Memory Accelerator (Hopper)・Distributed Shared Memory DSMEM・Cluster (Hopper)・PTX cp.async.bulk・MMA Sparse 2:4・Blackwell 2nd Gen Transformer Engine FP4・¥0 知識、2026年Blackwell PTX優先。
GPU AI演算ユニット。NVIDIA Tensor Core 5th Gen(Blackwell・FP4/FP8/BF16/TF32)・AMD Matrix Core 3rd Gen(CDNA 3 MI300X・FP16/BF16/FP8)・Intel XMX(Xe Matrix Extension・Arc Battlemage・BF16/INT8)・Apple Matrix Multiplier(AMX)・Qualcomm HMX(Hexagon)・FP32 vs FP16 vs BF16 vs FP8 vs FP4・Sparsity 2:4・LoRA低精度学習必須、2026年Transformer推論基盤。
>-
Google 主導開発の Python 機械学習フレームワーク。Eager Mode + Keras 統合 + TPU 最適化・GitHub スター187,000・PyTorch と二大フレームワーク.
Google 2019年9月リリースTensorFlow 2.0。Eager Execution標準+Keras統合+tf.function+Python pickle化・PyTorch対抗強化。
TensorFlow Lite(TFLite)は、Googleが開発した軽量化された機械学習フレームワークです。従来のTensorFlowはサーバーやデスクトップ環境で大規模なモデルを訓練・推論するために設計されていましたが、TFLiteはモバイル端末や組み込みシステム(IoT機器)などリソース制約のあるデバイス上で高速かつ低消費電力で推論を実行できるよう最適化されています。
LLM生成時の出力の確率分布をスケーリングするパラメータ。0に近いと決定論的・高いと多様なランダム出力。テキスト生成のクリエイティビティと一貫性のトレードオフを制御する。
1985年Statistical Mechanics Temperature paradigm起源・1992年Hinton Boltzmann machines応用・Industry-leading Probability scaling sampling paradigm + Industry-leading T=0.7-1.0 default + Industry-leading temperature control + Industry-leading LLM sampling Industry-standard 全LLM Industry-leading adoption + Industry-leading Top-k/Top-p併用 Industry-standard。
LLM Tokenization。BPE Byte-Pair Encoding (GPT-2/3/4)・Tiktoken (OpenAI cl100k_base/o200k_base)・SentencePiece (Google Llama/Mistral)・Unigram (XLNet/T5)・WordPiece (BERT)・LlamaTokenizer Llama 3 128k vocab・GPT-4o tokenizer (200k vocab・99 lang)・Claude Tokenizer (Proprietary)・Tiktokenizer (UI)・tokencost (Calc)・Token vs Word vs Character 比1.3-1.5倍英語・¥0 OSS、2026年Multilingual Vocab拡張主流。
LLMの推論速度を測る指標。1秒間に処理・生成されるトークン数を表し、入力(Prefill)と出力(Generation)の両側面からモデルの応答性能を評価する。
Vision Transformerの中間層で類似したトークンを統合し、計算量を削減するViT推論高速化手法。Meta AI発表のToken Mergingは精度劣化を最小化しながら処理速度を2倍以上に向上させる。
2024年Alasdair Forsythe発表Tokenmonster・Industry-leading ungreedy tokenizer + Industry-leading 35% fewer tokens vs Tiktoken + Industry-leading Go-based + Industry-leading Alasdair Forsythe Tokenmonster MIT efficient tokenizer 2024。
2022年Meta AI Research発表TorchInductor・Industry-leading PyTorch 2.x default compiler backend・Industry-leading torch.compile decorator + Industry-leading Triton + C++ codegen + Industry-leading PyTorch-native compiler backend + Industry-leading Meta AI Research Industry-leading PyTorch Industry-leading credibility backing・PyTorch 2.x default Industry-leading dominant adoption。
PyTorch JIT Compile。torch.compile 2.x (Default Mode)・TorchInductor (Triton Codegen Backend)・TorchDynamo (FX Tracer)・AOTAutograd (Autograd Trace)・PrimTorch (Prim Operators)・torch.export (ExportedProgram・FX Graph)・torch.fx (Symbolic Trace)・PT2 (PyTorch 2.0+)・FlexAttention 2.x (Custom Attention)・FlightRecorder・¥0 OSS、2026年torch.compile Default安定運用。
MetaがPyTorchチームと共同開発したLLMファインチューニングライブラリ。PyTorchのネイティブAPIを直接使い、依存ライブラリを最小限に抑えた透明性の高い実装で、研究者がアルゴリズムを深く理解・カスタマイズしやすい設計が特徴。
LLM機械的忘却の評価用合成ベンチマーク。架空著者200人のプロファイルを訓練したモデルから選択的に削除する能力を測定する。
Weight-Decomposed Low-Rank Adaptationの略。LoRAを進化させ、事前学習済み重みを「大きさ(magnitude)」と「方向(direction)」に分解して学習する手法。LoRAより学習効率と性能が向上する。
LoRAの改良版PEFT手法。重み行列を「振幅(magnitude)」と「方向(direction)」に分解し、方向成分のみLoRAで更新することでフルファインチューニングに近い学習パターンを実現する。