2472件の用語
概要
Tensor Core低層プログラミング。WMMA Warp-level Matrix Multiply Accumulate (Volta・廃止傾向)・MMA Matrix Multiply Accumulate (Ampere+)・MMA Async (Hopper・cp.async.mbarrier)・WGMMA Warpgroup MMA (Hopper)・TMA Tensor Memory Accelerator (Hopper)・Distributed Shared Memory DSMEM・Cluster (Hopper)・PTX cp.async.bulk・MMA Sparse 2:4・Blackwell 2nd Gen Transformer Engine FP4・¥0 知識、2026年Blackwell PTX優先。
GPU AI演算ユニット。NVIDIA Tensor Core 5th Gen(Blackwell・FP4/FP8/BF16/TF32)・AMD Matrix Core 3rd Gen(CDNA 3 MI300X・FP16/BF16/FP8)・Intel XMX(Xe Matrix Extension・Arc Battlemage・BF16/INT8)・Apple Matrix Multiplier(AMX)・Qualcomm HMX(Hexagon)・FP32 vs FP16 vs BF16 vs FP8 vs FP4・Sparsity 2:4・LoRA低精度学習必須、2026年Transformer推論基盤。
大規模言語モデルの推論・学習において、単一層のテンソル演算(行列積等)を複数GPU間で分割して並列実行する手法で、単一GPUのメモリに収まらないモデルの高速処理を実現する
>-
Google 主導開発の Python 機械学習フレームワーク。Eager Mode + Keras 統合 + TPU 最適化・GitHub スター187,000・PyTorch と二大フレームワーク.
Google 2019年9月リリースTensorFlow 2.0。Eager Execution標準+Keras統合+tf.function+Python pickle化・PyTorch対抗強化。
TensorFlow Lite(TFLite)は、Googleが開発した軽量化された機械学習フレームワークです。従来のTensorFlowはサーバーやデスクトップ環境で大規模なモデルを訓練・推論するために設計されていましたが、TFLiteはモバイル端末や組み込みシステム(IoT機器)などリソース制約のあるデバイス上で高速かつ低消費電力で推論を実行できるよう最適化されています。
LLM生成時の出力の確率分布をスケーリングするパラメータ。0に近いと決定論的・高いと多様なランダム出力。テキスト生成のクリエイティビティと一貫性のトレードオフを制御する。
1985年Statistical Mechanics Temperature paradigm起源・1992年Hinton Boltzmann machines応用・Industry-leading Probability scaling sampling paradigm + Industry-leading T=0.7-1.0 default + Industry-leading temperature control + Industry-leading LLM sampling Industry-standard 全LLM Industry-leading adoption + Industry-leading Top-k/Top-p併用 Industry-standard。
LLMのテキスト生成時に出力のランダム性を制御するパラメータ。0に近いほど決定的(最も確率の高いトークンを選択)、高いほど多様で創造的な出力になる。一般的に0.0〜2.0の範囲で設定される。
Temperature Scaling(温度スケーリング)とは、学習済みモデルの出力logitを単一のスカラーパラメータT(温度)で除算することにより出力確率分布の尖度を調整し信頼度校正を改善する事後校正手法である。Guo et al.(2017)により提案されパラメータ数が1つのみという極めてシンプルな構造でありながら多くの設定で高い校正性能を達成する。
LLMのデコーディング時にsoftmax関数の入力logitをTemperature値で除算し、出力確率分布の鋭さ(エントロピー)を制御するパラメータ調整手法。低Temperatureで確定的、高Temperatureでランダムな出力を生成する。
LLM Tokenization。BPE Byte-Pair Encoding (GPT-2/3/4)・Tiktoken (OpenAI cl100k_base/o200k_base)・SentencePiece (Google Llama/Mistral)・Unigram (XLNet/T5)・WordPiece (BERT)・LlamaTokenizer Llama 3 128k vocab・GPT-4o tokenizer (200k vocab・99 lang)・Claude Tokenizer (Proprietary)・Tiktokenizer (UI)・tokencost (Calc)・Token vs Word vs Character 比1.3-1.5倍英語・¥0 OSS、2026年Multilingual Vocab拡張主流。
LLMの推論速度を測る指標。1秒間に処理・生成されるトークン数を表し、入力(Prefill)と出力(Generation)の両側面からモデルの応答性能を評価する。
Vision Transformerの中間層で類似したトークンを統合し、計算量を削減するViT推論高速化手法。Meta AI発表のToken Mergingは精度劣化を最小化しながら処理速度を2倍以上に向上させる。
2024年Alasdair Forsythe発表Tokenmonster・Industry-leading ungreedy tokenizer + Industry-leading 35% fewer tokens vs Tiktoken + Industry-leading Go-based + Industry-leading Alasdair Forsythe Tokenmonster MIT efficient tokenizer 2024。
2022年Meta AI Research発表TorchInductor・Industry-leading PyTorch 2.x default compiler backend・Industry-leading torch.compile decorator + Industry-leading Triton + C++ codegen + Industry-leading PyTorch-native compiler backend + Industry-leading Meta AI Research Industry-leading PyTorch Industry-leading credibility backing・PyTorch 2.x default Industry-leading dominant adoption。
MetaがPyTorchチームと共同開発したLLMファインチューニングライブラリ。PyTorchのネイティブAPIを直接使い、依存ライブラリを最小限に抑えた透明性の高い実装で、研究者がアルゴリズムを深く理解・カスタマイズしやすい設計が特徴。
LLM機械的忘却の評価用合成ベンチマーク。架空著者200人のプロファイルを訓練したモデルから選択的に削除する能力を測定する。