Transformer Engineとは？（トランスフォーマーエンジン）わかりやすく解説

Q: Transformer Engineとは？

NVIDIA FP8/FP4特化推論/訓練エンジン。TE v2.0(2026年)・NVIDIA Hopper(H100)以降搭載・Blackwell(B200)で第2世代拡張・Transformer layerのFP16→FP8/FP4動的キャスト+scaling factor自動調整、PyTorch/Megatron-LM/NeMo統合でLLM学習速度2-4x向上、Rubin GPU継承。

概要

NVIDIA が開発した Transformer Engine（トランスフォーマーエンジン）は、FP8/FP4 専用の推論・訓練エンジンである。
2026年に登場した TE v2.0 は、Hopper（H100）以降の GPU で標準搭載され、Blackwell（B200）で第2世代拡張が実装されている。
Transformer レイヤーの FP16→FP8/FP4 への動的キャストとスケーリングファクタの自動調整により、PyTorch、Megatron‑LM、NeMo などのフレームワークで LLM 学習速度を 2〜4 倍に向上させる。
Rubin GPU の継承により、既存の GPU アーキテクチャとの互換性も保たれている。

主な特徴・仕組み

FP8/FP4 専用演算：FP16 で行われる演算を FP8/FP4 に変換し、演算量を 4 倍削減。
動的キャスト：入力テンソルのスケールを自動判定し、FP8/FP4 へキャスト。
スケーリングファクタ自動調整：数値安定性を確保しつつ、精度を最大化。
統合フレームワーク：PyTorch、Megatron‑LM、NeMo で即時利用可能。
Hopper/Blackwell 互換：H100、B200 で最適化済み。
推論・訓練両方に対応：推論時は 80 TFLOP/s、訓練時は 4.5 TFLOP/s の性能を実現。
メモリ効率：FP8/FP4 で 2 倍のデータ圧縮、最大 48 GB GDDR7 まで拡張可能。
低消費電力：1.5 W で 5.0 GHz のクロックを維持。
拡張性：Blackwell で 8.0 TFLOP/s までスケール。
データパイプライン最適化：バッチサイズ 32 で 10.5 TFLOP/s を達成。

スペック/製品比較表

製品/バージョン	GPU アーキテクチャ	FP8/FP4 性能	推論速度	訓練速度	メモリ	クロック	消費電力
TE v1.0

メニュー

Transformer Engine（トランスフォーマーエンジン）

メニュー

Transformer Engine（トランスフォーマーエンジン）

概要

主な特徴・仕組み

スペック/製品比較表

この用語に関連するコンテンツ

具体例・対応製品

自作PCでの選び方・注意点

関連用語との違い

よくある質問

まとめ

関連用語