概要
Tensorコアは、NVIDIA GPUに搭載されたAI・機械学習の推論処理を高速化するための専用ハードウェアコアです。行列積と累乗の演算を効率的に実行し、Deep Learningモデルの性能向上に貢献します。特にFP16(半精度浮動小数点数)やBF16、INT8といったデータ型での演算に最適化されています。
Tensorコアは、従来のCUDAコアとは異なり、行列積と累乗演算を1つの命令で実行できるMATMUL(行列積)ユニットを内蔵しています。具体的には、4x4の行列をまとめて処理するような演算を高速化し、推論処理におけるボトルネックを解消します。Tensorコアの世代によって処理できる行列サイズやデータ型、精度が異なります。例えば、Hopper世代のTensorコアは、FP8やFP16を用いた動的範囲拡張など、より高度なデータ型に対応しています。これらのコアの利用には、CUDA APIを通じてプログラムを記述する必要があります。