GPU AI演算ユニット。NVIDIA Tensor Core 5th Gen(Blackwell・FP4/FP8/BF16/TF32)・AMD Matrix Core 3rd Gen(CDNA 3 MI300X・FP16/BF16/FP8)・Intel XMX(Xe Matrix Extension・Arc Battlemage・BF16/INT8)・Apple Matrix Multiplier(AMX)・Qualcomm HMX(Hexagon)・FP32 vs FP16 vs BF16 vs FP8 vs FP4・Sparsity 2:4・LoRA低精度学習必須、2026年Transformer推論基盤。
Tensor Core、Matrix Core、Xe Matrix(通称テンソルコアマトリックス)は、GPUに搭載されるAI演算専用ユニットである。
NVIDIA の 5th Gen Tensor Core(Blackwell)では FP4/FP8/BF16/TF32 をサポートし、MI300X の 3rd Gen Matrix Core(CDNA 3)は FP16/BF16/FP8 を実装。
Intel の Xe Matrix Extension(XMX)は Arc Battlemage で BF16/INT8 を、Apple の AMX は A17 Pro で BF16 を、Qualcomm の HMX は Snapdragon 8 Gen 3 で FP8 を提供する。
これらは 2026年 の Transformer 推論基盤に不可欠で、LoRA 低精度学習を前提とした設計が共通点である。
| 製品 | コア数 | FP32 速度 | FP16 速度 | BF16 速度 | FP8 速度 | メモリ | メモリ帯域幅 | PCIe | 発売年 |
|---|---|---|---|---|---|---|---|---|---|
| RTX 5090 | 16 k | 80 TFLOPS | 160 TFLOPS | 320 TFLOPS | 1.6 TFLOPS | 24 GB GDDR7 | 1.5 TB/s | 5.0 x16 | 2025年 |
| MI300X | 32 k | 120 TFLOPS | 240 TFLOPS | 480 TFLOPS | 2.5 TFLOPS | 32 GB HBM3 | 2.0 TB/s | 5.0 x16 | 2025年 |
| Arc Battlemage | 8 k | 40 TFLOPS | 80 TFLOPS | 160 TFLOPS | 0.8 TFLOPS | 16 GB GDDR6 | 1.0 TB/s | 4.0 x16 | 2026年 |
| Apple A17 Pro | 4 k | 20 TFLOPS | 40 TFLOPS | 80 TFLOPS | 0.4 TFLOPS | 16 GB LPDDR5 | 0.8 TB/s | 3.0 x8 | 2026年 |
| Snapdragon 8 Gen 3 | 2 k | 10 TFLOPS | 20 TFLOPS | 40 TFLOPS | 0.2 TFLOPS | 8 GB LPDDR5 | 0.5 TB/s | 4.0 x8 | 2025年 |
Q1. 2:4 スパース化は何ですか?
A1. 行列の 2 行に 4 列が 0 になる構造で、演算を 2 倍高速化する技術です。
Q2. FP8 と FP4 の違いは?
A2. FP8 は 8 bit、FP4 は 4 bit で表現精度が低く、計算速度とメモリ帯域幅を大幅に削減します。
Q3. 2026年 の AI 推論基盤に必要な GPU は?
A3. 2026年 以降は MI300X、Arc Battlemage、Apple A17 Pro などが主流で、LoRA 学習に最適です。
Tensor Core、Matrix Core、Xe Matrix はそれぞれ異なるベンダーが提供する AI 専用演算ユニットで、低ビット演算とスパース性対応により 2026年 の Transformer 推論を実現。
自作 PC では電源・冷却・メモリ互換性を重視し、最新ドライバを適用することで最大性能を引き出せる。
次世代 AI への移行を計画する際は、上記製品とスペックを比較し、用途に合ったユニットを選択することが重要である。