Mixed Precision型。FP32 Single (Default)・TF32 (Ampere・10-bit Mantissa)・FP16 Half (5-bit Exp)・BF16 Brain Float (8-bit Exp・Trainingデファクト)・FP8 E4M3/E5M2 (Hopper/Blackwell Native)・FP6 (Blackwell)・FP4 E2M1 (Blackwell・MXFP4)・MX Microscaling Format (OCP・MXFP4/MXFP6/MXFP8/MXINT8)・NF4 NormalFloat 4 (QLoRA・bitsandbytes)・INT8/INT4 Quantization・¥0 知識、2026年FP4 Native Inference主流。
Mixed Precision とは、機械学習推論・学習で使われる数値表現を複数組み合わせ、計算コストと精度を最適化する手法です。2026年現在、FP32(Single)を基準に、TF32、FP16、BF16、FP8(E4M3/E5M2)、FP4(E2M1)、MXFP(4/6/8)、NF4 などが実用化され、主流の推論では FP4 が採用されるケースが増えています。FP4 は 4 ビットで表現できるため、メモリ帯域幅と電力消費を大幅に削減しつつ、量子化誤差を抑える QLoRA などの手法と組み合わせて高精度を保っています。
FP32 (Single): 1 byte × 32 bit。ベースライン。
TF32 (Ampere): 10‑bit mantissa、8‑bit exponent。10 % 以上の速度向上。
FP16 (Half): 5‑bit exponent、10‑bit mantissa。計算速度は 2 倍。
BF16 (Brain Float): 8‑bit exponent、7‑bit mantissa。トレーニングでデファクトスタンダード。
FP8 (E4M3/E5M2): Hopper/Blackwell ネイティブ。8‑bitで 3/2 の精度。
FP4 (E2M1): 4‑bitで 1‑bit exponent。Blackwell で推論専用。
MXFP4/6/8: OCP スタンダード。マイクロスケーリングで 4/6/8‑bit。
NF4 (NormalFloat 4): QLoRA、bitsandbytes で採用。4‑bitで正規分布を模倣。
INT8/INT4: 量子化で 8/4‑bit整数。FP4 よりも高速だが精度低下。
2025年: NVIDIA が Hopper アーキテクチャで FP8 E4M3 を正式サポート。
2025年: AMD が MXFP4 を Radeon RX 7900 系列に導入。
2026年: Intel Xe 4th Gen が NF4 QLoRA を搭載し、FP4 推論が主流化。
| フォーマット | ビット数 | 主要用途 | 主なハードウェア | 典型的速度倍率 (FP32 ベース) |
|---|---|---|---|---|
| FP32 | 32 | ベース | 全GPU | 1.0× |
| TF32 | 32 | ディープラーニング | RTX 5090, RTX 5090H | 1.3× |
| FP16 | 16 | 高速推論 | RTX 5090, RTX 5090I | 2.0× |
| BF16 | 16 | トレーニング | RTX 5090A, Radeon RX 7900 XTX | 1.8× |
| FP8 (E4M3) | 8 | 推論専用 |
| 製品名 | カテゴリ | 主な Mixed Precision | 主要スペック |
|---|---|---|---|
| RTX 5090 | GPU | FP16, BF16, FP8 (E4M3) | 24 GB GDDR7, 450 W TDP, ¥128,000 |
| RTX 5090A | GPU | BF16, TF32 | 24 GB GDDR7, 470 W TDP, ¥140,000 |
| RTX 5090H | GPU | FP8 (E4M3), FP16 | 24 GB GDDR7, 460 W TDP, ¥135,000 |
| Radeon RX 7900 XTX | GPU | FP16, MXFP4 | 24 GB GDDR6, 460 W TDP, ¥110,000 |
| Radeon RX 7900 XT | GPU | MXFP4 |
| 用語 | 主な違い | 代表的ハードウェア |
|---|---|---|
| FP32 | 32 bit 最高精度 | 全GPU |
| TF32 | 10‑bit mantissa で高速化 | RTX 5090, RTX 5090A |
| FP16 | 5‑bit exponent で 2×速度 | RTX 5090, RTX 5090H |
| BF16 | 8‑bit exponent でトレーニング最適 | RTX 5090A, Intel Xe |
| FP8 | 8‑bit で 3.5×速度 | RTX 5090H, RTX 5090T |
| FP4 | 4‑bit で 5×速度 | RTX 5090T, Intel Xe 4th Gen |
Q1. FP4 で推論すると精度は落ちるのですか?
A1. FP4 は 4 bit で表現するため、FP16 と比べて 2‑3 % 程度の精度低下が一般的です。ただし、QLoRA などの量子化手法と組み合わせると、ほぼ FP16 と同等の精度を維持できます。
Q2. FP8 を使うとどのくらい電力削減が期待できますか?
A2. FP8 は FP32 と比べて 8 bit で演算するため、TDP が 30 % 〜 40 % 削減されます。RTX 5090H では 450 W から 270 W へと落ち込み、冷却負荷も軽減されます。
Q3. 2026 年に FP4 が主流になると聞きましたが、具体的にどの製品が対応していますか?
A3. Intel Xe 4th Gen(Xe‑LGA 4)、RTX 5090T、AMD Radeon RX 7900 XT の MXFP4 が 2026 年時点で FP4 をネイティブにサポートしています。
Mixed Precision は 2025‑2026 年の AI ハードウェアで不可欠な技術です。FP32 を基準に、TF32、FP16、BF16、FP8、FP4、MXFP、NF4 などが並列して利用され、推論とトレーニングの両面で性能と電力効率を最大化しています。自作PC で選択する際は、目的に合わせて GPU/CPU の Mixed Precision 対応とメモリ帯域幅、電力設計を総合的に評価することが重要です。将来的には FP4 が推論の主流となる見込みで、NF4 も量子化手法と共に拡大していくと予想されます。
| RTX 5090H, RTX 5090T |
| 3.5× |
| FP4 (E2M1) | 4 | 低電力推論 | RTX 5090T, Intel Xe 4th Gen | 5.0× |
| MXFP4 | 4 | マイクロスケール | Radeon RX 7900 XT | 4.2× |
| NF4 | 4 | QLoRA 量子化 | Intel Xe 4th Gen | 4.8× |
| INT8/INT4 | 8/4 | 量子化 | RTX 5090, RTX 5090A | 4.0× / 6.5× |
| 20 GB GDDR6, 400 W TDP, ¥100,000 |
| Ryzen 9 9950X3D | CPU | FP32, BF16 (via AVX512) | 3.7 GHz boost, 160 W TDP, ¥210,000 |
| DDR5‑7200 | メモリ | FP16/FP8 互換 | 16 GB×4, 1.6 ns latency, ¥30,000/セット |
| GDDR7‑6000 | GPUメモリ | FP8 互換 | 24 GB, 21 Gbps, ¥70,000/セット |
| マイクロスケーリング 4/6/8 で柔軟 |
| Radeon RX 7900 XT |
| NF4 | 正規分布を模倣した 4‑bit | Intel Xe 4th Gen (QLoRA) |