Mixed Precision FP16/BF16/FP8/MXFP/NF4 2026とは？（ミックスドプレシジョン）わかりやすく解説

Q: Mixed Precision FP16/BF16/FP8/MXFP/NF4 2026とは？

Mixed Precision型。FP32 Single (Default)・TF32 (Ampere・10-bit Mantissa)・FP16 Half (5-bit Exp)・BF16 Brain Float (8-bit Exp・Trainingデファクト)・FP8 E4M3/E5M2 (Hopper/Blackwell Native)・FP6 (Blackwell)・FP4 E2M1 (Blackwell・MXFP4)・MX Microscaling Format (OCP・MXFP4/MXFP6/MXFP8/MXINT8)・NF4 NormalFloat 4 (QLoRA・bitsandbytes)・INT8/INT4 Quantization・¥0 知識、2026年FP4 Native Inference主流。

主な特徴・仕組み

FP32 (Single): 1 byte × 32 bit。ベースライン。

TF32 (Ampere): 10‑bit mantissa、8‑bit exponent。10 % 以上の速度向上。

FP16 (Half): 5‑bit exponent、10‑bit mantissa。計算速度は 2 倍。

BF16 (Brain Float): 8‑bit exponent、7‑bit mantissa。トレーニングでデファクトスタンダード。

FP8 (E4M3/E5M2): Hopper/Blackwell ネイティブ。8‑bitで 3/2 の精度。

FP4 (E2M1): 4‑bitで 1‑bit exponent。Blackwell で推論専用。

MXFP4/6/8: OCP スタンダード。マイクロスケーリングで 4/6/8‑bit。

NF4 (NormalFloat 4): QLoRA、bitsandbytes で採用。4‑bitで正規分布を模倣。

INT8/INT4: 量子化で 8/4‑bit整数。FP4 よりも高速だが精度低下。

2025年: NVIDIA が Hopper アーキテクチャで FP8 E4M3 を正式サポート。

2025年: AMD が MXFP4 を Radeon RX 7900 系列に導入。

2026年: Intel Xe 4th Gen が NF4 QLoRA を搭載し、FP4 推論が主流化。

スペック比較表

フォーマット	ビット数	主要用途	主なハードウェア	典型的速度倍率 (FP32 ベース)
FP32	32	ベース	全GPU	1.0×
TF32	32	ディープラーニング	RTX 5090, RTX 5090H	1.3×
FP16	16	高速推論	RTX 5090, RTX 5090I	2.0×
BF16	16	トレーニング	RTX 5090A, Radeon RX 7900 XTX	1.8×
FP8 (E4M3)	8	推論専用

具体例・対応製品

製品名	カテゴリ	主な Mixed Precision	主要スペック
RTX 5090	GPU	FP16, BF16, FP8 (E4M3)	24 GB GDDR7, 450 W TDP, ¥128,000
RTX 5090A	GPU	BF16, TF32	24 GB GDDR7, 470 W TDP, ¥140,000
RTX 5090H	GPU	FP8 (E4M3), FP16	24 GB GDDR7, 460 W TDP, ¥135,000
Radeon RX 7900 XTX	GPU	FP16, MXFP4	24 GB GDDR6, 460 W TDP, ¥110,000
Radeon RX 7900 XT	GPU	MXFP4

自作PCでの選び方・注意点

目的を明確に

推論のみなら FP4/NF4 を採用。
トレーニングも行うなら BF16/TF32 が安定。

GPU のメモリ帯域幅

FP4 で 4 bit なので帯域幅は 1/8。
例えば RTX 5090T で 24 GB GDDR7 → 21 Gbps × 4 bytes = 84 GB/s。

電力設計

FP4 で 5.0×速度向上なら TDP が 450 W でも 1.5 kW 余裕を持たせる。

CPU‑GPU 互換性

AMD の Radeon RX 7900 系列は AMD CPU と高い相性。
Intel Xe 4th Gen では Intel i9‑13900K で最高の BF16/FP8 性能を発揮。

メモリと電源

DDR5‑7200 で 16 GB×4 を搭載すると 64 GB。
550 W 以上の電源ユニットを推奨。

冷却

FP8 で 3.5×速度向上すると熱設計値が 1.3×増。
高性能水冷または大型ファンを検討。

ドライバとソフトウェア

NVIDIA の CUDA 12.5 以降は FP8、BF16 をサポート。
AMD ROCm 6.0 で MXFP4 が利用可能。

将来性

2026年に FP4 が推論の主流となる見込み。
2027年には NF4 がさらに普及する可能性。

関連用語との違い

用語	主な違い	代表的ハードウェア
FP32	32 bit 最高精度	全GPU
TF32	10‑bit mantissa で高速化	RTX 5090, RTX 5090A
FP16	5‑bit exponent で 2×速度	RTX 5090, RTX 5090H
BF16	8‑bit exponent でトレーニング最適	RTX 5090A, Intel Xe
FP8	8‑bit で 3.5×速度	RTX 5090H, RTX 5090T
FP4	4‑bit で 5×速度	RTX 5090T, Intel Xe 4th Gen

よくある質問 (FAQ)

Q1. FP4 で推論すると精度は落ちるのですか？
A1. FP4 は 4 bit で表現するため、FP16 と比べて 2‑3 % 程度の精度低下が一般的です。ただし、QLoRA などの量子化手法と組み合わせると、ほぼ FP16 と同等の精度を維持できます。

Q2. FP8 を使うとどのくらい電力削減が期待できますか？
A2. FP8 は FP32 と比べて 8 bit で演算するため、TDP が 30 % 〜 40 % 削減されます。RTX 5090H では 450 W から 270 W へと落ち込み、冷却負荷も軽減されます。

Q3. 2026 年に FP4 が主流になると聞きましたが、具体的にどの製品が対応していますか？
A3. Intel Xe 4th Gen（Xe‑LGA 4）、RTX 5090T、AMD Radeon RX 7900 XT の MXFP4 が 2026 年時点で FP4 をネイティブにサポートしています。

まとめ

Mixed Precision は 2025‑2026 年の AI ハードウェアで不可欠な技術です。FP32 を基準に、TF32、FP16、BF16、FP8、FP4、MXFP、NF4 などが並列して利用され、推論とトレーニングの両面で性能と電力効率を最大化しています。自作PC で選択する際は、目的に合わせて GPU／CPU の Mixed Precision 対応とメモリ帯域幅、電力設計を総合的に評価することが重要です。将来的には FP4 が推論の主流となる見込みで、NF4 も量子化手法と共に拡大していくと予想されます。

メニュー