GGUF（GPT-Generated Unified Format）とは、llama.cppプロジェクトで開発されたLLMモデルの量子化ファイルフォーマットである。従来のGGML形式を後継し、メタデータの自己完結性・後方互換性・拡張性を備え、CPU/GPU混合推論に最適化されている。

GGUFとは？（ジージーユーエフ）わかりやすく解説

GGUFとは？（ジージーユーエフ）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

量子化バリエーション

GGUFは多数の量子化方式をサポートしている。名前の規則は Q\{ビット数\}_\{方式\}_\{サイズ\} である。

量子化方式	ビット数	1Bあたりサイズ	品質	用途
Q2_K	2.63bit	0.33GB	低	極限メモリ環境
Q3_K_S	3.44bit	0.43GB	低-中	メモリ制約が厳しい場合
Q3_K_M	3.91bit	0.49GB	中	バランス（小モデル向け）
Q4_0	4.50bit	0.56GB	中