LLM推論でGPTQやAWQなどの量子化を行うと、精度はどれくらい落ちますか？

結論として、適切な量子化手法を用いる限り、通常のフル精度モデルと比較して体感できるほどの精度の低下はほとんどありません。根拠として、最新の研究では、4ビット量子化（例：GPTQ）を適用しても、ベンチマークスコアや特定のタスクにおけるロジックの一貫性が維持されることが確認されています。例えば、NVIDIA RTX 4090で実行する場合、フル精度モデルでの推論と比べても、一般的な質問応答において回答の質が目立って劣化するケースは稀です。ただし、量子化レベルを極端に落とした場合（例：2ビット以下）や、非常に専門的・複雑な推論を行う場合は、若干のハルシネーション増加が見られる可能性があります。初期段階では、まず4bit量子化を試行し、その結果が許容範囲内であることを確認してから、より高い圧縮率を追求するのが最も安全な進め方です。

複数のGPUを使ってLLM推論を行う際、データ通信のボトルネックはどこですか？

結論として、マルチGPU構成における最大のボトルネックは、主にGPU間の高速なVRAM帯域幅（Inter-GPU Communication Bandwidth）になります。根拠として、モデル層を分割して複数のGPUにロードする場合、各レイヤーの結果を次のGPUへ渡す際に、PCIeバスを経由するため、このデータ転送速度が性能を制限する主因となります。例えば、単一のRTX 4090 (PCIe Gen4 x16) で実行する場合と比較して、2枚構成でデータ交換が発生すると、理論上の合計VRAM容量以上の恩恵を受けられない場合があります。最適な接続は、NVLinkのような専用インターコネクトが理想的ですが、一般ユーザー向けではPCIeレーンの帯域幅を最大化できるマザーボード設計（例：x16/x8スロットの組み合わせ）を選定することが重要です。まずは、利用するGPU間の物理的なデータ転送速度に注目し、可能であればNVLink対応のプラットフォームでの検証を行うことを強く推奨します。

ローカルLLM推論向けGPU選び｜VRAM容量と量子化の実際

ローカルLLM推論におけるVRAM容量の決定論的計算式

ローカルLLM（Large Language Model）を動作させる際、最も重要となるハードウェア指標は演算性能（TFLOPS）ではなく、ビデオメモリ（VRAM）の総容量とメモリ帯域幅である。LLMの推論プロセス、特に「生成（Decoding）」フェーズは、モデルの重みをメモリからプロセッサへ逐次読み出す作業がボトルryptとなる「Memory Bandwidth Bound」な特性を持つためである。

モデルが要求するVRAM容量を算出するには、パラメータ数、量子化ビット数、およびコンテキスト長（KV Cache）の3要素を考慮した計算式を用いる必要がある。基本となる計算式は以下の通りである。

$$ \text{Required VRAM (GB)} \approx \left( \frac{\text{Parameters} \times \text{Bits per weight}}{8} \right) + \text{KV Cache Overhead} + \text{System/Buffer Margin} $$

例えば、Llama-3 70BモデルをGGUF形式の「Q4_K_M（約4.9bit/param）」で運用する場合、重み自体には約43GB（$70 \times 4.9 / 8$）の容量が必要となる。ここに、コンテキスト長（Context Window）に比例して増大するKV Cache（Key-Value Cache）の容量を加算しなければならない。128kトークンの長いコンテキストを扱う場合、FP16精度でのKV Cacheは数GBから十数GBに達することもあり、これがVRAM不足による「モデルの分割（Offloading）」や「速度低下」の主因となる。

量子化技術（Quantization）は、この容量問題を解決する極めて有効な手段である。4bit量子化（Q4_K_M等）を用いることで、FP16（16bit）と比較してメモリ使用量を約1/4に圧縮しつつ、Perplexity（言語モデルの精度指標）の低下を最小限に抑えることが可能だ。しかし、量子化ビット数を下げすぎると、推論の論理性や知識の保持能力が著しく損なわれるため、VRAM容量と精度のトレードオフを見極める判断力が求められる。

Llama-3 70Bクラスの巨大なパラメータを持つモデルを、オフライン環境のローカルPCで快適に動作させるには、GPUのVRAM（ビデオメモリ）容量が最大のボトルネックとなります。RTX 4090（24GB）では量子化なしでの実行は不可能であり、GGUF形式のQ4_K_Mといった量子］化手法を用いたとしても、推論速度を維持しながらモデルをメモリに収めるための緻密な計算が不可欠です。最新のRTX 5090（32GB）を選択肢に入れるか、あるいは中古のRTX 3090（24GB）を2枚搭載したマルチGPU構成で合計48GBを確保するか、コストとパフォーマンスのトレードオフは非常に複雑です。NVLinkによる高速なP2P通信が制限された現在のPCIe環境下において、スロット間の帯域幅が推論速度（tokens/s）に与える影響や、量子化ビット数とVRAM消費量の具体的な関係性を正しく理解しなければ、高額なハードウェア投資を無効にするリスクがあります。構成別のコスト効率と、推論性能を最大化するためのGPU選定基準を徹底検証します。

ローカルLLM推論におけるVRAM容量の決定論的計算式

$$ \text{Required VRAM (GB)} \approx \left( \frac{\text{Parameters} \times \text{Bits per weight}}{8} \right) + \text{KV Cache Overhead} + \text{System/Buffer Margin} $$

GPU構成	合計VRAM	メモリ帯域（推定）	推奨電源容量	コスト感	70B(Q4)の動作可否
RTX 5090 (Single)	32 GB	~1,200 GB/s	1000W+	極めて高い	△ (コンテキスト制限あり)
RTX 3090 x2	48 GB	各~936 GB/s	1200W+	中程度（中古）	◎ (余裕あり)
RTX 4090 (Single)	24 GB	~1,008 GB/s	850W+	高い	× (重みだけで溢れる)

実装における落とし穴：KV Cacheの肥大化とメモリ・オフローディング

LLMを実際に稼働させる際、多くのユーザーが「モデルの重みがVRAMに収まっているから大丈夫だ」という誤解から、実行時にクラッシュや極端な速度低下に遭遇する。この原因の多くは、推論プロセス中に動的に生成される「KV Cache（Key-Value Cache）」の計算漏れにある。

KV Cacheとは、Transformerモデルが過去のトークン情報を保持するために使用するメモリ領域である。これはコンテキスト長（入力トークン数＋生成トークン数）に比例して線形に増大する。例えば、Llama-3 70BをQ4_K_Mで動かしている際、重みだけで約40GBを使用しているとしても、コンテキスト長を32kから128kへと拡張した瞬間、KV Cacheの容量は数GB単位で膨れ上がり、VRAMの限界（例：RTX 5090の32GB）を超過させる。

この境界線を超えると、llama.cppなどのバックエンドエンジンは「GPU Offloading」を開始する。これは、入り切らないモデルのレイヤーをシステムメモリ（DDR5 RAM）へ退避させる仕組みである。しかし、ここには致命的なパフォーマンス低下が伴う。GPU内のGDDR7/GDDR6Xの帯域幅（数百〜千GB/s）に対し、CPU側のDDR5-6400（数十GB/s）は極めて低速であるため、一部のレイヤーがメインメモリに存在するだけで、推論速度は1/10以下（例：10 tokens/s $\rightarrow$ 1 token/s）にまで墜落する。

また、Ollamaなどの抽象化されたツールを使用する場合、バックグラウンドでのリソース管理により、ユーザーが意図しないタイミングでメモリ不足が発生することがある。実装上の対策としては、以下のチェックリストを推奨する。

コンテキスト長の事前計算: 使用予定の最大トークン数におけるKV Cache容量を算出しておくこと。
Flash Attentionの有効化: llama.cpp等の設定でflash_attn=trueを適用し、メモリ使用効率を最適化すること。
レイヤー分割の監視: nvidia-smiを用いて、各GPUのVRAM使用率が物理限界（90%程度）に達していないか確認すること。
スワップ発生の回避: システムメモリへの退避が発生した場合、即座に量子化ビット数を下げるか、コンテキスト長を短縮する設計変更を行うこと。

パフォーマンス・コスト・運用の最適化戦略

ローカルLLM環境の構築における最終的な最適解は、単なる「スペックの追求」ではなく、「目的とするモデルサイズ」と「許容できる予算・電力」の交差点を見つけることにある。運用フェーズでは、計算リソースの投資対効果（ROI）を最大化するための戦略的判断が求められる。

まず、最もコスト効率が高いのは「中古RTX 3090を用いたマルチGPU構成」である。これは前述の通り、48GB以上のVRAMを比較的安価に構築できるため、70B級モデルの運用において唯一の現実的な解となる。ただし、この構成には「電源ユニット（PSU）の増強」と「熱設計」という追加コストが伴う。RTX 3090はピーク時に350W〜400Wを消費し、2枚構成ではGPUだけで800W近い電力を要する。これにCPUやファン、冷却系の負荷を加えると、1200Wクラスの80PLUS PLATINUM認証を受けた電源ユニット（例：Corsair AX1600i）が必須となる。

次に、「RTX 5090単体構成」は、開発者や研究者にとっての「低遅延・高スループット」な環境として極めて価値が高い。モデルの重みを分割してGPU間を通信させるオーバーヘッドを排除できるため、小規模〜中規模モデル（8B〜30B）の高速な反復実験において、マルチGPU構成を圧倒する応答性能を実現する。

運用コストを最適化するための比較指標を以下に示す。

運用シナリオ	推奨ハードウェア	メリット	デメリット	推定総コスト (日本円)
スピード重視（実験型）	RTX 5090 単体構成	超高速、設定が容易、低レイテンシ	70Bモデルのコンテキストに限界	約45万〜55万円
規模重視（研究型）	RTX 3090 x2 構成	大容量VRAM、70B/120B対応可	高電力、熱問題、構築難易度高	約25万〜35万円
エントリー（学習型）	RTX 4060 Ti (16GB)	低消費電力、安価、導入容易	70Bは動作不可、速度は限定的	約7万〜9万円

結論として、ローカルLLMのGPU選びに「正解」はない。しかし、Q4_K_M精度の70Bモデルを「実用的なコンテキスト長（8k以上）」で動かしたいのであれば、RTX 5090による単体突破か、PCIe帯域のボトルネックを許容した上でのRTX 3090デュアル構成かという、明確な技術的トレードオフを選択することになる。予算が許す限りはVRAM容量を最優先し、その上で物理的な電力供給と冷却能力（Noctua製ファンによるケース内エアフローの確保等）を設計に組み込むことが、安定したAI推論環境を構築するための唯一の道である。

主要構成案とハードウェアスペックの徹底比較

ローカルLLM環境の構築において、最も議論が分かれるのは「最新のフラッグシップGPUを単体で運用するか」あるいは「中古の旧世代GPUを複数枚組み合わせてVRAM容量を稼ぐか」という点です。2026年現在、RTX 5090は32GBという大容量なGDDR7メモリを搭載しており、単体での推論能力は極めて高いものの、15万円〜20万円を超える高額な価格設定と、450Wを超える膨大なTGP（Total Graphics Power）が導入の障壁となります。

一方、中古市場で流通しているRTX 3090は、24GBのVRAMを搭載しており、2枚構成にすることで48GBという広大なメモリ空間を確保できます。Llama-3 70BクラスのモデルをGGUF形式のQ4_K_M量子化で動作させる場合、モデルウェイトとKVキャッシュを合わせて約40〜45GBのVRAMが必要となるため、単体GPUでは物理的に不可能な領域です。

以下の表では、検討対象となる主要なGPUスペックを整理しました。

次に、モデルのパラメータ数と量子化ビット数（Quantization）が、要求されるVRAM容量にどのような影響を与えるかを具体化します。llama.cppやOllamaを用いた推論では、GGUF形式の量子化レベルを選択することで、精度を維持しつつメモリ消費を抑えることが可能です。

70B級のモデルを快適に動かしたいユーザーにとって、重要なのは「速度（Tokens/s）」と「コスト」のトレードオフです。RTX 5090単体では、4bit量子化された70Bモデルはメモリ不足でロードすらできません。このため、予算が許す限りVRAM容量を優先した構成案を選択することになります。

マルチGPU構成を検討する際、見落としがちなのが電源容量と冷却性能です。特にRTX 3090を2枚使用する場合、ピーク時の消費電力はGPU単体で700Wを超え、CPUやその他のコンポープリメントを含めると1000Wクラスの電源ユニット（80PLUS PLATINUM推奨）が必須となります。また、隣接するカード間の排熱処理も極めて困難です。

最後に、マルチGPU構成における技術的なボトルネックについて触れておきます。現行のコンシューマ向けプラットフォームでは、NVLinkによる高速なGPU間通信が廃止（または制限）されているため、llama.cpp等のライブラリを通じたレイヤー分割推論は、PCIeバスの帯域幅に強く依存します。

このように、マルチGPU構成はVRAM容量という圧倒的なメリットをもたらす一方で、PCIeレーンの分割による帯域制限や、電源・冷却といった物理的制約が顕著に現れます。70Bモデルをターゲットにするならば、単なるGPU価格だけでなく、マザーボードのレーン数や電源ユニットのスペックを含めた「システム全体の設計」が、ローカルLLM構築の成否を分けることになります。

よくある質問

Q1. 中古のRTX 3090を導入する際のコストメリットは？

ローカルLLM環境において、中古のGeForce RTX 3090は極めて高いコストパフォーマンスを発揮します。新品のRTX 4070 Ti Super（VRAM 16GB）は約12万円前後ですが、中古の3090なら同価格帯で24GBという大容量VRAMを確保できます。Llama-3 70B級のモデルをQ4_K_M量子化で動作させる際、この8GBの差が「実行可能か否か」の境界線となるため、予算重視なら3090一択と言えます。

Q2. マルチGPU構成にする場合、電源ユニットは何W必要ですか？

RTX 3090を2枚搭載するデュアルGPU構成の場合、最低でも1200W、推奨は1500W以上の容量を持つ電源ユニットが必要です。RTX 3090単体でピーク時に350W〜400W程度の消費電力を記録することがあり、CPUやその他のパーツを含めるとシステム全体で800Wを容易に超えます。電圧の安定性を確保するためにも、80PLUS PLATINUM認証を受けた高品質な電源を選択することを強く推奨します意。

Q3. RTX 5090とRTX 3090、どちらを選ぶべきですか？

予算が許すのであれば、次世代フラッグシップのRTX 5090を強く推奨します。RTX 5090はVRAM容量が32GBへと増強されており、これにより従来の24GBでは厳しかった高精度な量子化（Q6_KやQ8_0）での70Bモデル推論が、より高速かつ安定して行えます。一方、とにかく安価に24GB以上の環境を作りたい場合は、中古の3090を複数枚用意する構成が最も経済的な選択肢となります。

Q4. 量子化ビット数を下げると、推論速度（tokens/s）は向上しますか？

はい、一般的に量子化ビット数を下げるほど、メモリ帯域への負荷が軽減されるため、トークン生成速度（tokens/s）は向上します。例えば、Llama-3 70BをQ8_0で動かす場合と、より圧縮率の高いQ4_K_Mで動かす場合では、後者の方が明らかに高速なレスポンスが得られます。ただし、ビット数を下げすぎるとモデルの知能（Perplexity）が低下するため、用途に応じた適切なバランスを見極めることが重要です。

Q5. 新しいGPUでもNVLinkによるGPU間接続は利用できますか?

残念ながら、RTX 40シリーズ以降のAmpere世代後半からBlackwell世代（RTX 50シリーズ）にかけて、コンシューマ向けGPUでのNVLinkサポートは事実上廃止されています。しかし、llama.cppやOllamaを用いた推論においては、NVLinkがなくてもPCIeバスを介したレイヤー分割（Layer Offlagging）によってマルチGPU構成での動作が可能です。物理的な接続規格に依存せず、メモリ容量の合算が可能である点が現在のローカルLLM運用の強みです。

Q6. PCIeスロットの帯域（x8接続など）は推論速度に影響しますか？

モデル全体をVRAM内に収めている場合は、PCIeのスロット帯域による影響は軽微です。しかし、VRAM容量が不足し、メインメモリ（System RAM）へレイヤーをオフロード（一部転送）して動作させる「CPU/GPUハイブリッド推論」を行う場合、PCIeの通信速度がボトルネックとなり、tokens/sが劇的に低下します。そのため、マルチGPU構成を組む際は、可能な限りx16またはx8接続が確保できるマザーボードとレーン分割の設計が必要です。

Q7. 推論中に「Out of Memory (OOM)」エラーが発生した際の対策は？

OOMエラーが発生した場合は、まず量子化ビット数を一段階下げたモデル（例：Q5_K_MからQ4_K_Mへ）を試してください。それでも解決しない場合は、llama.cppの設定で「GPUに割り当てるレイヤー数（n_gpu_layers）」を減らし、溢れた分をCPU側のメインメモリで処理するように調整します。根本的な解決には、VRAM容量の大きいRTX 5090（32GB）への換装や、GPUの増設による総VRAM量の増加が最も効果的です。

Q8. 2枚のGPUを使用する場合、排熱（サーマルスロットリング）はどう対策すべきですか?

2枚のGPUを密着させて設置すると、上のカードの吸気口が塞がれ、温度が90度を超えてサーマルスロットリングが発生するリスクが高まります。対策としては、1枚をブロワーファンタイプのモデルにするか、スロット間に1〜2スロット分の隙間を空ける設計が必要です。また、ケース内のエアフローを強化するために、前面吸気と背面・天面排気を強力なファン（Noctua製など）で構成し、GPU周辺の熱溜まりを解消することが不可欠です。

Q9. 今後、NPU（AI専用エンジン）が普及すればGPUは不要になりますか？

現時点でのローカル[LLM](/glossary/llm)推論においては、依然としてGPUの「[メモリ帯域幅」が最重要指標であり、NPU単体では力不足です。Intel Core Ultraなどの内蔵NPUは低消費電力なタスクには向いていますが、数十GBに及ぶパラメータを高速にスキャンする能力は、RTX 5090のような高帯域なGPUには及びません。当面の間、大規模な言語モデルを実用的な速度で動かす主役は、VRAM容量の大きい高性能GPUであり続けるでしょう。

Q10. 将来的に、より大きなパラメータ（100B超）のモデルを動かすには？

100Bを超えるような巨大モデルをローカルで動かすには、単体GPUの限界を超えた「マルチGPU構成」が必須となります。具体的にはRTX 3090/4090/5090を3枚から4枚連結し、総VRAM容量を72GB〜128GB以上に引き上げる構成が現実的です。この際、PCIeレーン数の多いワークステーション級のマザーボード（Threadripper搭載機など）と、それに見合う大容量の電源ユニット、そして強力な冷却環境の構築が求められます。

まとめ

70Bクラスの大型モデルをローカル環境で実用レベルにするには、量子化（Q4_K_M等）を用いたVRAM容量の緻密な管理が不可欠です。
RTX 5090 (32GB) は単体での高い推論速度（tokens/s）とセットアップの簡便さが最大のメリットですが、導入コストは非常に高価です。
コスト効率を最優先するなら、中古のRTX 3090を2枚運用して合計48GBを確保する構成が、70B級モデルの動作において極めて強力な選択肢となります。
ただし、近年のGPUではNVLinkによる高速通信が制限されているため、マルチGPU構成時はPCIeレーン数と帯域幅（x8/x8動作など）が推論性能に直結します。
導入前には、llama.cppやOllamaなどのバックエンドを想定し、「パラメータ数 × 量子化ビット数」に基づく正確なVRAM使用量の計算を行ってください。

まずは自身の用途（速度重視か容量重視か）を明確にし、PCケースの物理的な空きスペースと電源容量を確認しましょう。その上で、ターゲットとするモデルの量子化サイズに基づいたGPU構成を検討してください。

FP16 (Original)	約2.0 GB	約140 GB	研究用・極めて高い精度
Q8_0 (8-bit)	約1.0 GB	約70 GB	高精度・大規模GPU構成向け
Q4_K_M (4.5-bit)	約0.56 GB	約39.2 GB	速度と精度のバランスが最適
Q2_K (2.6-bit)	約0.32 GB	約22.4 GB	低スペック環境用・精度低下大

NVIDIA RTX 5090	32GB GDDR7	512-bit	450W - 600W	単体での最高性能
NVIDIA RTX 4090	24GB GDDR6X	384-bit	450W	高い安定性と実績
NVIDIA RTX 3090 (新品)	24GB GDDR6X	384-bit	350W	入手困難・高価
NVIDIA RTX 3090 (中古)	24GB GDDR6X	384-bit	350W	コスパ最強の選択肢

8B クラス	Q8_0 (8-bit)	~9 GB	120+ t/s	単体 GPU (Entry)
30B クラス	Q4_K_M (4-bit)	~20 GB	40 - 50 t/s	単体 GPU (Mid)
70B クラス	Q4_K_M (4-bit)	~43 GB	15 - 20 t/s	2枚構成 (Multi)
120B クラス	Q3_K_L (3-bit)	~65 GB	5 - 8 t/s	3枚以上構成 (Pro)

高速チャット・実験	RTX 5090 ×1	300,000 -	超高速なレスポンス	大規模モデル不可
70Bモデル実用運用	RTX 3090 ×2	200,000 -	48GB確保で安定動作	消費電力と熱量大
大規模推論・研究	RTX 3090 ×3	300,000 -	72GBの広大な領域	電源ユニットの限界
低予算・入門用	RTX 4060 Ti (16GB)	70,000 -	安価で省電力	小規模モデル限定

Single 5090	600W	1000W+	低 (標準ケース)	中
Dual 3090	750W	1200W - 1600W	高 (ブロワー推奨)	極めて高い
Triple 3090	1050W	1600W+	極高 (オープンフレーム)	生命線
Dual 4090	900W	1600W+	中	高

Gen5 x16 (Single)	~64 GB/s	極めて低い	高 (標準的なマザーボード)	単体運用なら最強
Gen4 x8 / x8	~16 GB/s	中程度	中 (HEDT/Workstation系)	帯域不足による遅延あり
Gen3 x4 (via PEX)	~4 GB/s	極めて高い	低 (古いサーバー/レガシー)	推論速度が著しく低下
External eGPU	~32 GB/s (Thunderbolt)	高い	中 (ノートPC等)	レイテンシ増大の懸念

ローカルAI・LLMに最適なPCをbuilderで構成しよう

ローカルAI・LLMに最適なPCをbuilderで構成しよう

ローカルLLM推論におけるVRAM容量の決定論的計算式

この記事に関連するおすすめ商品

この記事を書いた人

自作.com編集部