

PCパーツ・ガジェット専門
自作PCパーツやガジェットの最新情報を発信中。実測データに基づいた公平なランキングをお届けします。
よくお寄せいただく質問にお答えします
ローカルでのLoRA/QLoRA学習に必要なGPU・VRAM要件。データ準備から学習設定までを実例で解説する。
Llama 3.3 405B をローカルで動かすためのハードウェア構成と最適化
Llama/Qwen等の70B級LLMをローカルサーバーで動かすGPU/VRAM・ユニファイドメモリ・量子化構成を解説。
vLLM PagedAttention、Continuous Batching、KV Cache PC構成
Qwen 3.6 35B MoE モデルをローカルで動かす方法とベンチマーク
自宅LLM ollama運用2026。Llama 4 Scout/Qwen 3 32B/Gemma 3 27B・GPU メモリ最適化・APIサーバー化を解説。
CPU
ASUS ROG Astral GeForce RTX 5090 OC Edition クアッドファン グラフィックスカード 32GB GDDR7 3352 AIトップ 512ビット DLSS 4 AIコンテンツ作成 ローカルLLM推論 DP 2.1b x3 HDMI 2.1b x2 GPUホルダー付き
¥1,214,071GPU・グラフィックボード
GIGABYTE AORUS GeForce RTX 5090 ステルス ICE 32G グラフィックスカード 32GB 512ビット GDDR7 PCIe 5.0 WINDFORCE 冷却システム 万能VGAホルダー GV-N5090AORUSST ICE-32GDVideoカード。
¥863,108GPU・グラフィックボード
GIGABYTE NVIDIA Geforce RTX5070Ti 搭載 グラフィックボード GDDR7 16GB ギガバイト 【国内正規代理店品】 GV-N507TWF3OC-16GD
¥161,409マザーボード
GIGABYTE GeForce RTX 5070 AERO OC 12G グラフィックスカード、12GB 192ビットGDDR7、PCIe 5.0、WINDFORCE冷却システム、GV-N5070AERO OC-12GD ビデオカード。
¥123,155マザーボード
Gigabyte GeForce RTX 5070 Ti AERO OC 16G グラフィックスカード - 16GB GDDR7、256ビット、PCI-E 5.0、2588 MHzコアクロック、3 x DP 2.1a、HDMI 2.1b x 1、NVIDIA DLSS 4、GV-N507TAERO OC-16GD。
¥224,919マザーボード
INNO3D GeForce RTX 5070 TWIN X2 N50702-12D7-195064N (GO000132) 2.0スロット厚モデル 12GB GDDR7 2年保証 グラフィックスボード GPU ビデオカード DisplayPort HDMI
¥130,980この記事で紹介したGPU・グラフィックボードをAmazonで確認できます。Prime対象商品なら翌日届きます。
Q: さらに詳しい情報はどこで?
A: 自作.comコミュニティで質問してみましょう。
Llama-3 70Bクラスの巨大なパラメータを持つモデルを、オフライン環境のローカルPCで快適に動作させるには、GPUのVRAM(ビデオメモリ)容量が最大のボトルネックとなります。RTX 4090(24GB)では量子化なしでの実行は不可能であり、GGUF形式のQ4_K_Mといった量子]化手法を用いたとしても、推論速度を維持しながらモデルをメモリに収めるための緻密な計算が不可欠です。最新のRTX 5090(32GB)を選択肢に入れるか、あるいは中古のRTX 3090(24GB)を2枚搭載したマルチGPU構成で合計48GBを確保するか、コストとパフォーマンスのトレードオフは非常に複雑です。NVLinkによる高速なP2P通信が制限された現在のPCIe環境下において、スロット間の帯域幅が推論速度(tokens/s)に与える影響や、量子化ビット数とVRAM消費量の具体的な関係性を正しく理解しなければ、高額なハードウェア投資を無効にするリスクがあります。構成別のコスト効率と、推論性能を最大化するためのGPU選定基準を徹底検証します。

ローカルLLM(Large Language Model)を動作させる際、最も重要となるハードウェア指標は演算性能(TFLOPS)ではなく、ビデオメモリ(VRAM)の総容量とメモリ帯域幅である。LLMの推論プロセス、特に「生成(Decoding)」フェーズは、モデルの重みをメモリからプロセッサへ逐次読み出す作業がボトルryptとなる「Memory Bandwidth Bound」な特性を持つためである。
モデルが要求するVRAM容量を算出するには、パラメータ数、量子化ビット数、およびコンテキスト長(KV Cache)の3要素を考慮した計算式を用いる必要がある。基本となる計算式は以下の通りである。
$$ \text{Required VRAM (GB)} \approx \left( \frac{\text{Parameters} \times \text{Bits per weight}}{8} \right) + \text{KV Cache Overhead} + \text{System/Buffer Margin} $$
例えば、Llama-3 70BモデルをGGUF形式の「Q4_K_M(約4.9bit/param)」で運用する場合、重み自体には約43GB($70 \times 4.9 / 8$)の容量が必要となる。ここに、コンテキスト長(Context Window)に比例して増大するKV Cache(Key-Value Cache)の容量を加算しなければならない。128kトークンの長いコンテキストを扱う場合、FP16精度でのKV Cacheは数GBから十数GBに達することもあり、これがVRAM不足による「モデルの分割(Offloading)」や「速度低下」の主因となる。
量子化技術(Quantization)は、この容量問題を解決する極めて有効な手段である。4bit量子化(Q4_K_M等)を用いることで、FP16(16bit)と比較してメモリ使用量を約1/4に圧縮しつつ、Perplexity(言語モデルの精度指標)の低下を最小限に抑えることが可能だ。しかし、量子化ビット数を下げすぎると、推論の論理性や知識の保持能力が著しく損なわれるため、VRAM容量と精度のトレードオフを見極める判断力が求められる。
| 量子化形式 | 1Bあたりのメモリ(重みのみ) | 70Bモデル時の推定VRAM(重みのみ) | 特徴・用途 |
|---|---|---|---|
| FP16 (Original) | 約2.0 GB | 約140 GB | 研究用・極めて高い精度 |
| Q8_0 (8-bit) | 約1.0 GB | 約70 GB | 高精度・大規模GPU構成向け |
| Q4_K_M (4.5-bit) | 約0.56 GB | 約39.2 GB | 速度と精度のバランスが最適 |
| Q2_K (2.6-bit) | 約0.32 GB | 約22.4 GB | 低スペック環境用・精度低下大 |
2026年現在のローカルLLM環境において、ユーザーが直面する最大の選択は「最新のハイエンド単体GPU」か「旧世代の複数枚構成」かの二択である。この判断には、VRAM容量だけでなく、PCIe帯域とNVLink(またはその代替技術)の有無、そして電力供給能力が深く関わる。
NVIDIA GeForce RTX 5GB 5090は、32GBのGDDR7メモリを搭載しており、単体での推論能力において圧倒的な優位性を持つ。GDDR7の採用によりメモリ帯域幅は1,000 GB/sを超え、Llama-3 8Bクラスのモデルであれば150 tokens/sを超える超高速なレスポンスを実現する。また、単体で32GBを確保しているため、Q4_K_M精度の70Bモデルでもコンテキスト長をある程度確保した状態で動作可能である。
一方で、コスト効率を重視する場合、中古のGeForce RTX 3090(24GB)を2枚搭載するマルチGPU構成が有力な選択肢となる。RTX 3090×2枚構成では合計48GBのVRAMを確保でき、70Bモデルを余裕を持ってロードできる。しかし、ここには「PCIe帯域のボトルネック」という罠が存在する。最新のRTX 5090世代ではNVLink(GPU間高速通信)のコンシューマ向け利用が事実上制限されており、2枚のGPU間でレイヤーを分割して推論を行う場合、データ転送はPCIeバスを経由することになる。
もし、使用するマザーボード(例:ASUS ROG Maximus Z890 Extreme)のレーン分割がx16/x0ではなく、x8/x8やx8/x力x4といった構成になっている場合、GPU間の通信遅延が推論速度(tokens/s)を著しく低下させる。特にOllamaやllama.cppを用いて複数のGPUにモデルを分散配置する際、PCIe Gen 5 x8の帯域であっても、重みの転送待ちによる「隙間時間」が生じ、単体GPUでの実行よりもスループットが低下するケースがある。
| GPU構成 | 合計VRAM | メモリ帯域(推定) | 推奨電源容量 | コスト感 | 70B(Q4)の動作可否 |
|---|---|---|---|---|---|
| RTX 5090 (Single) | 32 GB | ~1,200 GB/s | 1000W+ | 極めて高い | △ (コンテキスト制限あり) |
| RTX 3090 x2 | 48 GB | 各~936 GB/s | 1200W+ | 中程度(中古) | ◎ (余裕あり) |
| RTX 4090 (Single) | 24 GB | ~1,008 GB/s | 850W+ | 高い | × (重みだけで溢れる) |
LLMを実際に稼働させる際、多くのユーザーが「モデルの重みがVRAMに収まっているから大丈夫だ」という誤解から、実行時にクラッシュや極端な速度低下に遭遇する。この原因の多くは、推論プロセス中に動的に生成される「KV Cache(Key-Value Cache)」の計算漏れにある。
KV Cacheとは、Transformerモデルが過去のトークン情報を保持するために使用するメモリ領域である。これはコンテキスト長(入力トークン数+生成トークン数)に比例して線形に増大する。例えば、Llama-3 70BをQ4_K_Mで動かしている際、重みだけで約40GBを使用しているとしても、コンテキスト長を32kから128kへと拡張した瞬間、KV Cacheの容量は数GB単位で膨れ上がり、VRAMの限界(例:RTX 5090の32GB)を超過させる。
この境界線を超えると、llama.cppなどのバックエンドエンジンは「GPU Offloading」を開始する。これは、入り切らないモデルのレイヤーをシステムメモリ(DDR5 RAM)へ退避させる仕組みである。しかし、ここには致命的なパフォーマンス低下が伴う。GPU内のGDDR7/GDDR6Xの帯域幅(数百〜千GB/s)に対し、CPU側のDDR5-6400(数十GB/s)は極めて低速であるため、一部のレイヤーがメインメモリに存在するだけで、推論速度は1/10以下(例:10 tokens/s $\rightarrow$ 1 token/s)にまで墜落する。
また、Ollamaなどの抽象化されたツールを使用する場合、バックグラウンドでのリソース管理により、ユーザーが意図しないタイミングでメモリ不足が発生することがある。実装上の対策としては、以下のチェックリストを推奨する。
flash_attn=trueを適用し、メモリ使用効率を最適化すること。nvidia-smiを用いて、各GPUのVRAM使用率が物理限界(90%程度)に達していないか確認すること。ローカルLLM環境の構築における最終的な最適解は、単なる「スペックの追求」ではなく、「目的とするモデルサイズ」と「許容できる予算・電力」の交差点を見つけることにある。運用フェーズでは、計算リソースの投資対効果(ROI)を最大化するための戦略的判断が求められる。
まず、最もコスト効率が高いのは「中古RTX 3090を用いたマルチGPU構成」である。これは前述の通り、48GB以上のVRAMを比較的安価に構築できるため、70B級モデルの運用において唯一の現実的な解となる。ただし、この構成には「電源ユニット(PSU)の増強」と「熱設計」という追加コストが伴う。RTX 3090はピーク時に350W〜400Wを消費し、2枚構成ではGPUだけで800W近い電力を要する。これにCPUやファン、冷却系の負荷を加えると、1200Wクラスの80PLUS PLATINUM認証を受けた電源ユニット(例:Corsair AX1600i)が必須となる。
次に、「RTX 5090単体構成」は、開発者や研究者にとっての「低遅延・高スループット」な環境として極めて価値が高い。モデルの重みを分割してGPU間を通信させるオーバーヘッドを排除できるため、小規模〜中規模モデル(8B〜30B)の高速な反復実験において、マルチGPU構成を圧倒する応答性能を実現する。
運用コストを最適化するための比較指標を以下に示す。
| 運用シナリオ | 推奨ハードウェア | メリット | デメリット | 推定総コスト (日本円) |
|---|---|---|---|---|
| スピード重視(実験型) | RTX 5090 単体構成 | 超高速、設定が容易、低レイテンシ | 70Bモデルのコンテキストに限界 | 約45万〜55万円 |
| 規模重視(研究型) | RTX 3090 x2 構成 | 大容量VRAM、70B/120B対応可 | 高電力、熱問題、構築難易度高 | 約25万〜35万円 |
| エントリー(学習型) | RTX 4060 Ti (16GB) | 低消費電力、安価、導入容易 | 70Bは動作不可、速度は限定的 | 約7万〜9万円 |
結論として、ローカルLLMのGPU選びに「正解」はない。しかし、Q4_K_M精度の70Bモデルを「実用的なコンテキスト長(8k以上)」で動かしたいのであれば、RTX 5090による単体突破か、PCIe帯域のボトルネックを許容した上でのRTX 3090デュアル構成かという、明確な技術的トレードオフを選択することになる。予算が許す限りはVRAM容量を最優先し、その上で物理的な電力供給と冷却能力(Noctua製ファンによるケース内エアフローの確保等)を設計に組み込むことが、安定したAI推論環境を構築するための唯一の道である。
ローカルLLM環境の構築において、最も議論が分かれるのは「最新のフラッグシップGPUを単体で運用するか」あるいは「中古の旧世代GPUを複数枚組み合わせてVRAM容量を稼ぐか」という点です。2026年現在、RTX 5090は32GBという大容量なGDDR7メモリを搭載しており、単体での推論能力は極めて高いものの、15万円〜20万円を超える高額な価格設定と、450Wを超える膨大なTGP(Total Graphics Power)が導入の障壁となります。
一方、中古市場で流通しているRTX 3090は、24GBのVRAMを搭載しており、2枚構成にすることで48GBという広大なメモリ空間を確保できます。Llama-3 70BクラスのモデルをGGUF形式のQ4_K_M量子化で動作させる場合、モデルウェイトとKVキャッシュを合わせて約40〜45GBのVRAMが必要となるため、単体GPUでは物理的に不可能な領域です。
以下の表では、検討対象となる主要なGPUスペックを整理しました。
| GPUモデル | VRAM容量 | メモリバス幅/規格 | 推定TGP (W) | 備考 |
|---|---|---|---|---|
| NVIDIA RTX 5090 | 32GB GDDR7 | 512-bit | 450W - 600W | 単体での最高性能 |
| NVIDIA RTX 4090 | 24GB GDDR6X | 384-bit | 450W | 高い安定性と実績 |
| NVIDIA RTX 3090 (新品) | 24GB GDDR6X | 384-bit | 350W | 入手困難・高価 |
| NVIDIA RTX 3090 (中古) | 24GB GDDR6X | 384-bit | 350W | コスパ最強の選択肢 |
次に、モデルのパラメータ数と量子化ビット数(Quantization)が、要求されるVRAM容量にどのような影響を与えるかを具体化します。llama.cppやOllamaを用いた推論では、GGUF形式の量子化レベルを選択することで、精度を維持しつつメモリ消費を抑えることが可能です。
| モデル規模 (Parameter) | 量子化形式 (Quantization) | 必要VRAM量 (推定) | 5090での推論速度 (tokens/s) | 推奨構成 |
|---|---|---|---|---|
| 8B クラス | Q8_0 (8-bit) | ~9 GB | 120+ t/s | 単体 GPU (Entry) |
| 30B クラス | Q4_K_M (4-bit) | ~20 GB | 40 - 50 t/s | 単体 GPU (Mid) |
| 70B クラス | Q4_K_M (4-bit) | ~43 GB | 15 - 20 t/s | 2枚構成 (Multi) |
| 120B クラス | Q3_K_L (3-bit) | ~65 GB | 5 - 8 t/s | 3枚以上構成 (Pro) |
70B級のモデルを快適に動かしたいユーザーにとって、重要なのは「速度(Tokens/s)」と「コスト」のトレードオフです。RTX 5090単体では、4bit量子化された70Bモデルはメモリ不足でロードすらできません。このため、予算が許す限りVRAM容量を優先した構成案を選択することになります。
| 利用目的 | 推奨GPU構成 | 推定導入コスト (円) | メリット | デメリット |
|---|---|---|---|---|
| 高速チャット・実験 | RTX 5090 ×1 | 300,000 - | 超高速なレスポンス | 大規模モデル不可 |
| 70Bモデル実用運用 | RTX 3090 ×2 | 200,000 - | 48GB確保で安定動作 | 消費電力と熱量大 |
| 大規模推論・研究 | RTX 3090 ×3 | 300,000 - | 72GBの広大な領域 | 電源ユニットの限界 |
| 低予算・入門用 | RTX 4060 Ti (16GB) | 70,000 - | 安価で省電力 | 小規模モデル限定 |
マルチGPU構成を検討する際、見落としがちなのが電源容量と冷却性能です。特にRTX 3090を2枚使用する場合、ピーク時の消費電力はGPU単体で700Wを超え、CPUやその他のコンポープリメントを含めると1000Wクラスの電源ユニット(80PLUS PLATINUM推奨)が必須となります。また、隣接するカード間の排熱処理も極めて困難です。
| 構成案 | 推定総消費電力 (W) | 必要電源容量 (W) | 冷却難易度 | 排熱対策の重要度 |
|---|---|---|---|---|
| Single 5090 | 600W | 1000W+ | 低 (標準ケース) | 中 |
| Dual 3090 | 750W | 1200W - 1600W | 高 (ブロワー推奨) | 極めて高い |
| Triple 3090 | 1050W | 1600W+ | 極高 (オープンフレーム) | 生命線 |
| Dual 4090 | 900W | 1600W+ | 中 | 高 |
最後に、マルチGPU構成における技術的なボトルネックについて触れておきます。現行のコンシューマ向けプラットフォームでは、NVLinkによる高速なGPU間通信が廃止(または制限)されているため、llama.cpp等のライブラリを通じたレイヤー分割推論は、PCIeバスの帯域幅に強く依存します。
| バス構成 (PCIe) | 実効帯域幅 (目安) | 推論速度への影響 | 構成の実現性 | 注意事項 |
|---|---|---|---|---|
| Gen5 x16 (Single) | ~64 GB/s | 極めて低い | 高 (標準的なマザーボード) | 単体運用なら最強 |
| Gen4 x8 / x8 | ~16 GB/s | 中程度 | 中 (HEDT/Workstation系) | 帯域不足による遅延あり |
| Gen3 x4 (via PEX) | ~4 GB/s | 極めて高い | 低 (古いサーバー/レガシー) | 推論速度が著しく低下 |
| External eGPU | ~32 GB/s (Thunderbolt) | 高い | 中 (ノートPC等) | レイテンシ増大の懸念 |
このように、マルチGPU構成はVRAM容量という圧倒的なメリットをもたらす一方で、PCIeレーンの分割による帯域制限や、電源・冷却といった物理的制約が顕著に現れます。70Bモデルをターゲットにするならば、単なるGPU価格だけでなく、マザーボードのレーン数や電源ユニットのスペックを含めた「システム全体の設計」が、ローカルLLM構築の成否を分けることになります。
ローカルLLM環境において、中古のGeForce RTX 3090は極めて高いコストパフォーマンスを発揮します。新品のRTX 4070 Ti Super(VRAM 16GB)は約12万円前後ですが、中古の3090なら同価格帯で24GBという大容量VRAMを確保できます。Llama-3 70B級のモデルをQ4_K_M量子化で動作させる際、この8GBの差が「実行可能か否か」の境界線となるため、予算重視なら3090一択と言えます。
RTX 3090を2枚搭載するデュアルGPU構成の場合、最低でも1200W、推奨は1500W以上の容量を持つ電源ユニットが必要です。RTX 3090単体でピーク時に350W〜400W程度の消費電力を記録することがあり、CPUやその他のパーツを含めるとシステム全体で800Wを容易に超えます。電圧の安定性を確保するためにも、80PLUS PLATINUM認証を受けた高品質な電源を選択することを強く推奨します意。
予算が許すのであれば、次世代フラッグシップのRTX 5090を強く推奨します。RTX 5090はVRAM容量が32GBへと増強されており、これにより従来の24GBでは厳しかった高精度な量子化(Q6_KやQ8_0)での70Bモデル推論が、より高速かつ安定して行えます。一方、とにかく安価に24GB以上の環境を作りたい場合は、中古の3090を複数枚用意する構成が最も経済的な選択肢となります。
はい、一般的に量子化ビット数を下げるほど、メモリ帯域への負荷が軽減されるため、トークン生成速度(tokens/s)は向上します。例えば、Llama-3 70BをQ8_0で動かす場合と、より圧縮率の高いQ4_K_Mで動かす場合では、後者の方が明らかに高速なレスポンスが得られます。ただし、ビット数を下げすぎるとモデルの知能(Perplexity)が低下するため、用途に応じた適切なバランスを見極めることが重要です。
残念ながら、RTX 40シリーズ以降のAmpere世代後半からBlackwell世代(RTX 50シリーズ)にかけて、コンシューマ向けGPUでのNVLinkサポートは事実上廃止されています。しかし、llama.cppやOllamaを用いた推論においては、NVLinkがなくてもPCIeバスを介したレイヤー分割(Layer Offlagging)によってマルチGPU構成での動作が可能です。物理的な接続規格に依存せず、メモリ容量の合算が可能である点が現在のローカルLLM運用の強みです。
モデル全体をVRAM内に収めている場合は、PCIeのスロット帯域による影響は軽微です。しかし、VRAM容量が不足し、メインメモリ(System RAM)へレイヤーをオフロード(一部転送)して動作させる「CPU/GPUハイブリッド推論」を行う場合、PCIeの通信速度がボトルネックとなり、tokens/sが劇的に低下します。そのため、マルチGPU構成を組む際は、可能な限りx16またはx8接続が確保できるマザーボードとレーン分割の設計が必要です。
OOMエラーが発生した場合は、まず量子化ビット数を一段階下げたモデル(例:Q5_K_MからQ4_K_Mへ)を試してください。それでも解決しない場合は、llama.cppの設定で「GPUに割り当てるレイヤー数(n_gpu_layers)」を減らし、溢れた分をCPU側のメインメモリで処理するように調整します。根本的な解決には、VRAM容量の大きいRTX 5090(32GB)への換装や、GPUの増設による総VRAM量の増加が最も効果的です。
2枚のGPUを密着させて設置すると、上のカードの吸気口が塞がれ、温度が90度を超えてサーマルスロットリングが発生するリスクが高まります。対策としては、1枚をブロワーファンタイプのモデルにするか、スロット間に1〜2スロット分の隙間を空ける設計が必要です。また、ケース内のエアフローを強化するために、前面吸気と背面・天面排気を強力なファン(Noctua製など)で構成し、GPU周辺の熱溜まりを解消することが不可欠です。
現時点でのローカル[LLM](/glossary/llm)推論においては、依然としてGPUの「[メモリ帯域幅」が最重要指標であり、NPU単体では力不足です。Intel Core Ultraなどの内蔵NPUは低消費電力なタスクには向いていますが、数十GBに及ぶパラメータを高速にスキャンする能力は、RTX 5090のような高帯域なGPUには及びません。当面の間、大規模な言語モデルを実用的な速度で動かす主役は、VRAM容量の大きい高性能GPUであり続けるでしょう。
100Bを超えるような巨大モデルをローカルで動かすには、単体GPUの限界を超えた「マルチGPU構成」が必須となります。具体的にはRTX 3090/4090/5090を3枚から4枚連結し、総VRAM容量を72GB〜128GB以上に引き上げる構成が現実的です。この際、PCIeレーン数の多いワークステーション級のマザーボード(Threadripper搭載機など)と、それに見合う大容量の電源ユニット、そして強力な冷却環境の構築が求められます。
まずは自身の用途(速度重視か容量重視か)を明確にし、PCケースの物理的な空きスペースと電源容量を確認しましょう。その上で、ターゲットとするモデルの量子化サイズに基づいたGPU構成を検討してください。
この記事に関連するAI/LLM向けGPUの人気商品をランキング形式でご紹介。価格・評価・レビュー数を比較して、最適な製品を見つけましょう。
AI/LLM向けGPUをAmazonでチェック。Prime会員なら送料無料&お急ぎ便対応!
※ 価格・在庫状況は変動する場合があります。最新情報はAmazonでご確認ください。
※ 当サイトはAmazonアソシエイト・プログラムの参加者です。