ProxmoxでGPUパススルー — ローカルLLM仮想マシンをホームサーバーで動かす 2026

Q: 2026年以降を見据えて、ローカルLLMのハードウェア選定で重視すべき点は？

今後数年は「VRAM容量」と「メモリ帯域（HBM3/GDDR6X）」が最重要項目となります。モデルの巨大化に伴い、Llama-3系やそれ以降のモデルを動かすには24GB以上のVRAMが必須条件となりつつあります。そのため、将来を見据えるなら単一の高性能カードよりも、パススルーで安定動作する複数枚のGPU構成（例：RTX 3090×2など）を構築できるマザーボードと電源ユニット（1000W以上推奨）を選定することが賢明な投資となります。

GPUモデル	VRAM容量	演算性能（Tensorコア）	パススルー適性	特徴・備考
NVIDIA GeForce RTX 4090	24GB	極めて高い	高い	ローカルLLMのデファクト。VRAM容量が大きく、70Bモデルの量子化動作に最適。
NVIDIA GeForce RTX 3090	24GB	高い	高い	中古市場で安価に入手可能。RTX 40シリーズと同様のパススルー挙動を示す。
NVIDIA RTX 6000 Ada	48GB	極めて高い	高い	プロフェッショナル向け。多量のリソースを必要とする大規模モデル運用に。
NVIDIA RTX 4070 Ti Super	16GB	高い	高い	メモリ制約のある中規模LLMや、画像生成（Stable Diffusion）の同時実行向き。

システム構成	推奨GPU	総VRAM	推定動作モデル例	運用メリット
シングル・ハイエンド	RTX 4090 ×1	24GB	Llama-3 70B (IQ4_XS)	単一VMでの高速推論。セットアップが容易で管理コストが低い。
デュアル・ミドルレンジ	RTX 4060 Ti (16GB) ×2	32GB	Mixtral 8x7B, Command R+	複数モデルの同時展開や、より大きなコンテキストウィンドウの確保。
マルチGPU（プロ用）	RTX 6000 Ada ×2	96GB	Llama-3 405B (高度な量子化)	極めて巨大なモデルを動かすためのエンタープライズ級環境。

GPUモデル	VRAM容量	演算性能（Tensorコア）	パススルー適性	特徴・備考
NVIDIA GeForce RTX 4090	24GB	極めて高い	高い	ローカルLLMのデファクト。VRAM容量が大きく、70Bモデルの量子化動作に最適。
NVIDIA GeForce RTX 3090	24GB	高い	高い	中古市場で安価に入手可能。RTX 40シリーズと同様のパススルー挙動を示す。
NVIDIA RTX 6000 Ada	48GB	極めて高い	高い	プロフェッショナル向け。多量のリソースを必要とする大規模モデル運用に。
NVIDIA RTX 4070 Ti Super	16GB	高い	高い	メモリ制約のある中規模LLMや、画像生成（Stable Diffusion）の同時実行向き。

システム構成	推奨GPU	総VRAM	推定動作モデル例	運用メリット
シングル・ハイエンド	RTX 4090 ×1	24GB	Llama-3 70B (IQ4_XS)	単一VMでの高速推論。セットアップが容易で管理コストが低い。
デュアル・ミドルレンジ	RTX 4060 Ti (16GB) ×2	32GB	Mixtral 8x7B, Command R+	複数モデルの同時展開や、より大きなコンテキストウィンドウの確保。
マルチGPU（プロ用）	RTX 6000 Ada ×2	96GB	Llama-3 405B (高度な量子化)	極めて巨大なモデルを動かすためのエンタープライズ級環境。

実装における落とし穴：Error 43回避とVFIOの罠

ProxmoxでのGPUパススルーにおいて最も高い障壁となるのが、NVIDIAドライバによる「Error 43」の検知です。これは、ドライバーが仮想環境を検知した際に動作を停止する保護機能ですが、近年のコンシューマー向けドライバでは緩和されているものの、依然として特定の構成や古いカーネルでは問題となります。これを回避するためには、vendor-resetモジュールの導入や、Proxmoxのブートパラメータへの適切な設定が不可欠です。

具体的な実装手順における重要なポイントは以下の通りです：

IOMMUグループの分離: /sys/kernel/iom40/devices を確認し、GPUが単独のグループに属しているか確認します。混在している場合は pcie_acs_override=1 をカーネルパラメータに追加します。
VFIOへのバインド: /etc/modprobe.d/vfio.conf にGPUのPCI ID（例: 10de:2484）を記述し、ホストがデバイスを奪取するのを防ぎます。
ROMファイルの抽出: 一部のGPUでは、初期化時に「VBIOS」を正しく読み込むために、物理的なマザーボードのBIOSではなく、エミュレートされたROMファイルが必要になる場合があります。特に複数のGPUを同じPC内に搭載する場合、同一のIDを持つカードに個別のROMを認識させるための処理が必要です。

また、Proxmox特有の注意点として、「C-State」によるシステムのハングアップがあります。特にAMD Ryzen環境において、アイドル状態から高負荷なLLM推論へ移行する際にシステムがフリーズする現象です。これを防ぐために、BIOSでGlobal C-state Controlを無効にするか、カーネルパラメータに processor.max_cstate=1 を付加することが推奨されます。

さらに、GPUの「再起動（Reset）」に関する問題も重要です。ProxmoxでVMを再起動した際に、GPUが正常にリセットされず、次回の起動時にデバイスが見つからなくなる現象です。これを解決するために vendor-reset カーネルモジュールを導入し、PCIeバス上のデバイスを強制的にリセットする仕組みを構築する必要があります。

パフォーマンス比較と運用コストの最適化（Docker vs VM）

Proxmox環境でLLMを動かす際、最終的な実行環境として「GPUパススルーを用いたVM」か、「ホスト上で直接動作するDockerコンテナ」かの選択肢があります。この選択は、運用の柔軟性とリソースの効率性のトレードオフによって決まります。

1. GPUパススルー（VM）のメリットとデメリット

メリット: 完全に隔離された環境で動作するため、ホストOSのカーネルやドライバの競合を無視できます。また、複数の異なるOS（Ubuntu, Debian等）で実験を行うことが容易です。
デメリット: ホストからGPUを奪うため、Proxmox上で動かす他のサービス（例：PVE上の別のVMでのGPU処理）と共有できません。また、PCIeパススルーのオーバーヘッドにより、極めて微量ながらレイテンシが発生する可能性があります。

2. Docker (Host) のメリットとデメリット

メリット: ホスト側でNVIDIA Container Toolkitを使用することで、単一の物理GPUを複数のコンテナ間で動的に共有（MIGやTime-slicing）することが可能です。
デメリット: ホストOSに直接ドライバをインストールするため、Proxmoxシステムの安定性に影響を与えるリスクがあります。また、VMのような完全な隔離がないため、カーネルレベルでの競合が発生する可能性があります。

以下は、運用形態によるリソース管理とスケーラビリティの比較です。

比較項目	GPUパススルー (VM)	Docker (Host / Container)
GPU共有	不可（1対1の割り当て）	可能（nvidia-dockerによる共有）
隔離性	高い（完全な仮想化）	低い（カーネル共有）
設定難易度	高い（IOMMU, VFIOの設定が必要）	低い（ドライバとtoolkitの導入のみ）
マルチテナンシー	物理的に分けるなら可能	コンテナ間で動的にシェア可能
推奨ケース	特定のOS環境を固定したい場合、安定性を最優先する場合	1枚のGPUで複数のLLMや画像生成モデルを同時実行する場合

結論として、2026年現在の技術スタックでは、**「1台の強力なGPU（RTX 4090等）を特定のVMにパススルーし、そこからAPIサーバー（OpenAI互換など）を立てる」**構成が、ホームサーバーにおけるローカルLLM運用として最も安定した選択肢となります。これにより、Proxmoxの管理利便性を保ちつつ、推論エンジンに特化した環境を構築することが可能です。

FAQ

Q1: ProxmoxでGPUパススルーを行った後、WebUI（例: Text-Generation-WebUI）からアクセスできないのはなぜですか？ A1: 多くの場合、VM内のネットワーク設定がブリッジモードになっていないか、あるいはホスト側のファイアウォール（iptables/nftables）がポートをブロックしていることが原因です。また、モデルのロードに時間がかかり、サーバーが応答していない可能性も高いため、まずはVM内で nvidia-smi コマンドが正常に動作し、GPUメモリが消費されているかを確認してください。

Q2: 複数のGPUがある場合、Proxmix上でどのように使い分けるのが効率的ですか？ A2: 推奨は「役割の分離」です。例えば、1枚をビデオエンコードやメディアサーバー用（Plex等）に固定し、もう1枚をLLM専用のVMにパススルーします。これにより、GPUの競合を防ぎながら、それぞれの用途に最適なドライバ設定とリソース配分を行うことができます。

Q3: パススルー後に「Error 43」が出た場合の即効性のある解決策は？ A3: まずはホスト（Proxmox）側で vfio-pci が正しく適用されているか確認してください。その後、VM内のゲストOSでNVIDIA公式の最新ドライバをインストールし、必要に応じて nvidia-kms の設定を確認します。それでも解決しない場合は、カーネルパラメータに pci=realloc を追加することで、PCIeバス上のリソース再割り当てが改善されることがあります。

ローカルLLM運用におけるGPU構成と環境の徹底比較

Proxmox上でローカルLLMを動かす際、最も重要な意思決定は「どのGPUを採用し、どのような仮想化レイヤーで実行するか」です。2026年現在の技術動向を踏まえ、ハードウェア選定からソフトウェアスタックの選択まで、実用的な判断基準を5つの比較表で詳述します。

まず検討すべきは、LLM推論における計算コアとVRAM容量のバランスです。特にNVIDIAのRTXシリーズはCUDAコアの最適化が進んでおり、多くのオープンソースLLM（Llama 3, Mistral系）においてデファクトスタンダードとなっています。

1. 主要GPUモデルのスペック・価格比較（2026年最新動向）

ローカルLLMを動かす上で最も重要なのはVRAM容量です。70Bクラスのモデルを量子化（4-bit等）して動作させるには、最低でも48GB以上のVRAM、あるいは複数枚のGPUを統合する構成が求められます。

モデル名	VRAM容量	推定価格(円)	演算性能(TFLOPS/FP16)	主な用途・判断基準
RTX 4090	24GB	350,000	83.1	個人向け最高峰。高速推論の標準機
RTX 3090 (中古)	24GB	120,000	70.1	コスパ重視の入門・中級者向け
RTX 5090	32GB	450,000	120+	次世代フラグシップ。高解像度生成も対応
RTX 4060 Ti (16GB)	16GB	100,000	30.0	低予算で16GB確保したい場合の選択肢
RTX A6000 (Ada)	48GB	1,200,000	100+	プロフェッショナル向け。多枚数構成の安定性

2. 推論モデルサイズと必要VRAMの相関表

LLMを動かす際の「快適な推論」を実現するための、パラメータ数と必要なメモリ容量の目安です。Proxmoxでパススルーを行う際、この容量を確保できるGPUを選択する必要があります。

モデル規模	量子化ビット数	推奨VRAM(単体)	複数枚構成例	推奨GPU構成
7B / 8B	4-bit (GGUF/EXL2)	10GB - 12GB	なし	RTX 3060(12GB)以上
13B / 14B	4-bit	16GB - 20GB	なし	RTX 4070 Ti Super等
30B / 35B	4-bit	24GB - 30GB	なし	RTX 3090 / 4090
70B / 80B	4-bit	40GB - 48GB	2枚 (x24GB)	RTX 3090×2 / 4090×2
100B+	4-bit	64GB+	3〜4枚	RTX A6000等、マルチGPU構成

3. GPUパススルー vs Dockerコンテナの運用比較

Proxmox環境において、LLMを動かすための「実行レイヤー」の選択肢です。結論として、完全なハードウェア制御と独立性を求めるならVM+Passthrough、リソース共有と柔軟性を求めるならDocker（Hostモード）となります。

比較項目	VM + GPU Passthrough	Docker (Proxmox上)	備考
ハードウェア分離	完全分離（PCIeレベル）	共有（コンテナ単位）	パススルーはVM専用の特権
ドライバ管理	ホストとゲストで独立	ホストとコンテナで共有	Dockerはホストドライバに依存
リソースオーバーヘッド	中（仮想化によるもの）	低（カーネル共有）	VMはメモリを固定確保する傾向
マルチGPUの扱い	1枚ずつ個別に割り当て	NVLink等の高度な制御が困難	パススルーは物理的な分離に強い
運用の容易性	設定難易度高（IOMMU等）	中（nvidia-container-toolkit）	Dockerは構築後の拡張性が高い

4. GPUベンダー別・仮想化対応マトリクス

Proxmox環境でGPUをパススルーする際の、ハードウェア固有の制約と互換性です。NVIDIA以外の選択肢も検討されることがありますが、LLMエコシステムの充実度からNVIDIAが推奨されます。

ベンダー	主要製品群	パススルー難易度	ソフトウェアスタック	推奨度(LLM用途)
NVIDIA	RTX, Quadro, Aシリーズ	低（標準的）	CUDA, cuDNN (最高)	★★★★★
AMD	Radeon RX 7000系	高（ROCm対応が必要）	ROCm (Linuxメイン)	★★★☆☆
Intel	Arc GPU	中（iGPUは特殊）	OneAPI / SYCL	★★☆☆☆
FPGA/ASIC	Tenstorrent等	極めて高い	特定のフレームワーク専用	★☆☆☆☆
特殊チップ	Trainium等	非常に高い	クラウド専用に近い	★☆☆☆☆

5. 実装構成における「安定性」と「拡張性」のトレードオフ

ホームサーバーを構築する際に直面する、ハードウェア構成とソフトウェア設計のバランスに関する比較です。

構成パターン	採用GPU例	推奨用途	メリット	デメリット
シングル・高出力	RTX 4090 ×1	個人向け、高速推論重視	設定が単純。電力効率が良い	VRAM制限により大型モデル不可
マルチ・中性能	RTX 3090 ×2	研究用、大規模モデル(70B)	複数枚のパススルーで広大なVRAM	電源容量(1000W+)と熱対策が必要
ワークステーション型	RTX A6000 ×2	プロフェッショナル、安定性重視	ECCメモリ対応、高信頼性	初期投資コストが非常に高い
ハイブリッド構成	4090 + 3090	コストと性能の折衷	異なる世代を混在させVRAM確保	ドライバ競合や電力管理に注意
統合型(iGPU/APU)	Ryzen 8000G系等	低コスト、実験用	追加カード不要。省電力	LLM推論には性能・メモリ不足

これらの比較から明らかなように、「70B以上のモデルを快適に動かしたいならRTX 3090/4090の2枚構成（またはA6000）」、**「まずは手軽に高品質な回答を得たいならRTX 4090単体」**という選択が、Proxmox環境におけるLLM構築の黄金律となります。特にマルチGPU構成を選択する場合は、ProxmoxのIOMMUグループを正確に分離し、各パススルー用VMに対して個別のPCIeデバイスとして認識させる手順が不可欠です。

よくある質問

Q1. ProxmoxでローカルLLMを動かす際、GPUのコストパフォーマンスが良いモデルは？

推論性能とVRAM容量のバランスから、NVIDIA GeForce RTX 4090（24GB）やRTX 3090が依然として主流です。特にマルチGPU構成を検討する場合、メモリ帯域を確保できるRTX 4060 Ti 16GBモデルも安価なエントリー構成として選ばれています。予算に合わせてVRAM容量を最優先に選択することが、LLMの量子化パラメータ（4-bit/8-bit）を維持するための鍵となります。

Q2. GPUパススルーを行う際、中古のRTX 30シリーズは問題ない？

中古のRTX 3090や3090 Tiは、高いVRAM容量からローカルLLM運用において非常に人気がありますが、VFIOでの認識に注意が必要です。特定の個体で「Error 43」が発生する場合でも、vendor-resetカーネルモジュールの導入により安定動作が可能です。中古品を購入する際は、初期不良やハードウェア的な故障だけでなく、PCIeスロットのレーン数（x16推奨）を確保できるマザーボードとの組み合わせを確認してください。

Q3. Proxmox上のVMで動かす場合と、Docker上で直接動かす場合の違いは？

最大の差異は「リソースの隔離」と「管理の柔軟性」にあります。Docker環境ではホストOSとGPUを共有するためオーバーヘッドが少ない一方、Proxmox VM（KVM）上であれば完全に独立したOS環境でLLMを実行でき、バックアップやスナップショットの活用が容易です。運用負荷を下げるならDockerですが、実験的な構成や複数の異なるモデル環境を分離したい場合はVM経由のパススルーが推奨されます。

Q4. 複数のGPUを1台のProxmoxサーバーで別々のVMに割り振れる？

IOMMUグループが適切に分離されていれば、複数枚のGPUを個別の仮想マシン（VM）へ割り当てることが可能です。例えば、RTX 4090を2枚搭載し、1枚目はLLM専用のU[bun](/glossary/bun-runtime)tu VM、もうひとつはメディアサーバーや画像生成用のVMといった使い分けが可能です。ただし、マザーボードやCPUのPCIeレーン数に制約があるため、リダイレクタ（PCIeスイッチ）の使用を検討する必要がある場合もあります。

Q5. AMDのGPU（RX 7000シリーズなど）もProxmoxでパススルーできる？

AMD製GPUもProxmox上でパススルー可能ですが、NVIDIAと比較するとドライバ周りの挙動やROCm環境の構築に特有の手順が必要です。特に[Radeon RX 7900 XT](/glossary/radeon-rx-7900-xt)X（24GB）などは高いVRAMを誇り、LLM用途で注目されていますが、仮想環境での安定性を重視するなら現時点ではNVIDIA製GPUの方がトラブルシューティングの情報量が圧倒的に多いため、推奨されることが多いです。

Q6. GPUパススルーに失敗した際、最も多い原因は何？

最も多い原因は「IOMMUグループの混在」と「ホストOSによるデバイスの掴み（Grab）」です。Proxmoxホスト自体がGPUを初期化してしまい、VMに渡せない状態になっていることが多いため、vfio-pci.idsへの登録や、GRUBでのpcie_acs_override=1の適用が必要です。また、最新のNVIDIAドライバ（550系以上など）における特定の挙動変更も原因となるため、カーネルとドライバの整合性を確認してください。

Q7. 安定動作のために必要な最小限のPCIeレーン数は？

ローカルLLMを快適に動作させるには、メインのGPUに対してx16またはx8以上の物理的な帯域確保が推奨されます。Proxmox環境ではCPU直結のPCIeスロットを使用することが望ましく、チップセット経由（DMI）のレーンは帯域不足や不安定化の原因となるため避けるべきです。特にマルチGPU構成を検討する場合、マザーボードの仕様書を確認し、合計で16レーン以上を確保できる構成を組むことが重要です。

Q8. 仮想マシン内でLLMを実行する際、CPUのコア数はどれくらい必要？

LLMの推論自体はGPU（CUDAコア）が主導するため、CPUコア数は極端に多くなくても動作しますが、トークンの前処理やデータロードのために最低でも4〜8コアを割り当てるのが一般的です。Proxmoxでリソースを最適化する場合、ホスト側で余剰な計算資源を確保しつつ、VMには必要な範囲（例：EPYCやThreadripper環境なら16コア以上）を割り振ることで、マルチタスク環境でも安定したレスポンスを維持できます。

Q9. 2026年以降を見据えて、ローカルLLMのハードウェア選定で重視すべき点は？

今後数年は「VRAM容量」と「メモリ帯域（HBM3/[[GDDR](/glossary/gddr6)6](/glossary/ddr6)X）」が最重要項目となります。モデルの巨大化に伴い、Llama-3系やそれ以降のモデルを動かすには24GB以上のVRAMが必須条件となりつつあります。そのため、将来を見据えるなら単一の高性能カードよりも、パススルーで安定動作する複数枚のGPU構成（例：RTX 3090×2など）を構築できるマザーボードと電源ユニット（1000W以上推奨）を選定することが賢明な投資となります。

Q10. GPUパススルーの設定変更後、Proxmoxを再起動せずに反映させる方法は？

基本的にはカーネルパラメータの変更やmodprobeの設定変更を行うため、ホストの再起動が必要になりますが、一部のモジュール再読み込みであれば可能です。しかし、GPUデバイスをホストから切り離しVMへアタッチするプロセスが含まれるため、安定性を担保するにはProxmoxホストの再起動（reboot）を実行するのが最も確実な手順です。設定変更後は必ず lspci -nnk コマンドで、対象のGPUが正しいvfio-pciドライバで動作しているか確認してください。

まとめ

Proxmox VE環境でローカルLLMを運用するためのGPUパススルーは、適切なIOMMUグループの分離とNVIDIAドライバの最適化を行うことで、実用的なパフォーマンスを引き出すことが可能です。2026年現在の技術スタックにおいて、円滑な運用を実現するための要点は以下の通りです。

ハードウェアの選定: 物理的な[PCIeスロットの分離とIOMMUグループの独立性が必須であり、特にマルチGPU構成では適切なマザーボード設計が重要となります。
カーネルパラメータの設定: /etc/default/grubへの intel_iommu=on や amd_iommu=on の記述、および vfio-pci へのデバイス割り当てを正確に行う必要があります。
Error 43の回避: NVIDIAドライバによる制限を回避するため、vendor-resetカーネルモジュールの導入や適切なROMファイルの適用が不可欠です。
リソースの最適化: LLM実行時にはVRAM容量（例：RTX 4090の24GBなど）が最優先されるため、VMへのメモリ割り当てを「Hugepages」等で最適化することが推奨されます。
運用形態の選択: Dockerによるコンテナ運用はリソース共有に優れますが、完全なハードウェア隔離と安定性を求めるならProxmox上のVM（KVM）での構築が有利です。
最新ドライバの維持: 2026年時点の最新[CUDA ToolkitおよびNVIDIAドライバを常に適用することで、最新の量子化モデルや推論エンジンとの互対応を確保します。

まずは現在のマザーボードとCPUの仕様を確認し、lspci -nnコマンドを用いてGPUがどのIOMMUグループに属しているかを特定することから始めてください。環境が整った段階で、Proxmoxのコンソールからパススルーの設定手順に従い、独自のローカルLLM環境を構築しましょう。

ローカルAI・LLMに最適なPCをbuilderで構成しよう

ローカルAI・LLMに最適なPCをbuilderで構成しよう

ProxmoxにおけるGPUパススルーの基礎概念とIOMMUの仕組み

ローカルLLM運用におけるハードウェア選定と最適化の判断軸

この記事を書いた人

自作.com編集部

関連記事

ZFSとBtrfsの違い｜家庭用NASのファイルシステム選び

RAIDレベルの違い｜家庭用NASでRAID 1/5/6/10どれを選ぶ

この記事に関連するおすすめパーツ

Intel CPU Core i5-8600K 3.6GHz 9Mキャッシュ 6コア/6スレッド LGA1151 BX80684I58600K 【BOX】【日本正規流通品】

Intel Core i5-12400F Alder Lake CPU LGA 1700 2.5 GHz 6-Core 65W 18MB Cache Desktop Processor

Amazon Basics 24 Inch Gaming Monitor, FHD 1080P, 165Hz, VESA Compatible, Adaptive sync, 1ms response