60万円デュアルGPU AI構成ガイド｜ローカルLLM＆学習環境

自作.com編集部

PCパーツ・ガジェット専門

自作PCパーツやガジェットの最新情報を発信中。実測データに基づいた公平なランキングをお届けします。

公開: 2026/4/15

更新: 2026/4/20

60万円デュアル GPU AI 構成ガイド｜ローカル LLM＆学習環境

現在、人工知能（AI）技術は産業のあらゆる分野で急速に浸透しており、個人レベルでも大規模言語モデル（LLM）をローカル環境で動かすことが可能な時代へと移行しています。特に、2025 年以降、オープンソースモデルの高性能化と推論コストの低下により、クラウド依存からローカル実行へのシフトが顕著となっています。しかし、高性能な LLM を動作させるためには、膨大な VRAM（ビデオメモリ）容量と高い帯域幅が必要であり、単一の GPU では限界があるのが現実です。そこで本記事では、60 万円の予算を投入し、ローカルでの大規模推論および機械学習モデルのトレーニングに対応できるデュアル GPU 構成のワークステーションを構築する具体的なガイドを提供します。

この構成は、AMD Ryzen 9 9950X（Zen 5 アーキテクチャ）と NVIDIA GeForce RTX 4090 を 2 枚搭載し、合計 48GB の VRAM を確保することを前提としています。ASUS ProArt X870E-CREATOR WIFI マザーボードを採用することで、PCIe 5.0 を活用した高速データ転送を可能にしつつ、デュアル GPU 間の帯域制限を最小限に抑えます。また、電源には 1600W の Titanium 認証電源や、Corsair 6500X という大型デュアルチャンバーケースを採用し、過渡電力への耐性と冷却性能を両立させます。

本記事では、単なるパーツの羅列にとどまらず、なぜその構成が AI 開発に適しているのかという技術的な根拠から、Ubuntu 環境での具体的な CUDA ライブラリ設定に至るまでを詳細に解説します。特に、vLLM や llama.cpp を使用した分散推論の設定や、PyTorch の DistributedDataParallel によるマルチ GPU 学習の実装方法についても言及します。2026 年 4 月時点での最新のハードウェア情報とソフトウェアのベストプラクティスを反映し、読者の方が実際に同様のマシンを構築・運用する際の指針となるよう努めます。

なぜ今、デュアル GPU の AI ワークステーションなのか

近年、大規模言語モデル（LLM）のローカル実行需要が急増しています。これは、データのプライバシー保護や、インターネット接続に依存しない低遅延な推論を実現するためです。例えば、Llama 3.1 や Qwen 2.5 といった最新のオープンソース LLM を高精度で動作させるには、少なくとも 48GB から 96GB の VRAM が必要となるケースが増えています。2026 年時点では、これらのモデルの量子化技術が進化し、より少ないメモリ容量でも高品質な推論が可能になっていますが、依然として 176B パラメータクラス以上のモデルや、長いコンテキストウィンドウ（256k トークン以上）を処理する用途においては、単一の RTX 4090 の 24GB では物理的な限界に直面します。

デュアル GPU 構成の最大の利点は、VRAM カプチャー効果による推論可能なモデルサイズの拡大です。NVIDIA 製のコンシューマー向け GPU（GeForce シリーズ）は、企業向けの高価な A100 や H100 と異なり、NVLink による高速な GPU 間通信が標準でサポートされていません。しかし、vLLM や Ollama のような最新の推論フレームワークでは、PCIe スロット経由での分散処理（Tensor Parallelism）を効率的に実装しており、2 枚の RTX 4090 を組み合わせることで、あたかも単一の巨大な VRAM グループとして機能させることが可能です。これにより、60 万円という予算枠の中で、数百万円するデータセンター向けの GPU サーバーに匹敵する推論能力をローカルで実現できます。

さらに、機械学習のトレーニング環境としての有用性も無視できません。PyTorch や TensorFlow を使用した深層学習モデルの学習において、バッチサイズ（Batch Size）を増やすことで収束速度や学習効率を向上させることができます。RTX 4090 を 2 枚使用すれば、理論上は単体時の倍以上の計算リソースとメモリ領域を利用可能となり、研究開発のサイクルタイムを大幅に短縮できます。特に、画像生成モデル（Stable Diffusion XL や FLUX.1 など）や、音声合成モデルのトレーニングでは、VRAM 容量がボトルネックとなることが多いため、本構成は 2026 年における個人レベルの AI 研究者にとって最適なバランスを示しています。

ランキングを読み込み中...

60 万円予算の全体像とパーツ選定の根拠

本稿で提案する 60 万円構成は、各パーツの価格変動を考慮し、2026 年初頭の相場を基準に設計されています。まずコアとなる GPU に NVIDIA GeForce RTX 4090 を 2 枚採用します。現在の単価は約 18 万〜20 万円程度で推移しており、2 枚で約 36 万〜40 万円を占めます。これは全体予算の半分近くになりますが、AI 性能の根幹となる部分です。VRAM に GDDR6X を採用し、帯域幅が 1TB/s（1,008 GB/s）に達しているため、データ転送の待ち時間を最小限に抑えられます。

CPU とマザーボードには、最新の AM5 プラットフォームを採用します。AMD Ryzen 9 9950X は、Zen 5 アーキテクチャに基づき、16 コア 32 スレッドを備えています。PCIe レーン制御やメモリアクセスの効率性において、Intel Core i9 シリーズと比較してマルチ GPU 構成での安定性に優れており、特に x8/x8 または x16/x16 の構成で PCIe バス帯域を十分に確保できます。ASUS ProArt X870E-CREATOR WIFI を採用することで、2 枚の RTX 4090 を物理的に収容しつつ、それぞれの GPU に十分な PCIe レーン（x16 または x16）を提供します。これにより、GPU 間の通信ボトルネックを回避し、vLLM などの分散処理がスムーズに動作します。

残りの予算でメモリとストレージを整えます。G.Skill Trident Z5 Neo DDR5-6000 メモリを 4 スロット満杯で使用し、128GB の容量と 320 GB/s（理論値）を超える帯域幅を実現します。AI 開発では CPU が GPU を待機しないようにするため、システムメモリも十分である必要があります。ストレージには Samsung 990 PRO 4TB NVMe SSD を採用し、読み書き速度が 7,000 MB/s に達する環境を構築します。これにより、学習データセットの高速読み込みが可能になります。ケースと電源は、Corsair 6500X と Seasonic PRIME TX-1600T を選定し、熱設計電力（TDP）が合計 800W を超える環境でも安定稼働できる余裕を持たせます。

パーツ名称	モデル名	概算価格 (円)	AI 性能への寄与度
グラフィックボード	NVIDIA RTX 4090 ×2	380,000	VRAM 容量、計算能力の根幹
CPU	AMD Ryzen 9 9950X	75,000	PCIe レーン制御、データ前処理
マザーボード	ASUS ProArt X870E-CREATOR WIFI	50,000	2x16 PCIe スロット、帯域確保
メモリ	G.Skill Trident Z5 Neo 32GB×4	90,000	バッチサイズ増大、データ転送効率
SSD	Samsung 990 PRO 4TB	70,000	データセット読み込み速度向上
ケース	Corsair 6500X	30,000	冷却性能と空気流の確保
PSU	Seasonic PRIME TX-1600T	40,000	過渡電力への耐性と安定供給
クーラー	Noctua NH-D15 G2	15,000	CPU 温度抑制によるオーバークロック耐性

この構成表において、GPU とメモリが予算の大半を占めていることがわかります。しかし、AI ワークロードにおいてはこれらのリソースへの投資が最も ROI（投資対効果）が高くなります。特に、2026 年時点ではモデルの複雑化が進んでいるため、低価格なパーツで妥協するよりも、高価なメモリや GPU を優先する戦略が推奨されます。また、マザーボード選びでは、PCIe スロットの物理的な配置と電気的な信号品質が重要であり、ProArt シリーズのようなワークステーション向けボードを選ぶことで、長時間の学習プロセスにおけるエラー率低減を図れます。

CPU とマザーボード：PCIe レーン構成の重要性

AI 開発ワークステーションにおいて、CPU とマザーボードの選び方は、GPU の性能を十分に引き出すために極めて重要です。AMD Ryzen 9 9950X は AM5 ソケット対応であり、CPU 内部に PCIe 5.0 コントローラーを内蔵しています。重要なのは、16 コア構成を持つこの CPU が、どのように GPU に PCI Express レーンを割り当てるかです。RTX 4090 を 2 枚挿す場合、x16/x8 の構成と x16/x16 の構成では通信帯域に大きな差が生じます。特に、Tensor Parallelism（テンソル並列化）を利用して 2 枚の GPU で 1 つのモデルを処理する際、GPU 間のデータ転送頻度が高いため、x8 以下のスロットではボトルネックとなり得ます。

ASUS ProArt X870E-CREATOR WIFI マザーボードは、この要件に対して最適な選択です。第 1 の PCIe スロット（CPU 直結）には x16 レーンが割り当てられ、第 2 のスロットにも CPU 直結で x16 レーンを提供します。これは、Intel の Z790 チップセット搭載マザーボードでは、第 2 スロットがチップセット経由となるため帯域制限を受けることがありますが、AMD X870E プラットフォームは両方とも CPU と直接通信が可能である点を強みとしています。さらに、PCIe 5.0 対応の SFF-8639 コネクターや USB4 を複数搭載しており、外部ストレージからの高速データ転送もスムーズに行えます。

マザーボード上の物理的な配置も重要です。RTX 4090 は非常に大型なカードであり、2 枚挿しでは冷却ファンが干渉するリスクがあります。ProArt X870E-CREATOR WIFI はスロット間の距離を十分に確保しており、また VRM（電圧調節回路）の放熱設計も優れているため、長時間の負荷下でも温度上昇を抑えます。2026 年現在では、マザーボード BIOS のアップデート頻度も高く、PCIe レーンのリダイレクト設定や CSM モードの制御が容易になっているため、BIOS 設定を適切に行うことで、システム全体の安定性が向上します。

マザーボード比較	スロット構成 (x16/x8/x4)	PCIe バージョン	AI 用途での評価
ASUS ProArt X870E-CREATOR WIFI	x16 / x16 / x4	PCIe 5.0	両 GPU に最高帯域を提供、推奨
ASUS ROG MAXIMUS Z790 EXTREME	x16 / x8 (Chipset)	PCIe 5.0	第 2 スロットが制限あり、非推奨
MSI MEG X670E GODLIKE	x16 / x4 (x8 物理)	PCIe 5.0	レーン数が不足し、ボトルネック化

上記の比較表からわかるように、AI 用途ではスロット構成が性能に直結します。特に、PyTorch の DistributedDataParallel モードを使用する場合、GPU 間の通信帯域幅は学習速度を決定づける重要な要素です。x16/x16 が確保できる ProArt X870E-CREATOR WIFI を選ぶことで、NVIDIA GPU の理論上の性能を最大限引き出すことが可能となります。また、BIOS 設定において「Above 4G Decoding」や「Re-Size BAR Support」を有効化しておくことが必須であり、これによりシステムメモリから VRAM を直接参照する性能が向上し、推論速度の低下を防ぎます。

グラフィックカード選定：RTX 4090 と VRAM の役割

AI 開発において GPU の VRAM（ビデオメモリ）容量は、扱えるモデルのサイズと精度を決定する最も重要な要素の一つです。NVIDIA GeForce RTX 4090 は 24GB の GDDR6X メモリを搭載しており、これは現在の個人利用における最大のコンシューマー向け VRAM です。しかし、2025 年以降に登場した Llama 3.1 8B や Qwen 2.5 72B などのモデルを高精度（FP16 または INT4）で動作させるには、単体では不足するケースがあります。特に、72B パラメータモデルを INT4 量子化してロードする場合でも、約 40GB の VRAM を必要とするため、本構成のデュアル GPU 化が不可欠となります。

RTX 4090 は NVLink（NVIDIA Link）によるハードウェアベースの高速通信をサポートしていません。これは、企業向けの A100/H100 シリーズとは異なる点ですが、2026 年時点のソフトウェアスタックはこの点を補完しています。vLLM や llama.cpp のような推論フレームワークは、PCIe バス経由での効率的な分散処理を標準サポートしており、理論上は NVLink なしの環境でも、単体 GPU の数倍のモデルサイズを扱えるようになります。また、TensorRT-LLM を使用することで、NVIDIA が提供する最適化ライブラリを活用し、PCIe 帯域の制約下でのオーバーヘッドを最小限に抑えた実行が可能です。

冷却性能と電力効率も選定基準に含まれます。RTX 4090 は TDP が 450W と非常に高く、2 枚挿すと合計 900W 以上になります。さらに、起動時の過渡電力（Transient Spikes）は瞬間的に 1600W を超える可能性があり、これが電源の選定を難しくしています。冷却面では、デュアル GPU が隣接すると排熱が蓄積しやすく、サーマルスロットリングが発生するリスクがあります。そのため、本構成では Corsair 6500X のような大型ケースを採用し、空気の通り道を確保することで、GPU の温度を 75°C 以下に維持することを目標としています。

GPU 比較項目	RTX 4090 (1 枚)	RTX 4090 (2 枚構成)
VRAM 総容量	24GB GDDR6X	48GB GDDR6X
メモリ帯域幅	1,008 GB/s	2,016 GB/s (PCIe 経由)
FP32 演算性能	82.59 TFLOPS	165.18 TFLOPS
NVLink サポート	なし	なし (PCIe デュアル利用)
推論可能モデル最大サイズ	Llama-3-70B (INT4)	Llama-3-70B (FP16) / LLAMA-3.1-8B

表にある通り、2 枚構成では VRAM 容量が倍増し、処理可能なコンテキストウィンドウやバッチサイズが飛躍的に拡大します。特に vLLM の tensor_parallel_size=2 を設定することで、メモリフットプリントの分散が行われます。ただし、PCIe バス経由での通信は NVLink に比べて遅いため、学習時の通信オーバーヘッドには注意が必要です。しかし、推論用途（インフェレンス）においては、この程度の帯域差は体感できるレベルの影響とならず、60 万円という予算で実現可能な最高性能の構成と言えます。

メモリとストレージ：データ読み込みのボトルネック解消

AI ワークロードにおいて、GPU が計算を行っている間に CPU やメモリが待機状態になる「アイドル」を減らすことがシステム全体の効率化につながります。G.Skill Trident Z5 Neo DDR5-6000 メモリを 4 スロット（128GB）構成にすることで、大容量のデータセットを一時保存し、GPU に高速で供給することが可能になります。DDR5 の周波数である 6000MHz は、AMD Zen 5 アーキテクチャにおいて最適化されたスイートスポットであり、メモリレイテンシを最小限に抑えつつ、帯域幅を最大化します。

特に、機械学習のトレーニングでは、データローダーが GPU にバッチデータを供給する速度がボトルネックになることが頻繁にあります。128GB のシステムメモリがあれば、HDD ではなく NVMe SSD から読み込んだデータをまずメモリにキャッシュし、GPU に転送することで、ディスク I/O の遅延を回避できます。また、DDR5-6000 CL30 というタイミング設定は、安定性を保ちつつ高速なアクセスを実現しており、マルチタスク処理（例えば、推論実行しながらデータ前処理を行うなど）においても優れたパフォーマンスを発揮します。

ストレージについては、Samsung 990 PRO 4TB NVMe SSD を採用しました。PCIe 4.0 x4 規格に対応し、連続読み書き速度がそれぞれ 7,000 MB/s と 6,800 MB/s に達します。2026 年時点では、PCIe 5.0 の SSD も登場していますが、AI データセットのサイズ（数 GB から数十 GB）を考慮すると、PCIe 4.0 でも十分に高速であり、コストパフォーマンスに優れています。また、このモデルは DRAM キャッシュを搭載しているため、ランダムアクセス性能が高く、多数の小ファイルを読み込む学習データセットの処理においても速度低下を防ぎます。

ストレージ比較	Samsung 990 PRO (PCIe 4.0)	WD_Black SN850X (PCIe 4.0)	Samsung 990 EVO Pro (PCIe 5.0)
連続読み込み速度	7,000 MB/s	7,300 MB/s	10,000 MB/s
DRAM キャッシュ	あり	あり	あり
耐久性 (TBW)	2400 TBW	1200 TBW	6400 TBW
AI 学習への推奨度	◎	○	△（PCIe 5.0 の冷却対策必要）

上記の比較から、990 PRO は耐久性と速度のバランスに優れており、長時間稼働するワークステーションに適しています。特に TBW（Total Bytes Written）は、学習データセットの書き込み頻度を考慮すると重要な指標です。2400TBW の値は、数回のフルディスク書き込みにも耐えられる十分な耐久性を持っています。また、OS 用とデータ用の SSD を分割する構成も推奨されますが、本構成では単体の大容量ドライブで管理し、パーティション分けを行うことで利便性を高めています。

電源供給設計：過渡電力と安定稼働のための 1600W

デュアル GPU 環境において最も重要な、かつ見落としがちなのが電源ユニット（PSU）の選定です。RTX 4090 は動作中に瞬時に最大消費電力を超える「過渡電力」を発生することが知られています。NVIDIA の仕様上は 450W ですが、実際には起動時や負荷変化時に瞬間的に 600W〜800W を超えるスパイクが発生します。これが 2 枚ある場合、システム全体で 1,500W を超える瞬間電力が流れる可能性があり、標準的な 1000W 電源では保護回路が作動してシャットダウンするリスクがあります。

本構成では Seasonic PRIME TX-1600（1600W）を採用しました。この電源は 80PLUS Titanium 認証を取得しており、94% 以上の高い変換効率を維持します。Titanium 認証は、2026 年時点でも最も厳格な省エネ規格の一つであり、発熱が少なく、ファン回転数が抑えられるため、静音性も確保できます。また、1600W という容量は RTX 4090×2 のピーク電力を余裕を持って賄うだけでなく、CPU オーバークロックや周辺機器の増設余地を残しています。

電源ケーブルの接続方法にも注意が必要です。RTX 4090 は通常、PCIe Power Supply Cable（12VHPWR コネクター）を使用します。このコネクターは高電流に耐えるため、十分な剛性を持つケーブルですが、挿し込み時の接触不良や熱による劣化が懸念されます。Seasonic の 1600W 電源には、複数の PCIe 8 ピン（または変換アダプタ）ケーブルが含まれており、12VHPWR コネクターに接続する際にも、無理のない配線が可能になっています。また、ATX 3.0/3.1 規格に対応しているため、過渡電力への耐性も標準的な電源より強化されています。

PSU 比較項目	Seasonic PRIME TX-1600T	Corsair AX1600i	EVGA SuperNOVA 1500 T2
定格出力	1600W	1600W	1500W
認証規格	Titanium	Gold	Platinum
変換効率 (10-20% 負荷)	94%	87%	91%
ファンサイズ	140mm / 135mm	165mm	140mm
アソートケーブル構成	1x PCIe, 4x SATA, 2x Molex	カスタム対応	標準

Titanium 認証の電源は、発熱が少なく、ケース内の温度上昇を抑える効果もあります。特に 60 万円クラスの高額なパーツを保護する観点からも、信頼性の高い電源への投資は不可欠です。また、PSU のファン制御も重要で、低負荷時は静音モードに切り替わり、高負荷時でも回転数を調整して騒音を抑える設計になっています。2026 年時点では、電源の寿命がパーツ全体の稼働時間に直結するため、10 年以上の耐用年数を見据えた選定基準として、Titanium 認証および高品質なコンデンサの使用を推奨します。

冷却システム：デュアル GPU のエアフロー管理

RTX 4090 は大型かつ発熱量が大きいカードであり、2 枚挿しでは排熱の処理が最も困難な課題の一つです。2 枚の GPU が隣接している場合、一方からの排気がもう一方に直接当たり、温度上昇を招く「サーマルサージ」が発生します。これを防ぐために、Corsair 6500X のようなデュアルチャンバーケースを採用し、物理的なエアフローの分離を図ります。このケースは電源ベイが独立しており、CPU クーラーから GPU への風路を確保しやすい構造を持っています。

Noctua NH-D15 G2 ドゥアルヒートシンククーラーを採用しました。これは CPU の冷却に特化しており、AM5 ソケットに対応した最新の改良版です。Zen 5 の TDP は 170W と高いため、空冷でも確実に冷却できるように設計されています。デュアルファン（NF-A12x25×2）による排気力により、ケース内の熱を効率的に排出します。GPU クーラーについては、純正の三軸ファンの排気方向がケース後面および上面に向くよう調整し、排風がケース内にとどまらないようにします。

ケースファン構成としては、前面から 420mm ラジエーターまたは大型空冷ファン 3 枚を導入し、背面と天面に排気ファンを配置する構成が推奨されます。特に RTX 4090 の排熱は上方向へ逃げやすい特性があるため、上面ファンの回転数を若干高く設定することで、GPU 間の空気循環を強制します。2025 年以降、AI ワークロードの長時間化に伴い、冷却システムの耐久性も問われます。ファンベアリングやファンの寿命を考慮し、静音かつ高耐久な Noctua や Fenix などのブランドを選ぶことで、システム全体のノイズレベルを抑えつつ、GPU の温度を 70°C 台で維持します。

ファン配置	推奨回転数 (RPM)	目的
前面吸入ファン×3	1200-1500	吸気量確保、GPU 冷却
上面排気ファン×1-2	800-1000	GPU 排熱の外への排出
背面排気ファン×1	1000-1200	チップセットおよび CPU 排風
PSU ファン	自動制御	電源ユニットの冷却

この配置により、ケース内の空気が循環し、GPU の温度が上昇しても熱暴走を防ぐことができます。また、エアフローを確保することで、システム全体のノイズレベルも抑制されます。ファンカーブの設定は BIOS または専用ソフトウェア（Corsair iCUE など）で行い、負荷に応じて段階的に回転数を上げることで、静音性と冷却性能のバランスを取ります。特に、学習プロセスが長時間にわたる場合、温度管理はシステムの安定稼働に直結するため、定期的な清掃やフィルターの交換も忘れずに行う必要があります。

OS とライブラリ環境構築：Ubuntu 24.04 + CUDA 12.x

AI デベロッパーにとって、OS の選定と環境構築の効率は作業速度を決定づけます。Windows はゲーム用途には優れていますが、Linux（特に Ubuntu）はサーバーやデータセンターで標準的に採用されており、CUDA ライブラリとの親和性が最も高いです。2026 年 4 月時点では、Ubuntu 24.04 LTS が安定版として広く利用されています。この OS はセキュリティ更新が長く保証されており、開発環境の安定性を確保します。

まずは NVIDIA ドライバと CUDA ツールキットのインストールが必要です。公式リポジトリから CUDA 12.x を取得し、バージョンを固定することで互換性の問題を回避します。具体的には、apt install nvidia-driver-550 や nvidia-cuda-toolkit コマンドを用いて、ドライバーとライブラリを一括でインストールできます。また、cuDNN（CUDA Deep Neural Network library）も必須であり、これにより深層学習の処理速度が大幅に向上します。

環境構築には Docker の利用も推奨されます。コンテナ化された環境を使用することで、依存関係の問題を避けつつ、異なるバージョンのライブラリを並行して管理できます。特に vLLM や llama.cpp は、Docker イメージとして提供されており、ローカル環境で簡単にスナップショットを取得可能です。また、Jupyter Notebook を Docker コンテナ内で実行し、ブラウザからインタラクティブにコードを実行することで、開発効率が高まります。

環境構築ステップ	コマンド/手順	目的・説明
OS インストール	Ubuntu 24.04 LTS	安定性と互換性確保
ドライバインストール	`sudo apt install nvidia-driver-550`	GPU アクセラレーション有効化
CUDA ツールキット	`apt-get update && apt-get install cuda-toolkit`	開発ツールセットアップ
Docker インストール	`curl -fsSL https://get.docker.com`	コンテナ環境構築
NVIDIA Container Toolkit	`docker run --gpus all nvidia/cuda:12.0`	GPU 利用可能なコンテナ起動

この手順に従って環境を構築することで、開発者がコードに集中できる状態を作ります。また、BIOS 設定で「Above 4G Decoding」や「Re-Size BAR Support」を有効化することも忘れずに行ってください。これにより、OS から GPU のメモリ領域を効率的にマッピングでき、推論時のメモリアクセス速度が向上します。2026 年現在では、Ubuntu 24.04 は Python 3.12 を標準搭載しており、最新の AI ライブラリ（PyTorch 2.x, TensorFlow 2.x）との互換性も問題ありません。

ソフトウェア設定：vLLM、Ollama、PyTorch の分散推論

本構成の真価を発揮するのは、ソフトウェアの設定においてです。vLLM は、大規模言語モデルの推論に特化した高速フレームワークであり、Tensor Parallelism（TP）を介して複数の GPU に処理を分担させます。設定ファイルで --tensor-parallel-size 2 を指定することで、2 枚の RTX 4090 が協調して動作します。これにより、VRAM の合計容量（48GB）を利用し、より大きなモデルや長いコンテキストウィンドウを扱えるようになります。

また、llama.cpp は CPU と GPU の混合処理にも対応していますが、本構成では GPU 優先の設定を行います。Ollama を使用する場合も同様で、環境変数 OLLAMA_NUM_PARALLEL=2 を設定することで、複数のリクエストを並列処理する能力を引き出します。特に、API サーバーとして動作させる場合、vLLM の高スループット特性を活かし、複数ユーザーからの同時アクセスにも耐えられるようにチューニングします。

PyTorch における DistributedDataParallel（DDP）は、モデルのトレーニング時に GPU を分散して使用するための標準的なインターフェースです。コード内で torch.distributed.init_process_group を呼び出し、プロセス数を指定することで、2 枚の GPU にバッチデータを分配します。これにより、学習速度を最大化できますが、通信オーバーヘッドへの理解も必要です。本構成では PCIe バス経由での通信となるため、GPU の負荷バランスを均等にするための調整が必要になる場合があります。

# PyTorch DDP 簡易例
import torch.distributed as dist
dist.init_process_group("nccl")
torch.cuda.set_device(local_rank)
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[local_rank])

このコードスニペットは、DDP の基本的な構造を示しています。2 枚の GPU を使用する場合、local_rank が 0 または 1 となるようにプロセスを起動します。また、バッチサイズを調整し、GPU メモリが不足しないように注意します。vLLM と PyTorch の設定を混在させる場合は、環境変数 CUDA_VISIBLE_DEVICES=0,1 を使用して、両方の GPU を認識可能にしておく必要があります。2026 年時点では、これらのライブラリのバージョン管理も重要であり、最新の安定版を使用することで、バグや互換性の問題を回避します。

運用コストと拡張性：将来のアップグレード計画

60 万円という投資を行った後、継続的な運用コストと将来的な拡張性を考える必要があります。まず、電気代についてです。RTX 4090×2 の TDP は合計 900W 程度ですが、アイドル時は低く、負荷時には高くなります。平均稼働電力を 700W と見積もると、1 ヶ月（30 日）で約 504 kWh となり、単価 30 円/kWh で計算すると月額約 15,000 円の電気代がかかります。これは一般的な PC よりも高額ですが、AI エンジニアとしての生産性を考慮すれば妥当な範囲です。

拡張性については、PCIe スロットの空き状況と電源容量が鍵となります。ASUS ProArt X870E-CREATOR WIFI には追加スロットが存在しますが、物理的なスペースや冷却性能を考慮すると、GPU の増設は現実的ではありません。しかし、メモリは 128GB からさらに拡張できる余地があります。最大で 512GB まで対応しているため、データセットのキャッシュ用として追加が可能です。また、NVMe SSD のスロットも複数あるため、学習データの保存用ドライブを追加する拡張性は確保されています。

将来のアップグレード計画としては、GPU の交換が最も現実的です。2026 年以降に RTX 5090 が登場した場合、本構成の CPU や PSU はそのまま使用できる可能性があります。ただし、PCIe レーン数や電源のコネクター形状によっては確認が必要です。CPU の場合、AM5 プラットフォームは将来的なマイグレーションパスが用意されており、Zen 6 アーキテクチャへのアップグレードも視野に入れています。特に、AI ワークロードの進化に合わせて、メモリ帯域幅や PCIe バンドル幅が重要になるため、これらのリソースを確保できるマザーボードと CPU の選定は重要です。

拡張項目	現在の容量	最大対応容量	価格目安 (追加時)
メモリ	128GB DDR5	512GB	約 30,000 円
SSD	4TB NVMe	2x8TB	約 60,000 円
GPU	RTX 4090×2	非対応 (ケース制約)	別構成推奨
PSU	1600W	1600W	交換不可 (1600W 固定)

表からもわかるように、メモリとストレージの拡張が最も容易です。GPU の増設については、ケースや冷却の問題から困難であるため、将来的には新しいマザーボードとケースへの移行が必要になる可能性があります。しかし、本構成は少なくとも 3〜5 年間は現役で使える設計となっています。運用コストを抑えるためには、アイドル時の電源管理設定（ASPM など）を適切に行い、稼働していない時間帯の電力消費を削減することが有効です。

よくある質問 (FAQ)

Q1: RTX 4090 の NVLink は使えますか？ A1: いいえ、GeForce RTX 4090 のコンシューマー向けモデルでは NVLink コネクターとハードウェアサポートが削除されています。しかし、vLLM や PyTorch のソフトウェアレベルでの分散処理（Tensor Parallelism）により、PCIe バス経由で複数の GPU を協調させることは可能です。これが 2026 年における標準的な構成です。

Q2: デュアル GPU でノイズは気になりますか？ A2: はい、4 枚のファンが高速回転するため、高負荷時はノイズが発生します。しかし、Corsair 6500X のような大型ケースと、Noctua の静音ファンを使用することで、低中負荷時の静粛性を確保できます。また、ファンの回転数を BIOS で調整し、温度上昇を抑えることで騒音も軽減可能です。

Q3: Windows 11 でも利用可能ですか？ A3: はい、Windows 11 でも CUDA ライブラリと Docker を使用することは可能です。ただし、Linux（Ubuntu）に比べてドライバの制御やコンテナのパフォーマンスにおいて若干の差があります。本格的な AI 開発には Ubuntu の推奨が強く示唆されています。

Q4: メモリを 256GB に増設できますか？ A4: はい、ASUS ProArt X870E-CREATOR WIFI は最大で 512GB（DDR5-6000）まで対応しています。ただし、4 スロット全てにメモリスティックを挿すことで、周波数が少し低下する可能性があります。AI 学習では容量優先のため、256GB や 384GB への増設は有効です。

Q5: 電源ユニットの寿命はどうですか？ A5: Titanium 認証の Seasonic PRIME TX-1600 は高品質なコンデンサを使用しているため、通常使用であれば 10 年以上の寿命が見込めます。ただし、高温環境や過負荷状態が続くと劣化が早まる可能性があるため、冷却設計を適切に行うことが重要です。

Q6: RTX 5090 に交換する場合はどうなりますか？ A6: RTX 5090 が登場した場合でも、本構成の PSU（1600W）とマザーボード（PCIe 5.0 対応）はほぼ互換性があると考えられます。ただし、GPU の物理サイズやコネクター形状が変わる可能性があるため、ケース内の収容性を事前に確認する必要があります。

Q7: vLLM の設定でエラーが出た場合の対処法は？ A7: まず tensor_parallel_size の値が GPU 数と一致しているか確認します。また、CUDA ドライバのバージョンが vLLM の要件を満たしているか確認し、最新ドライバーに更新してください。メモリ不足の場合は、バッチサイズを小さくするか、GPU を増設する必要があります。

Q8: この構成で 72B パラメータモデルは動きますか？ A8: はい、INT4 量子化された 72B モデルであれば、RTX 4090×2 の 48GB VRAM で動作可能です。ただし、FP16 での動作には VRAM が不足する可能性があるため、量子化技術の使用が推奨されます。

Q9: 冷却システムの清掃はどれくらい頻繁に行うべきですか？ A9: 粉塵の蓄積状況によりますが、通常は 3 ヶ月に一度の清掃が推奨されます。特に GPU のファンやフィルター部分にほこりが溜まると熱暴走の原因となるため、定期的なメンテナンスが必要です。

Q10: 学習中のシャットダウンは避けるべきですか？ A10: はい、長時間の学習プロセスで電源を落とすと、データセットの破損やモデルの破損リスクがあります。UPS（無停電電源装置）を使用し、停電時にも安全にシャットダウンできる環境を整えることを強く推奨します。

まとめ

本記事では、60 万円の予算で構築するデュアル GPU AI ワークステーションの構成と運用方法について詳細に解説しました。AMD Ryzen 9 9950X と RTX 4090×2 の組み合わせは、2026 年時点における個人レベルでの最高性能を提供します。以下の要点を押さえておくことで、安全かつ効率的な運用が可能となります。

GPU 構成: RTX 4090 を 2 枚使用し、合計 48GB の VRAM を確保することで、大規模 LLM の推論と学習を可能にする。
PCIe レーン: ASUS ProArt X870E-CREATOR WIFI を採用し、x16/x16 の構成で帯域制限を最小化する。
電源設計: 過渡電力に対応した 1600W Titanium 認証の Seasonic PRIME TX-1600T を使用し、安定稼働を保証する。
冷却管理: Corsair 6500X のデュアルチャンバーと Noctua クーラーを使用し、サーマルサージを防ぐ。
OS 環境: Ubuntu 24.04 + CUDA 12.x を標準とし、vLLM や PyTorch の分散処理設定を最適化する。

この構成は、高い初期投資が必要ですが、AI エンジニアや研究者にとっての強力なツールとなります。パーツ選びからソフトウェア設定まで、各ステップで注意すべき点を理解し、最適なパフォーマンスを引き出してください。

この記事を書いた人

自作.com編集部

PCパーツ・ガジェット専門

自作PCパーツやガジェットの最新情報を発信中。実測データに基づいた公平なランキングをお届けします。

専門分野

自作PC全般（組み立て・パーツ選定）CPU・GPU性能分析とベンチマークマザーボード・メモリ互換性検証ストレージ（SSD/HDD）性能測定電源ユニット・冷却システム設計PCケース・エアフロー最適化オーバークロッキング・チューニングトラブルシューティング・修理ゲーミングPC構成設計予算別・用途別PC構成提案BTO PCカスタマイズアドバイスPC周辺機器レビュー最新技術動向・新製品情報PCパーツ価格動向分析Windows・Linux OS設定

経験年数: 10年

•📝 2,266記事の執筆・編集実績（2025年10月時点）
•🖥️ 1,000台以上の自作PC構築・検証
•🔧 500件以上のトラブルシューティング対応

保有資格

情報処理技術者（ITパスポート）CompTIA A+ 認定技術者マイクロソフト認定プロフェッショナル（MCP）

Twitter Website

寄稿記事数: 2,266件

メニュー

この記事で紹介したパーツで構成を作ってみませんか？

メニュー

この記事で紹介したパーツで構成を作ってみませんか？

60万円デュアル GPU AI 構成ガイド｜ローカル LLM＆学習環境

なぜ今、デュアル GPU の AI ワークステーションなのか

60 万円予算の全体像とパーツ選定の根拠

CPU とマザーボード：PCIe レーン構成の重要性

グラフィックカード選定：RTX 4090 と VRAM の役割

メモリとストレージ：データ読み込みのボトルネック解消

電源供給設計：過渡電力と安定稼働のための 1600W

冷却システム：デュアル GPU のエアフロー管理

OS とライブラリ環境構築：Ubuntu 24.04 + CUDA 12.x

ソフトウェア設定：vLLM、Ollama、PyTorch の分散推論

運用コストと拡張性：将来のアップグレード計画

よくある質問 (FAQ)

まとめ

この記事を書いた人

自作.com編集部

関連記事

1.2M円クアッドGPU AI構成｜ローカルLLM学習対応

マルチGPU AI ワークステーション構築ガイド｜2枚以上のGPUでAI学習を加速

80万円AI学習ワークステーション構成2026｜ローカルLLMトレーニング

45万円AIインファレンスサーバー構成｜ローカルLLM推論最適化

【2026年版】ローカルLLM最適化PC構築完全ガイド｜Llama 3.3 70Bも快適動作

【2026年版】ローカルLLM最適化PC構築完全ガイド｜Llama 3.3 70Bも快適動作

この記事に関連するおすすめパーツ

Intel CPU BX8070110100F Core i3-10100F / 3.6GHz / 6MB LGA1200 4C / 8T

AMD Ryzen 5 5600 CPU

UNTERING 85 ミリメートル GA91S2U 4Pin GTX 1660 1660Ti RTX2060 RTX2070 グラフィックスカードファン PNY Palit 2060 SUPER 2070 GPU クーラー

Palit (パリット) GeForce RTX 3090 GamingPro 24GB GDDR6X レイトレーシング LHR グラフィックスカード 10496コア 1395MHz GPU ブースト1695MHz ディスプレイポート HDMI Advanced TurboFan 3.0

ASRock マザーボード Z690 PG Velocita Intel 第12世代CPU(LGA1700)対応 Z690 ATX マザーボード 【国内正規代理店品】

バックプレーン CPU 冷却ブラケット ヒートシンク ブラケット ファン 冷却マウントプレート AM5 マザーボード用 ソケット ネジ付き

関連記事

1.2M円クアッドGPU AI構成｜ローカルLLM学習対応

マルチGPU AI ワークステーション構築ガイド｜2枚以上のGPUでAI学習を加速

80万円AI学習ワークステーション構成2026｜ローカルLLMトレーニング

45万円AIインファレンスサーバー構成｜ローカルLLM推論最適化

【2026年版】ローカルLLM最適化PC構築完全ガイド｜Llama 3.3 70Bも快適動作

【2026年版】ローカルLLM最適化PC構築完全ガイド｜Llama 3.3 70Bも快適動作

よく読まれている記事

この記事に関連するおすすめパーツ

Intel CPU BX8070110100F Core i3-10100F / 3.6GHz / 6MB LGA1200 4C / 8T

AMD Ryzen 5 5600 CPU

UNTERING 85 ミリメートル GA91S2U 4Pin GTX 1660 1660Ti RTX2060 RTX2070 グラフィックスカードファン PNY Palit 2060 SUPER 2070 GPU クーラー

Palit (パリット) GeForce RTX 3090 GamingPro 24GB GDDR6X レイトレーシング LHR グラフィックスカード 10496コア 1395MHz GPU ブースト1695MHz ディスプレイポート HDMI Advanced TurboFan 3.0

ASRock マザーボード Z690 PG Velocita Intel 第12世代CPU(LGA1700)対応 Z690 ATX マザーボード 【国内正規代理店品】

バックプレーン CPU 冷却ブラケット ヒートシンク ブラケット ファン 冷却マウントプレート AM5 マザーボード用 ソケット ネジ付き

60万円デュアル GPU AI 構成ガイド｜ローカル LLM＆学習環境

なぜ今、デュアル GPU の AI ワークステーションなのか

グラフィックボードおすすめランキング TOP10

4〜 その他の人気製品

🛒 Amazonでお得に購入

60 万円予算の全体像とパーツ選定の根拠

CPU とマザーボード：PCIe レーン構成の重要性

グラフィックカード選定：RTX 4090 と VRAM の役割

メモリとストレージ：データ読み込みのボトルネック解消

電源供給設計：過渡電力と安定稼働のための 1600W

冷却システム：デュアル GPU のエアフロー管理

OS とライブラリ環境構築：Ubuntu 24.04 + CUDA 12.x

ソフトウェア設定：vLLM、Ollama、PyTorch の分散推論

運用コストと拡張性：将来のアップグレード計画

よくある質問 (FAQ)

まとめ

グラフィックボードおすすめランキング TOP10

4〜 その他の人気製品

🛒 Amazonでお得に購入

ASRock マザーボード Z690 PG Velocita Intel 第12世代CPU(LGA1700)対応 Z690 ATX マザーボード【国内正規代理店品】

バックプレーン CPU 冷却ブラケットヒートシンクブラケットファン冷却マウントプレート AM5 マザーボード用ソケットネジ付き

ASRock マザーボード Z690 PG Velocita Intel 第12世代CPU(LGA1700)対応 Z690 ATX マザーボード【国内正規代理店品】

バックプレーン CPU 冷却ブラケットヒートシンクブラケットファン冷却マウントプレート AM5 マザーボード用ソケットネジ付き

4〜その他の人気製品

4〜その他の人気製品