OllamaでMacとLinuxを跨ぐ分散推論を行う際、ネットワークの帯域幅はどの程度必要ですか？

安定した推論体験を得るためには、ノード間を繋ぐネットワークは最低でも1Gbps（1000Mbps）以上の有線接続を推奨します。推論モデルの重みデータやKVキャッシュを跨いでやり取りする際、Wi-Fi環境ではパケットロスによる遅延が発生しやすく、特にLlama 3 70Bのような大型モデルを複数ノードで分割処理する場合、帯域不足がレスポンスの大幅な低下を招きます。具体的には、1GbE（Gigabit Ethernet）以上の有線LAN環境であれば実用的な速度を確保でき、2.5GbE環境であればよりスムーズな同期が可能です。まずはルーターと各PC（Mac StudioやLinuxサーバー等）をCAT6以上のLANケーブルで直接接続する構成を検討してください。

Ollamaの分散推論クラスタ構築において、モデル分割の際のVRAM容量の計算はどうすればいいですか？

分散推論を行う際は、各ノードの物理的なVRAM合計量ではなく、モデルを分割した際に各カード（GPU）が保持できるメモリ量を正確に把握する必要があります。例えば、Llama 3 70Bモデルを4ビット量子化（Q4_K_M等）で動かす場合、約40GB以上のVRAMが必要となりますが、これを2台のMac（M2 Ultra/Max）やRTX 3090（24GB×2枚）に分散させる際、計算グラフを跨ぐためのオーバーヘッドとして各ノードに数GBの余裕を持たせるのが定石です。モデルサイズが100GBを超えるような巨大なモデルを扱う場合は、推論エンジン側でのパッチ分割処理を確認してください。構築前に、使用予定のモデル（例：Llama 3, Mixtral 8x7B）の量子化ビット数と、各ノードの搭載GPU/Apple Siliconのメモリ容量をリストアップし、余裕を持った割り当て計画を立ててください。

Ollamaクラスタ構築でMacとLinuxが混在する場合、接続用IPアドレスの固定は必要ですか？

安定した分散推論環境を維持するためには、すべてのノードに対して固定IPアドレスの割り当てが必須です。動的DHCP環境では再起動のたびにIPが変わるため、Ollama間の通信設定やロードバランサーの設定に齟myYが生じ、クラスタの同期が切断される原因となります。具体的には、ルーター側でMac（例：192.168.1.10）とLinuxサーバー（例：192.168.1.20）に対して静的IPを予約するか、各デバイスに固定IPを手動で割り当てる設定を行ってください。構築の初期段階でルーターの設定画面を開き、すべてのノードに対して個別の固定IPを割り当てたことを確認してからOllamaのネットワーク設定を進めてください。

Ollama 自宅クラスタ構築｜Mac + Linux で分散推論

コンポーネント	役割	推奨スペック / 設定例
OpenWebUI	ユーザーインターフェース	Docker (Python 3.12+, PostgreSQL)
LiteLLM	ロードバランサー / プロキシ	Python/Docker, model_list configuration
Ollama Node (Mac)	大容量VRAM推論用ノード	Mac Studio M4 Ultra (192GB Unified Memory)
Ollama Node (Linux)	高速推論・並列処理ノード	NVIDIA RTX 5090 (32GB VRAM), Ubuntu 24.04 LTS
Tailscale	拠点間セキュアネットワーク	WireGuard-based Overlay Network

コンポーネント	役割	推奨スペック / 設定例
OpenWebUI	ユーザーインターフェース	Docker (Python 3.12+, PostgreSQL)
LiteLLM	ロードバランサー / プロキシ	Python/Docker, model_list configuration
Ollama Node (Mac)	大容量VRAM推論用ノード	Mac Studio M4 Ultra (192GB Unified Memory)
Ollama Node (Linux)	高速推論・並列処理ノード	NVIDIA RTX 5090 (32GB VRAM), Ubuntu 24.04 LTS
Tailscale	拠点間セキュアネットワーク	WireGuard-based Overlay Network

ネットワーク・ボトルネックと通信レイテンシの課題

分散推論における最大の技術的障壁は、ノード間通信に伴うレイテンシ（Latency）の増大である。LiteLLMがリクエストをルーティングする際、バックエンドのOllamaノードへのHTTP/REST通信が発生する。このとき、ネットワーク帯域幅やパケットロス率が、推論結果の「文字が流れてくる速度」に直接影響を与える。特に、Tailscaleを用いたリモート接続を行う場合、DERP（Detour Relay for Packets）リレーサーバーを経由してしまうと、RTT（Round Trip Time）が数百msec単位で悪化し、推論体験を著しく損なう原因となる。

これを回避するためには、可能な限り「Direct Connection」を実現するためのネットワーク設計が必要である。自宅内のLAN構成においては、以下の3点を徹底すべきである。

10GbE SFP+ ネットワークの導入: Mac StudioとLinuxサーバー間は、標準的な1GbEではなく、10GbE（SFP+またはRJ45）で接続すること。これにより、大規模なモデルファイルの転送や、コンテキスト情報の同期に伴うオーバーヘッドを最小化できる。
Tailscaleの定常的なDirect Connection確認: tailscale statusコマンドを用い、各ノードが「active; direct」状態であることを確認する。もし「relay」と表示されている場合は、UDPポート41641の開放（UPnPまたは静的マッピング）を行い、通信経路を最適化しなければならない。
MTU（Maximum Transmission Unit）の整合性: 仮想ネットワーク層でのパケット断片化を防ぐため、各ノードのMTUサイズを適切に設定する。特にLinux側のDockerコンテナとmacOSホスト間での不一致は、通信エラーやスループット低下の隠れた要因となる。

また、LiteLLMの設定におけるtimeout値の設定も重要である。巨大なモデル（例：100B超）の初動（Time to First Token: TTFT）は、モデルのロード状況によって数十秒かかることがあるため、プロキシ層でのタイムアウト設定をデフォルトの60sから、ワークロードに合わせて120s〜300sへと拡張しておく必要がある。

可視化と運用管理：Prometheus/Grafanaによるメトリクス監視

大規模な分散クラスタを安定稼働させるためには、各ノードの「健康状態」をリアルタイムで把握するオブザーバビリティ（可観測性）が不可欠である。単にOllamaが動いているかどうかを確認するだけでなく、VRAMの使用率、GPU温度、および推論のスループット（Tokens per second）を定量的に監視しなければならない。

監視スタックには、PrometheusとGrafanaを用いた標準的な構成を採用する。各Ollamaノードのメトリクス収集には、NVIDIA GPU用のdcgm-exporterおよびApple Siliconの電力・温度情報を取得可能なカスタムエージェントを使用する。これらのデータをPrometheusがスクレイピングし、Grafanaのダッシュボード上で統合的に可視化する。

監視すべき重要指標（KPI）は以下の通りである。

GPU/Unified Memory Utilization (%): VRAMの枯渇は、Ollamaのモデルロード失敗に直結するため、閾値（例：90%）を超えた場合にアラートを発報する設定とする。
Tokens Per Second (TPS): 各モデルの推論速度を監視し、ネットワーク遅延やノードの負荷増大によるパフォーマンス低下を検知する。
Request Latency (TTFT & TPOT): Time to First Token（最初のトークンが出るまでの時間）と Time Per Output Token（各トークンの生成間隔）を分離して計測し、ユーザー体験の劣化を定量化する。
Node Temperature (°C): 特にLinuxノードのRTX 5090において、サーマルスロットリングが発生していないかを確認する。

さらに、運用コストの最適化という観点からは、電力消費量（W）のモニタリングも極めて重要である。24時間稼働するクラスタでは、各ノードのアイドル時および高負荷時の消費電力を合算することで、月間の電気代コストを算出できる。例えば、Mac Studioが30W、Linuxサーバーが350Wで稼働している場合、その差は月間で数百円〜千円単位のコスト差となって現れる。このような数値をGrafamente上で可視化し、必要に応じて「低負荷時はLinuxノードをスリープさせる」といった、電力効率に基づいた自動運用（Auto-scaling）への拡張も視野に入れるべきである。

分散推論クラスタ構築におけるハードウェア・ソフトウェア構成の徹底比較

Ollamaを用いた分散推論クラスタを構築する際、最大の課題は「異種混合（Heterogeneous）環境」をいかに最適化するかという点にあります。Apple Silicon特有の広帯域なユニファレンスメモリを活用したMac Studioと、圧倒的なFP8演算性能を誇るNVIDIA RTX 50シリーズ搭載のLinuxノードでは、計算リソースの性質が根本的に異なります。

単一の強力なGPUを用意するのと、複数の安価な、あるいは既存のデバイスを組み合わせるのとでは、コスト対効果（TCO）だけでなく、推論のスループットやレイテンシに劇的な差が生じます。ここでは、クラスタ設計の意思決定に不可欠な、ハードウェアスペック、ソフトウェアスタック、およびネットワーク構成の比較検証を行います。

1. 計算ノード：主要ハードウェア・プラットフォーム比較

クラスタの「脳」となる計算ノードの選定は、扱うモデルのパラメータ数（7B〜405B）に直結します。Mac Studioはメモリ容量（VRAM容量相当）の確保において圧倒的な優位性を持ち、一方のLinuxノードは単一トークン生成速度（Tokens per second）において高いパフォーマンスを発揮します。

ノード種別	主要プロセッサ/GPU	メモリ/VRAM容量	推定導入コスト (円)	特徴・強み
Mac Studio	M4 Ultra (Apple Silicon)	192GB (Unified Memory)	¥850,000〜	超大規模モデル(70B+)のロードが可能
Linux Workstation	NVIDIA RTX 5090 (Blackwell)	32GB GDDR7	¥450,000〜	高速な推論スループット、CUDA最適化
Linux Server	NVIDIA RTX 6000 Ada	48GB GDDR6	¥1,200,000〜	プロフェッショナル向け、安定したVRAM容量
Edge Node (Linux)	NVIDIA RTX 4060 Ti	16GB GDDR6	¥70,000〜	低消費電力、小規模モデルの分散処理用

Mac Studioを利用する最大のメリットは、Apple Siliconのユニファレンスメモリ構造にあります。32GBや48GBといった制限があるGPUワークステーションに対し、192GBもの広大な領域を推論用VRAMとして割り当てられるため、DeepSeek-V3のような巨大なパラメータを持つモデルの量子化版（Q4_K_M等）を単一ノードで動作させることが可能です。対して、LinuxノードはRTX 5090等の高速なメモリ帯域を活用し、軽量なLlama 3.1 (8B) クラスの爆速推論（100+ tokens/s）を担う役割として最適です。

2. ソフトウェア・オーケストレーション層の機能比較

分散クラスタにおいて、個別のOllamaインスタンスを単なる「点の集合」から「一つの知能」へと昇華させるのが、LiteLLMやOpenWebUIといったミドルウェア層の役割です。これらのコンポーネントは、リクエストのロードバランシングやプロトコルの変換を担います。

ソフトウェア名	主な役割	必須機能	推奨される利用シーン
Ollama	推論エンジン (Backend)	モデル管理, API提供	各計算ノードの基盤実行環境
LiteLLM	プロキシ / ロードバランサ	複数エンドポイント統合	分散ノードへのリクエスト分散・冗長化
OpenWebUI	ユーザーインターフェース	チャット履歴, RAG連携	クラスタ全体の統合操作画面
Tailscale	仮想ネットワーク (SD-WAN)	WireGuardベースVPN	拠点間（Mac/Linux）の安全な通信確立

LiteLLMは、このクラスタ構築における「司令塔」です。複数のOllamaエンドポイントを一つのOpenAI互換APIに集約し、特定のノードが過負荷になった際のフォールバック設定や、モデルごとのルーティングルールを定義できます。これにTailscaleを組み合わせることで、自宅内のLANだけでなく、外出先のノートPCからもセキュアにクラスタへアクセス可能な「どこでもAI」環境が実現します。

3. モデル規模別：推論パフォーマンスとメモリ要件のトレードオフ

どのモデルをどのノードに割り当てるべきかは、VRAM容量と計算能力のバランスで決まります。量子化ビット数（Quantization）によってメモリ消費量は劇的に変化するため、各ノードのスペックに基づいた適切な配置計画が求められます。

モデルクラス (例)	推定必要VRAM (Q4_K_M)	Mac Studio (M4 Ultra) 期待値	Linux (RTX 5090) 期待値	配置戦略
Llama 3.1 (8B)	約5.5 GB	High (安定性重視)	Ultra High (速度重視)	Linuxノードへ優先配分
Mistral/Gemma (27B)	約18 GB	High (余裕あり)	Medium (VRAM限界に近い)	両ノードで分散可能
Llama 3.1 (70B)	約43 GB	Ultra High (快適)	Low (スワップ発生リスク)	Mac Studioへ集約
DeepSeek-V3/Large	150GB+	Essential (唯一の選択肢)	Impossible (単体不可)	Macノードによる大規模推論

ここで重要なのは、Linuxノードにおける「VRAM溢れ」のリスクです。RTX 5090（32GB）に70Bクラスを載せようとすると、コンテキスト長（Context Window）を拡大した際にメモリ不足でクラッシュします。そのため、LiteLLMのルーティング機能を用い、「70B以上のリクエストはMac Studioへ、8B以下の軽量な指示はLinuxノードへ」というロジックを実装することが、クラスタ全体の可用性を高める鍵となります。

4. ネットワーク・トポロジー：接続方式によるレイテンシ比較

分散推論において、ノード間の通信遅延（Latency）は「思考の停止」に直結します。特に、推論結果の一部を分割して受け取るようなマルチノード推論を検討する場合、ネットワーク帯域の確保は計算リソースの増強と同等に重要です。

接続手法	推定レイテンシ (ms)	セキュリティレベル	スケーラビリティ	適した用途
10GbE LAN (Direct)	< 1 ms	高 (物理隔離)	低 (有線接続の制約)	同一室内での高速クラスタ
Tailscale (Overlay)	10 - 50 ms	極めて高 (暗号化)	高 (デバイス追加容易)	拠点間・リモートアクセス
Standard VPN (OpenVPN)	30 - 100 ms	中 (設定依存)	中	既存社内ネットワーク統合
Public Internet (Direct IP)	50+ ms	低 (攻撃リスク大)	極めて高	公開APIサーバー運用

自宅ラボ（Home Lab）環境では、基本的には10GbEのスイッチングハブを用いたローカル通信を主軸とし、外部からの管理やモバイルデバイスへの配信にはTailscaleを利用するハイブリッド構成が、セキュリティとパフォーマンスの両立において最適解となります。

5. オブザーバビリティ：クラスタ・モニタリング・マトリクス

複数のノードが稼働する環境では、「どのノードが熱暴走しかけているか」「どのモデルがメモリを圧迫しているか」をリアルタイムに把握する必要があります。Grafanaを用いた可視化は、運用フェーズにおける必須要件です。

モニタリング対象	使用ツール	取得可能なメトリクス	導入負荷	監視の目的
GPU/Hardware	NVIDIA-SMI / Metal Perf	温度, 電力(W), VRAM使用率	中	熱暴走防止・電力管理
Ollama Engine	Ollama Logs / Prometheus	リクエスト数, 推論時間	高	ボトルネックの特定
Network Traffic	Tailscale Stats	トンネル帯域, ノード接続状態	低	ネットワーク遅延の検知
User Interface	OpenWebUI Dashboard	チャット数, RAG利用率	低	利用ユーザー動向の把握

GrafanaダッシュボードにPrometheus経由でこれらのデータを集約することで、例えば「Linuxノードの温度が85℃を超えた際に、LiteLLMのリクエストを自動的にMac Studioへ迂回させる」といった、高度な自律型クラスタ運用への道が開かれます。これは単なる監視を超えた、インテリジェントな負荷分散管理（Intelligent Load Balancing）の第一歩となります。

よくある質問

Q1. クラスタを24時間稼働させた際の電気代の目安はどのくらいですか？

Mac Studio（M2 Ultra）などの省電力なノードと、RTX 4090を搭載したLinuxサーバーを併用する場合、アイドル時の消費電力は50W〜100W程度に収まります。しかし、推論負荷が高い状態が続く場合、サーバー単体で最大450Wを超えることもあります。電気料金単価を31円/kWhと仮定すると、月間の増加費用は概ね3,000円から8,000円程度を見込んでおく必要があります。

Q2. Llama-3 70Bクラスのモデルを快適に動かすための最低予算は？

Llama-3 70BのQ4_K_M量子化モデルを動作させるには、少なくとも48GB以上のVRAMまたはユニファイドメモリが必要です。中古のMac Studio（64GBモデル）や、RTX 3090（24GB）を2枚搭載した自作Linux機を構築する場合、最低でも25万円〜35万円程度の初期投資が必要になります。既存のPC資産を活用できれば、このコストは大幅に削減可能です。

Q3. 分散推論におけるマスターノードのOSは何が最適ですか？

LiteLLMやOpenWebUIを動かすオーケストレーション層には、Ubuntu 24.04 LTSなどのLinuxディストリビューションを推奨します。Dockerコンテナの管理が容易であり、Tailscaleによるネットワーク設定も安定しているためです。一方で、推論を実行するワーカーノードとしては、大容量メモリを活かせるmacOS（Mac Studio）と、CUDA環境が構築可能なLinux（Ubuntu/NVIDIA搭載機）を混在させるのが理想的です。

Q4. ロードバランサーとしてLiteLLMを使うメリットは何ですか？

Nginxなどの一般的なリバースプロキシと比較して、LiteLLMは「OpenAI互換API」への変換機能と、複数のOllamaエンドポイントに対する高度なルーティング機能を備えています。例えば、特定のモデルが応答不可になった際に、別のノードにあるバックアップのモデルへ自動的にフォールバックさせる設定が可能です。これにより、マルチノード環境における可用性を劇的に向上させられます。

Q5. Tailscaleを使用した場合、推論速度に遅延（レイテンシ）は発生しますか？

WireGuard プロトコルを採用しているTailscaleのオーバーヘッドは極めて小さいため、通常のテキスト生成において体感できるほどの遅延は発生しません。ただし、モデルの重みデータや巨大なKVキャッシュをノード間で転送する場合、ネットワーク帯域がボトルネックとなります。1GbEの有線LAN環境を構築し、MTUサイズを最適化しておくことで、スループットの低下を防ぐことが重要です。

Q6. OpenWebUIから複数の異なるハードウェア（MacとLinux）を同時に参照できますか？

はい、可能です。LiteLLMをプロキシとして配置し、そこにMac Studio上のOllama（ポート11434）とLinuxサーバー上のOllamaのIPアドレスを登録します。OpenWebUI側からは単一のAPIエンドポイントのみを見れば良いため、ユーザーは背後にあるハードウェア構成を意識することなく、複数のモデルをシームレスに切り替えて利用できます。

Q7. 推論中に特定のノードがダウンしたことをどのように検知すべきですか？

Prometheusを使用してOllamaのメトリクス（ポート11434/metrics）を定期的にスクレイピングし、Grafanaで可視化する構成を推奨します。LinuxノードのGPU温度が85℃を超えた場合や、プロセスが停止した際に、Alertmanagerを通じてSlackやDiscordへ通知を送る仕組みを構築することで、クラスタの健全性をリアルタイムに監視できます。

Q8. 分散推論において、ネットワーク帯域がボトルネックになるケースは？

大規模なコンテキスト（128kトークン以上など）を扱う際、ノード間でプロンプトの内容や中間状態をやり取りする通信量が増大します。Wi-Fi接続のノードが含まれている場合、TTFT（Time To First Token：最初のトークンが出るまでの時間）が著しく悪化する可能性があります。安定した推論を実現するためには、各ノード間を10GbEなどの高速なイーサネットで接続することが強く推奨されます。

Q9. 今後、Raspberry Piのような低電力デバイスをクラスタに追加することは可能ですか？

可能です。Phi-3やGemma 2Bといった軽量なSLM（Small Language Models）であれば、Raspberry Pi 5（8GBモデル）でも十分な推論性能を発揮できます。LiteLLMのルーティングルールを活用し、「軽量なタスクはRaspberry Piへ、複雑な指示はMac Studioへ」という具合に、タスクの難易度に応じてノードを使い分けるエッジコンピューティング的な運用が可能です。

Q10. 次世代のGPU（RTX 50シリーズ等）へのアップグレードは検討すべきですか？

非常に価値があります。次世代GPUではVRAM容量の拡大やメモリ帯域の向上が期待されており、より大きなコンテキストウィンドウでの推論が可能になります。特にLLMの進化に伴い、128k〜1Mトークンの長文処理ニーズが高まっているため、24GB以上のVRAMを搭載したハイエンドなLinuxノードをクラスタに組み込むことは、将来的な拡張性において極めて重要です。

まとめ

本記事では、Mac Studioの強力なUnified MemoryとLinuxサーバーのGPUリソースを統合し、Ollamaを用いた分散推論クラスタを構築する手法を解説しました。複数の計算資源を単一の仮想的な推論基盤として機能させるための要点は以下の通りです。

Ollamaを各ノードに展開し、MacとLinuxの異なるアーキテクチャにおけるGPU/メモリリソースを統合管理する
LiteLLMをプロキシ兼ロードバランサーとして配置し、複数のAPIエンドポイントへのリクエスト分散を実現する
TailscaleによるメッシュVPN構築により、物理的なネットワーク境界を超えたセキュアなノード間通信を確立する
OpenWebUIをフロントエンドに据えることで、バックエンドの複雑な分散構成を意識しない一貫したユーザー体験を提供する
PrometheusとGrafanaを用いたモニタリング環境を整備し、各ノードのVRAM使用率や推論レイテンシをリアルタイムで可視化する
Dockerを用いたコンテナベースのデプロイを採用することで、ノードの追加や構成変更に対する高い拡張性を確保する

まずは手元のLinuxマシン、あるいはMacにOllamaと[LiteLLM](/glossary/llm)をセットアップし、単一ノードでのプロキシ動作を確認することから始めてください。ノードが増加するにつれ、Tailscaleのルーティング最適化やPrometheusによるメトリクス収集範囲の設計が重要な課題となります。

ローカルAI・LLMに最適なPCをbuilderで構成しよう

ローカルAI・LLMに最適なPCをbuilderで構成しよう

分散推論クラスタのアーキテクチャ：LiteLLMによるロードバランシング

推論ノードの選定基準：Apple SiliconとNVIDIA Blackwell世代の共存

この記事に関連するおすすめ商品

この記事を書いた人

自作.com編集部