NVIDIA が 2026 年公開した Nemotron 3 シリーズ最小モデル。Llama 系蒸留と NVIDIA H100/H200 最適化を組み合わせ、TensorRT-LLM/Triton 統合で高スループット推論を実現する企業向け LLM。
Nemotron 3 Nano は、NVIDIA が 2026 年に公開した Nemotron 3 シリーズの最小サイズ(Nano)バリアントです。Nemotron シリーズは NVIDIA の自社製 LLM ファミリーで、Llama 系・Qwen 系・Mistral 系の高品質モデルから知識蒸留(Knowledge Distillation)を行って構築されています。Nano は 4B クラスのパラメータで、エッジ推論・低遅延チャット・組込用途を想定しています。
最大の差別化要因は、NVIDIA Hopper / Blackwell GPU 向けの TensorRT-LLM カーネル最適化が NVIDIA 公式に提供される点です。これにより、同じ 4B モデルでも他社実装より 1.5-2.5 倍のスループット改善が見込めます。Triton Inference Server と統合することで、Kubernetes ベースのスケーラブル推論基盤に容易に組み込めます。
| モデル | パラメータ | 用途 | 推奨 GPU | 公開時期 |
|---|---|---|---|---|
| Nemotron 3 Nano | 4B | エッジ・組込 | RTX 4060 Ti+ | 2026 |
| Nemotron 3 Small | 8B | RAG・チャット | RTX 4090 | 2026 |
| Nemotron 3 Mid | 70B | 大規模推論 | H100 80GB | 2026 |
| Nemotron 3 Large | 340B | 研究・エンタープライズ | 8x H100 | 2026 |
Nemotron 3 Nano は 4bit 量子化で約 2.5GB の VRAM/メモリで動作します。NVIDIA GPU 環境で TensorRT-LLM 最適化版を使うのが本来の真価ですが、汎用環境(LM Studio / Ollama)でも GGUF 版で動作します。
NVIDIA Jetson Orin Nano(8GB)や Jetson AGX Orin といったエッジ AI 開発キット向けの公式サポートも充実しており、組込・産業用途での採用が進んでいます。コンシューマ自作 PC 向けには、RTX 4060 Ti / RTX 5060 などのミッドレンジ GPU で十分実用速度です。
Q1: AMD GPU でも使えますか? A: 標準の GGUF 版なら ROCm + llama.cpp / Ollama 経由で動作します。ただし TensorRT-LLM 最適化の恩恵は受けられないため、性能は NVIDIA 環境より低くなります。
Q2: Jetson でリアルタイム推論できますか? A: Jetson AGX Orin で 50-80 tok/s、Jetson Orin Nano(8GB)で 10-20 tok/s 程度。チャットボット用途には十分実用的です。
Q3: 商用利用は可能ですか? A: Llama Community License 系の派生ライセンスで、月間アクティブユーザー 7 億未満の用途では商用利用可能です。