Inference Engineとは？（インファレンスエンジン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Inference Engineとは？（インファレンスエンジン）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Inference Engine（推論エンジン）

概要

Inference Engine（推論エンジン）は、学習済みの機械学習モデルを本番環境で効率的に実行するためのソフトウェアフレームワークです。学習は研究・開発フェーズで行われる一方、推論（Inference）は実運用で繰り返し実行されるため、高速性・低レイテンシ・省メモリ・デプロイの容易さが重視されます。

推論と学習の違い

項目	学習（Training）	推論（Inference）
頻度	一度 / 定期	継続的
計算量	非常に多い	中程度
勾配計算	必要	不要
メモリ	大量必要	少なくて済む
バッチサイズ	大きい	小さい（リアルタイム）
目的	モデル構築	モデル活用

主要な推論エンジン

汎用・クロスプラットフォーム

エンジン	特徴
vLLM	PagedAttention、高スループット
TGI	Hugging Face 本番向け
llama.cpp	CPU/GPU、量子化
Ollama	ローカル LLM 実行
TensorRT-LLM	NVIDIA、H100/B200
MLC-LLM	マルチプラットフォーム

import tensorrt as trt
# ONNX モデルを TensorRT エンジンに変換
logger = trt.Logger(trt.Logger.WARNING)
builder = trt.Builder(logger)
network = builder.create_network(1 &lt;&lt; int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
parser = trt.OnnxParser(network, logger)
with open('model.onnx', 'rb') as f:
    parser.parse(f.read())
config = builder.create_builder_config()
config.set_flag(trt.BuilderFlag.FP16)
engine = builder.build_engine(network, config)

import onnxruntime as ort

# セッション作成
session = ort.InferenceSession(
    'model.onnx',
    providers=['CUDAExecutionProvider', 'CPUExecutionProvider']
)

# 推論実行
input_name = session.get_inputs()[0].name
result = session.run(None, {input_name: input_data})

# TensorRT（最速）
pip install tensorrt onnx-tensorrt

# ONNX Runtime
pip install onnxruntime-gpu

# vLLM（LLM）
pip install vllm

# Ollama（簡単）
curl -fsSL https://ollama.com/install.sh | sh