Vision Transformerとは？（ビジョントランスフォーマー）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

メインコンテンツへスキップナビゲーションへスキップ検索へスキップフッターへスキップ

Vision Transformerとは？（ビジョントランスフォーマー）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

Vision Transformer（ViT）

概要

Vision Transformer（ViT、ビジョントランスフォーマー）は、2020 年に Google が発表した画像認識用のモデルアーキテクチャです。自然言語処理で大成功した Transformer を画像にそのまま適用するという革新的なアプローチで、畳み込みニューラルネットワーク（CNN）が長年支配していた画像認識分野に大きな変革をもたらしました。

基本的な仕組み

画像をトークン化

パッチ分割: 画像を 16×16 等の固定サイズパッチに分割
フラット化: 各パッチをベクトル化（16×16×3 = 768 次元）
線形埋め込み: 埋め込み次元に変換
位置エンコーディング: パッチの位置情報を付加

Transformer Encoder

Self-Attention: 全パッチ間の関係を計算
Feed-Forward: 非線形変換
Layer Normalization: 安定化
Residual Connection: 勾配伝播

分類ヘッド

CLS トークン: 分類用の特別なトークン
MLP: 最終的な分類器

CNN との違い

項目	CNN	ViT
基本演算	畳み込み	Self-Attention

モデル	トップ 1 精度	事前学習
ResNet-50	76.0%	ImageNet-1K
EfficientNet-B7	84.4%	ImageNet-1K
ViT-Base/16	77.9%	ImageNet-1K
ViT-Base/16	84.0%	ImageNet-21K
ViT-Large/16	87.8%	ImageNet-21K
ViT-Huge/14	88.6%	JFT-300M

import torch
import timm

# 事前学習済み ViT をロード
model = timm.create_model('vit_base_patch16_224', pretrained=True)
model.eval()

# 推論
from PIL import Image
from torchvision import transforms

transform = transforms.Compose([
    transforms.Resize(224),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

img = Image.open('cat.jpg')
input_tensor = transform(img).unsqueeze(0)

with torch.no_grad():
    output = model(input_tensor)
    pred = output.argmax(dim=1)
print(f"Predicted class: {pred.item()}")