Computer Visionとは？（コンピュータービジョン）わかりやすく解説

Q: Computer Visionとは？

Computer Visionは、人工知能・機械学習分野における重要な概念・技術です。

Computer Vision（コンピュータビジョン）

概要

Computer Vision（コンピュータビジョン、CV）は、コンピュータに画像や動画を「見る」能力を与え、視覚情報から意味のある情報を抽出・理解・判断する技術分野です。1960 年代から研究されてきましたが、2012 年の AlexNet による深層学習革命以降、急速に発展し、現代では自動運転、医療診断、顔認証、産業検査、AR/VR など社会インフラを支える基盤技術となっています。

主要なタスク

1. Image Classification（画像分類）

画像全体を 1 つのカテゴリに分類：

入力: 画像
出力: クラスラベル
例: 猫、犬、車
ベンチマーク: ImageNet

2. Object Detection（物体検出）

画像内の物体の位置（バウンディングボックス）とクラスを検出：

入力: 画像
出力: [バウンディングボックス + クラス] のリスト
モデル: YOLO、Faster R-CNN、DETR
ベンチマーク: COCO

3. Semantic Segmentation（意味的セグメンテーション）

画像の各ピクセルにクラスを割り当てる：

入力: 画像
出力: ピクセル単位のクラスマップ
用途: 自動運転（道路 vs 歩道）、医療（臓器分離）
モデル: U-Net、DeepLab、SegFormer

4. Instance Segmentation（インスタンスセグメンテーション）

同じクラスの異なる個体を区別：

入力: 画像
出力: ピクセル単位 + インスタンス ID
: Mask R-CNN、SOLO、SAM

データセット	タスク	サイズ
ImageNet	分類	1,400 万枚、1,000 クラス
COCO	検出・セグ	33 万枚、80 クラス
Pascal VOC	検出・セグ	1 万枚
Cityscapes	セグ（都市）	25,000 枚
Open Images	検出	900 万枚
LVIS	長尾分布	16 万枚
ADE20K	セグ	22,000 枚
CelebA	顔	20 万枚
LFW	顔認識	13,000 枚
KITTI	自動運転	15,000 枚

用途	GPU	VRAM
学習入門	RTX 4060	8GB
標準学習	RTX 4070 Ti	16GB
大規模学習	RTX 4090	24GB
研究用途	A100	40-80GB

モデル	GPU	FPS
YOLOv11n	RTX 4060	200+
ResNet-50	RTX 4070	500+
ViT-Base	RTX 4070	300
Mask R-CNN	RTX 4090	30
SAM	RTX 4090	5-10

モデル	データ	GPU	時間
ResNet-50	ImageNet	RTX 4090	3-5 日
YOLOv11m	COCO	RTX 4090	1-2 日
ViT-Base	ImageNet-21K	RTX 4090	1-2 週間

Computer Vision（コンピュータビジョン）

概要

主要なタスク

1. Image Classification（画像分類）

2. Object Detection（物体検出）

3. Semantic Segmentation（意味的セグメンテーション）

4. Instance Segmentation（インスタンスセグメンテーション）

この用語に関連するコンテンツ

5. Panoptic Segmentation

6. Object Tracking（物体追跡）

7. Pose Estimation（姿勢推定）

8. Face Recognition（顔認識）

9. Optical Character Recognition（OCR）

10. Image Generation（画像生成）

技術の進化

古典的手法（〜2012）

CNN 時代（2012〜2020）

Transformer 時代（2020〜）

代表的なデータセット

主要なフレームワーク・ライブラリ

汎用

深層学習

高レベル

応用分野

自動運転

医療

製造業

小売

セキュリティ

エンターテインメント

農業

宇宙・地理

自作 PC での CV 開発

必要スペック

インストール例

サンプルコード（物体検出）

計算リソースの要件

推論（FPS）

学習時間（目安）

関連用語

関連用語