「计算机视觉必读干货」图像分类、检测，语义分割等方法梳理

AI科技评论
2022-07-17 08:27:20 7

+关注

深度学习在计算机视觉领域的四大基本任务应用

本文旨在介绍深度学习在计算机视觉领域四大基本任务中的应用，包括图像分类、定位、检测、语义分割和实例分割。

图像分类

图像分类任务的主要目标是判断一张输入图像所属的类别。以下是几种常用的分类数据集：

MNIST：包含60,000张训练图像和10,000张测试图像，共10个类别，图像大小为1×28×28，内容是手写数字。
CIFAR-10：包含50,000张训练图像和10,000张测试图像，共10个类别，图像大小为3×32×32。
CIFAR-100：包含50,000张训练图像和10,000张测试图像，共100个类别，图像大小为3×32×32。
ImageNet：包含1.2M张训练图像和50,000张验证图像，共1,000个类别。每年都会举办基于ImageNet数据集的ILSVRC竞赛。

常用的图像分类网络结构包括LeNet-5、AlexNet、VGG-16、GoogLeNet、Inception v3/v4、ResNet、preResNet、ResNeXt、随机深度、DenseNet等。这些网络各有特点，适用于不同的场景和需求。

定位与检测

目标定位 是在图像分类的基础上，进一步确定图像中目标的具体位置。通常使用包围盒的形式表示。目标定位的基本思路是采用多任务学习，网络有两个输出分支：一个用于分类，另一个用于定位。

目标检测 则是更为复杂的任务，需要在图像中检测出多种类别的目标。常用的检测数据集包括PASCAL VOC和MS COCO。评价指标主要有mAP和IoU。目标检测算法主要包括R-CNN、Fast R-CNN、Faster R-CNN、R-FCN、YOLO、SSD、FPN、RetinaNet等。这些算法各有优劣，适用于不同的场景。