第一期读书会聚焦计算机视觉领域,特别邀请了中科院自动化所模式识别国家重点实验室的赵朝阳博士与王宇航博士,他们围绕计算机视觉中的核心问题——目标检测和图像语义分割展开了深入讨论。
目标检测作为计算机视觉的基础任务之一,近年来在深度学习技术的推动下取得了显著进展。这项技术广泛应用于智能交通、监控、军事、医疗等领域。报告首先回顾了目标检测的传统流程,包括候选框生成、特征提取、目标分类和后处理步骤。接着,报告详细介绍了特征提取和目标分类的经典方法,如从哈尔特征到梯度直方图特征,再到积分图特征,逐步增强了特征的描述能力。此外,报告还介绍了级联方法在目标检测中的应用,尤其是在加速检测速度方面的优势。
虽然传统方法在人脸和行人检测等特定场景下表现出色,但在通用目标检测领域的表现却一直不尽人意。近年来,深度学习方法特别是卷积神经网络(CNN)在目标检测领域取得了突破性进展。报告详细梳理了RCNN、Fast RCNN和Faster RCNN的发展历程及其各自解决的问题,并对YOLO和SSD方法进行了深入分析,对比了它们的特点。
报告最后分享了嘉宾参与BOT大赛的经历,该比赛的视觉任务极具挑战性,涉及多种复杂的数据类型。最终,他们提出的解决方案不仅赢得了比赛的第一名,还获得了最佳算法奖。
图像语义分割作为一项像素级别的图像识别任务,正逐渐受到更多关注。它在多媒体、智能医疗和自动驾驶等领域有着广阔的应用前景。报告首先介绍了语义分割的基本概念,指出全监督方法是当前的主要研究方向。报告进一步探讨了为什么基于深度学习的方法能够在像素级别进行分类,尽管层级特征的感受野较大,但仍能捕捉到足够的局部信息。
报告重点介绍了FCN方法,并指出了改进的方向,包括调整网络的感受野、多尺度融合、更好的上采样方法和后处理,以及融合更多上下文信息。为了进一步提高语义分割的效果,报告嘉宾提出了一种轻量级反卷积网络方法——Light-DCNN。这种方法通过合理的参数初始化、去除全连接层、更好地利用空间位置信息和更精细的上采样方法,在PASCAL VOC 2012数据集上取得了最佳性能。此外,报告还介绍了基于堆叠的层级语义分割方法,该方法同样在PASCAL VOC 2012任务上取得了第一名的成绩。
最后,报告嘉宾还提到了语义分割的最新研究热点——实例分割,并对其最新的研究成果进行了详细讲解。