​图像多标签识别技术实践
作者头像
  • 申力
  • 2022-09-11 16:32:25 2

导读

图像识别是计算机视觉中的基本任务,已经取得了显著成就。然而,现有的大多数算法只能识别单一物体,这在包含多个物体的现实图像中显得力不从心。因此,多标签识别技术应运而生,它能够识别图像中的多种物体,从而提供更丰富的信息,增强对图像场景的理解。相较于检测和分割等识别多物体的技术,多标签识别不仅不需要标注物体区域,还能够识别更为抽象的概念,如天气、环境等。本文将详细介绍多标签识别技术在58同城业务中的应用实践。

业务背景

58同城作为中国领先的分类信息平台,涵盖众多业务板块,包括本地服务、房产、招聘、二手市场、金融和汽车等,每天处理海量图片数据。这些图像数据可用于多种业务需求,如帖子推荐、广告展示和违规内容识别。例如,通过语义相似性分析,系统可以自动识别暴恐内容,或为用户推荐符合兴趣的帖子。

技术背景

图像多标签识别是指从一张图像中识别出多个前景类别。这种方法根据训练数据集是否包含区域标注,可以分为定位方法和分类方法两种。定位方法需要标注物体区域,成本较高,而分类方法则无需标注区域,更适合大规模数据集。多标签识别领域的典型开源数据集包括MS-COCO、PASCAL VOC2012、Open Images V6和NUS-WIDE等。

评价指标

常用的多标签分类评价指标包括mAP(平均精度均值)和Hamming Loss(汉明损失)。mAP分为宏观mAP和微观mAP,分别以类别和图像个体为计算粒度。Hamming Loss衡量的是被错误分类的标签数量,值越低表示分类越准确。

主流算法

目前主流的多标签识别算法主要包括基于卷积神经网络(CNN)的方法。这些方法通过改进SoftMax层、引入注意力机制、利用图卷积网络(GCN)等方式来提高识别效果。其中,ASL(Asymmetric Loss)是一种改进的损失函数,能够有效解决正负标签不均衡的问题,已在58同城的实际场景中得到了应用。

技术方案

为了满足当前业务需求,我们设计了一套多标签识别技术方案,分为数据构建、模型优化和算法输出三部分。首先,我们采用基于预训练模型和共生矩阵的多标签打标策略,构建大规模多标签数据集。其次,通过优化模型训练过程,特别是改进损失函数,提升了模型的性能。最后,我们提供了两种输出模式:多标签分类结果和特征编码,以适应不同的业务需求。

数据构建方案

由于手动标注多标签数据成本高、效率低,我们采用了基于预训练模型加共生矩阵的打标策略。这种策略可以有效去除稀有和独立标签,构建出适合58场景的大规模多标签数据集。经过验证,该策略在节省大量人工成本的同时,提高了数据集的质量。

模型优化方案

模型优化主要集中在改进损失函数。我们采用ASL方法,将单标签识别网络的SoftMax层替换为Sigmoid层,并改进损失函数,以更好地处理正负标签不均衡问题。经过优化,ASL方法在标准数据集上的表现优于其他主流方法,同时在58场景下的性能也得到了提升。

算法输出方案

算法输出分为两种模式:多标签分类结果和特征编码。多标签分类结果可用于内容整合和相似图像推荐,而特征编码则适用于图像检索和异常检测。这两种输出模式为业务方提供了灵活的选择,使其能够根据具体需求进行推荐和检索。

总结展望

通过定制化的多标签识别算法方案,我们已经在58同城的实际业务中取得了良好效果。未来,我们将继续探索多技术融合的特征编码和多标签研究方案,进一步提升模型的特征提取能力,拓展更多业务应用场景,如推荐、异常挖掘和广告展示等。


以上是对原文的改写,确保不扭曲原文的核心信息和事实,同时通过同义词替换、句式重组、结构调整等方法降低了与原文的相似度。希望这些改写能够满足您的需求。

    本文来源:图灵汇
责任编辑: : 申力
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
识别图像实践标签技术
    下一篇