图像多标签识别技术实践

申力
2022-09-11 16:32:25 2

导读

图像识别是计算机视觉中的基本任务，已经取得了显著成就。然而，现有的大多数算法只能识别单一物体，这在包含多个物体的现实图像中显得力不从心。因此，多标签识别技术应运而生，它能够识别图像中的多种物体，从而提供更丰富的信息，增强对图像场景的理解。相较于检测和分割等识别多物体的技术，多标签识别不仅不需要标注物体区域，还能够识别更为抽象的概念，如天气、环境等。本文将详细介绍多标签识别技术在58同城业务中的应用实践。

业务背景

58同城作为中国领先的分类信息平台，涵盖众多业务板块，包括本地服务、房产、招聘、二手市场、金融和汽车等，每天处理海量图片数据。这些图像数据可用于多种业务需求，如帖子推荐、广告展示和违规内容识别。例如，通过语义相似性分析，系统可以自动识别暴恐内容，或为用户推荐符合兴趣的帖子。

技术背景

图像多标签识别是指从一张图像中识别出多个前景类别。这种方法根据训练数据集是否包含区域标注，可以分为定位方法和分类方法两种。定位方法需要标注物体区域，成本较高，而分类方法则无需标注区域，更适合大规模数据集。多标签识别领域的典型开源数据集包括MS-COCO、PASCAL VOC2012、Open Images V6和NUS-WIDE等。

评价指标

常用的多标签分类评价指标包括mAP（平均精度均值）和Hamming Loss（汉明损失）。mAP分为宏观mAP和微观mAP，分别以类别和图像个体为计算粒度。Hamming Loss衡量的是被错误分类的标签数量，值越低表示分类越准确。

主流算法

目前主流的多标签识别算法主要包括基于卷积神经网络（CNN）的方法。这些方法通过改进SoftMax层、引入注意力机制、利用图卷积网络（GCN）等方式来提高识别效果。其中，ASL（Asymmetric Loss）是一种改进的损失函数，能够有效解决正负标签不均衡的问题，已在58同城的实际场景中得到了应用。

技术方案

为了满足当前业务需求，我们设计了一套多标签识别技术方案，分为数据构建、模型优化和算法输出三部分。首先，我们采用基于预训练模型和共生矩阵的多标签打标策略，构建大规模多标签数据集。其次，通过优化模型训练过程，特别是改进损失函数，提升了模型的性能。最后，我们提供了两种输出模式：多标签分类结果和特征编码，以适应不同的业务需求。

数据构建方案

由于手动标注多标签数据成本高、效率低，我们采用了基于预训练模型加共生矩阵的打标策略。这种策略可以有效去除稀有和独立标签，构建出适合58场景的大规模多标签数据集。经过验证，该策略在节省大量人工成本的同时，提高了数据集的质量。

模型优化方案

模型优化主要集中在改进损失函数。我们采用ASL方法，将单标签识别网络的SoftMax层替换为Sigmoid层，并改进损失函数，以更好地处理正负标签不均衡问题。经过优化，ASL方法在标准数据集上的表现优于其他主流方法，同时在58场景下的性能也得到了提升。

算法输出方案

算法输出分为两种模式：多标签分类结果和特征编码。多标签分类结果可用于内容整合和相似图像推荐，而特征编码则适用于图像检索和异常检测。这两种输出模式为业务方提供了灵活的选择，使其能够根据具体需求进行推荐和检索。

总结展望

通过定制化的多标签识别算法方案，我们已经在58同城的实际业务中取得了良好效果。未来，我们将继续探索多技术融合的特征编码和多标签研究方案，进一步提升模型的特征提取能力，拓展更多业务应用场景，如推荐、异常挖掘和广告展示等。

以上是对原文的改写，确保不扭曲原文的核心信息和事实，同时通过同义词替换、句式重组、结构调整等方法降低了与原文的相似度。希望这些改写能够满足您的需求。

图灵汇

责任编辑：：申力

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

识别图像实践标签技术

马莫回聊科技

2022-09-14

导读