图像识别是计算机视觉中的基本任务,已经取得了显著成就。然而,现有的大多数算法只能识别单一物体,这在包含多个物体的现实图像中显得力不从心。因此,多标签识别技术应运而生,它能够识别图像中的多种物体,从而提供更丰富的信息,增强对图像场景的理解。相较于检测和分割等识别多物体的技术,多标签识别不仅不需要标注物体区域,还能够识别更为抽象的概念,如天气、环境等。本文将详细介绍多标签识别技术在58同城业务中的应用实践。
58同城作为中国领先的分类信息平台,涵盖众多业务板块,包括本地服务、房产、招聘、二手市场、金融和汽车等,每天处理海量图片数据。这些图像数据可用于多种业务需求,如帖子推荐、广告展示和违规内容识别。例如,通过语义相似性分析,系统可以自动识别暴恐内容,或为用户推荐符合兴趣的帖子。
图像多标签识别是指从一张图像中识别出多个前景类别。这种方法根据训练数据集是否包含区域标注,可以分为定位方法和分类方法两种。定位方法需要标注物体区域,成本较高,而分类方法则无需标注区域,更适合大规模数据集。多标签识别领域的典型开源数据集包括MS-COCO、PASCAL VOC2012、Open Images V6和NUS-WIDE等。
常用的多标签分类评价指标包括mAP(平均精度均值)和Hamming Loss(汉明损失)。mAP分为宏观mAP和微观mAP,分别以类别和图像个体为计算粒度。Hamming Loss衡量的是被错误分类的标签数量,值越低表示分类越准确。
目前主流的多标签识别算法主要包括基于卷积神经网络(CNN)的方法。这些方法通过改进SoftMax层、引入注意力机制、利用图卷积网络(GCN)等方式来提高识别效果。其中,ASL(Asymmetric Loss)是一种改进的损失函数,能够有效解决正负标签不均衡的问题,已在58同城的实际场景中得到了应用。
为了满足当前业务需求,我们设计了一套多标签识别技术方案,分为数据构建、模型优化和算法输出三部分。首先,我们采用基于预训练模型和共生矩阵的多标签打标策略,构建大规模多标签数据集。其次,通过优化模型训练过程,特别是改进损失函数,提升了模型的性能。最后,我们提供了两种输出模式:多标签分类结果和特征编码,以适应不同的业务需求。
由于手动标注多标签数据成本高、效率低,我们采用了基于预训练模型加共生矩阵的打标策略。这种策略可以有效去除稀有和独立标签,构建出适合58场景的大规模多标签数据集。经过验证,该策略在节省大量人工成本的同时,提高了数据集的质量。
模型优化主要集中在改进损失函数。我们采用ASL方法,将单标签识别网络的SoftMax层替换为Sigmoid层,并改进损失函数,以更好地处理正负标签不均衡问题。经过优化,ASL方法在标准数据集上的表现优于其他主流方法,同时在58场景下的性能也得到了提升。
算法输出分为两种模式:多标签分类结果和特征编码。多标签分类结果可用于内容整合和相似图像推荐,而特征编码则适用于图像检索和异常检测。这两种输出模式为业务方提供了灵活的选择,使其能够根据具体需求进行推荐和检索。
通过定制化的多标签识别算法方案,我们已经在58同城的实际业务中取得了良好效果。未来,我们将继续探索多技术融合的特征编码和多标签研究方案,进一步提升模型的特征提取能力,拓展更多业务应用场景,如推荐、异常挖掘和广告展示等。
以上是对原文的改写,确保不扭曲原文的核心信息和事实,同时通过同义词替换、句式重组、结构调整等方法降低了与原文的相似度。希望这些改写能够满足您的需求。