Facebook一直以来致力于让用户能够在社交网络上轻松地搜索图片和视频内容,而无需依赖手动添加的标签。最近,该公司的应用机器学习团队负责人Joaquin Quiñonero Candela宣布,他们实现了这一目标,新的计算机视觉平台将在两个方面提升用户体验:一是基于图片本身而非图片标签和拍摄时间进行搜索;二是升级了自动图片描述系统,以帮助视觉障碍者更好地理解图片内容。
在社交媒体中发布信息时,内容往往是一张照片或一段视频。然而,直到最近,在线搜索依然主要依赖于文本,即使搜索对象是图片。这意味着图片能否被找到很大程度上取决于其标签和描述是否充分。
技术的进步使我们能够更深入地理解和分析图像内容。通过像素级别的图像分析,我们的系统可以识别图像中的内容、场景,甚至判断其中是否含有著名的地标。这不仅提升了图片搜索的准确性,也使得系统能更好地为视力受损的用户提供图片描述服务。
为了将人工智能技术融入到Facebook的工程中,公司建立了一个名为FBLearner Flow的平台,使工程师能够大规模地利用机器学习。目前,每月在这个平台上进行的人工智能实验超过120万次。随着平台的广泛应用,工程师们正在开发更多基于机器学习的工具和应用,以支持各种业务需求。
FBLearner Flow平台最初是Facebook AI Research的一个小项目,后来发展成为应用于实际生产的计算机视觉平台。该平台和团队最终转移至Applied Machine Learning团队,并成为Facebook计算机视觉团队的核心。基于FBLearner Flow平台开发的Lumos,是专门用于图像和视频理解的平台。工程师们无需具备深度学习或计算机视觉的专业知识,便可以通过Lumos训练和部署新的模型。
在图像分类方面,深度学习技术取得了重大突破,系统能够更准确地识别图像中的物体及其位置。Facebook开发了先进的技术,用于检测和分割图像中的特定物体,从而提供更丰富的数据集,供公司内多个产品和服务使用。目前,已有多个团队通过Lumos训练和部署了超过200个视觉模型,这些模型用于检测敏感内容、过滤垃圾信息以及生成自动图片描述。
在自动图片描述方面,Facebook正在改进其AAT(自动替代文本)技术,以更好地为视觉障碍用户提供服务。近期,公司增加了一系列新的动作描述,如“人在行走”、“人在跳舞”等。为了实现这一目标,Facebook收集了13万张包含人物的照片样本,并通过机器学习模型推断出照片中人物的动作。
Lumos平台通过结合检索和聚类技术,简化了训练数据的生成过程。用户可以通过界面快速迭代,选择标注集群作为正例或反例,并进行手动标记。这有助于分类任务的开展,并通过迭代训练提高分类器的精度。
通过Lumos,Facebook可以提供基于图像内容的搜索功能。例如,用户可以搜索“穿黑色衬衫的照片”,系统将识别出照片中出现黑色衬衫的内容,并呈现相关搜索结果,即使这些照片没有被标记。Facebook的自动图像分类器通过图像内容而非标签来搜索照片,确保搜索结果与查询内容相关。
为了提高搜索结果的相关性,系统使用了最新的深度学习技术来理解图像内容。系统采用了对象识别和图嵌入等方法,从图像中提取概念和类别,以提升搜索结果的准确性。此外,系统还通过图像之间的相似性度量来确保搜索结果的多样性。
未来,Facebook将继续研究如何处理视频和其他沉浸式表现形式,以提供更丰富的产品体验。Lumos将在这一过程中发挥重要作用,帮助公司稳定、快速、可扩展地实现这些目标。